MR_LIBS/dart_8hpp_source.html

#ifndef LIGHTGBM_BOOSTING_DART_H_

#define LIGHTGBM_BOOSTING_DART_H_


#include <LightGBM/boosting.h>

#include "score_updater.hpp"

#include "gbdt.h"


#include <cstdio>

#include <vector>

#include <string>

#include <fstream>


namespace LightGBM {


class DART: public GBDT {

public:

  DART() : GBDT() { }

  ~DART() { }


  void Init(const Config* config, const Dataset* train_data,

            const ObjectiveFunction* objective_function,

            const std::vector<const Metric*>& training_metrics) override {

    GBDT::Init(config, train_data, objective_function, training_metrics);

    random_for_drop_ = Random(config_->drop_seed);

    sum_weight_ = 0.0f;

  }


  void ResetConfig(const Config* config) override {

    GBDT::ResetConfig(config);

    random_for_drop_ = Random(config_->drop_seed);

    sum_weight_ = 0.0f;

  }


  bool TrainOneIter(const score_t* gradient, const score_t* hessian) override {

    is_update_score_cur_iter_ = false;

    bool ret = GBDT::TrainOneIter(gradient, hessian);

    if (ret) {

      return ret;

    }

    // normalize

    Normalize();

    if (!config_->uniform_drop) {

      tree_weight_.push_back(shrinkage_rate_);

      sum_weight_ += shrinkage_rate_;

    }

    return false;

  }


  const double* GetTrainingScore(int64_t* out_len) override {

    if (!is_update_score_cur_iter_) {

      // only drop one time in one iteration

      DroppingTrees();

      is_update_score_cur_iter_ = true;

    }

    *out_len = static_cast<int64_t>(train_score_updater_->num_data()) * num_class_;

    return train_score_updater_->score();

  }


  bool EvalAndCheckEarlyStopping() override {

    GBDT::OutputMetric(iter_);

    return false;

  }


private:

  void DroppingTrees() {

    drop_index_.clear();

    bool is_skip = random_for_drop_.NextFloat() < config_->skip_drop;

    // select dropping tree indices based on drop_rate and tree weights

    if (!is_skip) {

      double drop_rate = config_->drop_rate;

      if (!config_->uniform_drop) {

        double inv_average_weight = static_cast<double>(tree_weight_.size()) / sum_weight_;

        if (config_->max_drop > 0) {

          drop_rate = std::min(drop_rate, config_->max_drop * inv_average_weight / sum_weight_);

        }

        for (int i = 0; i < iter_; ++i) {

          if (random_for_drop_.NextFloat() < drop_rate * tree_weight_[i] * inv_average_weight) {

            drop_index_.push_back(num_init_iteration_ + i);

            if (drop_index_.size() >= static_cast<size_t>(config_->max_drop)) {

              break;

            }

          }

        }

      } else {

        if (config_->max_drop > 0) {

          drop_rate = std::min(drop_rate, config_->max_drop / static_cast<double>(iter_));

        }

        for (int i = 0; i < iter_; ++i) {

          if (random_for_drop_.NextFloat() < drop_rate) {

            drop_index_.push_back(num_init_iteration_ + i);

            if (drop_index_.size() >= static_cast<size_t>(config_->max_drop)) {

              break;

            }

          }

        }

      }

    }

    // drop trees

    for (auto i : drop_index_) {

      for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

        auto curr_tree = i * num_tree_per_iteration_ + cur_tree_id;

        models_[curr_tree]->Shrinkage(-1.0);

        train_score_updater_->AddScore(models_[curr_tree].get(), cur_tree_id);

      }

    }

    if (!config_->xgboost_dart_mode) {

      shrinkage_rate_ = config_->learning_rate / (1.0f + static_cast<double>(drop_index_.size()));

    } else {

      if (drop_index_.empty()) {

        shrinkage_rate_ = config_->learning_rate;

      } else {

        shrinkage_rate_ = config_->learning_rate / (config_->learning_rate + static_cast<double>(drop_index_.size()));

      }

    }

  }

  void Normalize() {

    double k = static_cast<double>(drop_index_.size());

    if (!config_->xgboost_dart_mode) {

      for (auto i : drop_index_) {

        for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

          auto curr_tree = i * num_tree_per_iteration_ + cur_tree_id;

          // update validation score

          models_[curr_tree]->Shrinkage(1.0f / (k + 1.0f));

          for (auto& score_updater : valid_score_updater_) {

            score_updater->AddScore(models_[curr_tree].get(), cur_tree_id);

          }

          // update training score

          models_[curr_tree]->Shrinkage(-k);

          train_score_updater_->AddScore(models_[curr_tree].get(), cur_tree_id);

        }

        if (!config_->uniform_drop) {

          sum_weight_ -= tree_weight_[i] * (1.0f / (k + 1.0f));

          tree_weight_[i] *= (k / (k + 1.0f));

        }

      }

    } else {

      for (auto i : drop_index_) {

        for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

          auto curr_tree = i * num_tree_per_iteration_ + cur_tree_id;

          // update validation score

          models_[curr_tree]->Shrinkage(shrinkage_rate_);

          for (auto& score_updater : valid_score_updater_) {

            score_updater->AddScore(models_[curr_tree].get(), cur_tree_id);

          }

          // update training score

          models_[curr_tree]->Shrinkage(-k / config_->learning_rate);

          train_score_updater_->AddScore(models_[curr_tree].get(), cur_tree_id);

        }

        if (!config_->uniform_drop) {

          sum_weight_ -= tree_weight_[i] * (1.0f / (k + config_->learning_rate));;

          tree_weight_[i] *= (k / (k + config_->learning_rate));

        }

      }

    }

  }

  std::vector<double> tree_weight_;

  double sum_weight_;

  std::vector<int> drop_index_;

  Random random_for_drop_;

  bool is_update_score_cur_iter_;

};


}  // namespace LightGBM

#endif   // LightGBM_BOOSTING_DART_H_

LightGBM::DART
DART algorithm implementation. including Training, prediction, bagging.
Definition dart.hpp:17

LightGBM::DART::Init
void Init(const Config *config, const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Initialization logic.
Definition dart.hpp:35

LightGBM::DART::DART
DART()
Constructor.
Definition dart.hpp:22

LightGBM::DART::EvalAndCheckEarlyStopping
bool EvalAndCheckEarlyStopping() override
Print eval result and check early stopping.
Definition dart.hpp:82

LightGBM::DART::~DART
~DART()
Destructor.
Definition dart.hpp:26

LightGBM::DART::TrainOneIter
bool TrainOneIter(const score_t *gradient, const score_t *hessian) override
one training iteration
Definition dart.hpp:52

LightGBM::DART::GetTrainingScore
const double * GetTrainingScore(int64_t *out_len) override
Get current training score.
Definition dart.hpp:72

LightGBM::Dataset
The main class of data set, which are used to traning or validation.
Definition dataset.h:278

LightGBM::GBDT
GBDT algorithm implementation. including Training, prediction, bagging.
Definition gbdt.h:26

LightGBM::GBDT::models_
std::vector< std::unique_ptr< Tree > > models_
Trained models(trees)
Definition gbdt.h:439

LightGBM::GBDT::Init
void Init(const Config *gbdt_config, const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Initialization logic.
Definition gbdt.cpp:45

LightGBM::GBDT::num_class_
int num_class_
Number of class.
Definition gbdt.h:457

LightGBM::GBDT::ResetConfig
void ResetConfig(const Config *gbdt_config) override
Reset Boosting Config.
Definition gbdt.cpp:676

LightGBM::GBDT::TrainOneIter
virtual bool TrainOneIter(const score_t *gradients, const score_t *hessians) override
Training logic.
Definition gbdt.cpp:333

LightGBM::GBDT::valid_score_updater_
std::vector< std::unique_ptr< ScoreUpdater > > valid_score_updater_
Store and update validation data's scores.
Definition gbdt.h:427

LightGBM::GBDT::config_
std::unique_ptr< Config > config_
Config of gbdt.
Definition gbdt.h:417

LightGBM::GBDT::num_tree_per_iteration_
int num_tree_per_iteration_
Number of trees per iterations.
Definition gbdt.h:455

LightGBM::GBDT::OutputMetric
std::string OutputMetric(int iter)
Print metric result of current iteration.
Definition gbdt.cpp:476

LightGBM::GBDT::iter_
int iter_
current iteration
Definition gbdt.h:413

LightGBM::GBDT::train_score_updater_
std::unique_ptr< ScoreUpdater > train_score_updater_
Store and update training data's score.
Definition gbdt.h:423

LightGBM::GBDT::shrinkage_rate_
double shrinkage_rate_
Shrinkage rate for one iteration.
Definition gbdt.h:463

LightGBM::GBDT::num_init_iteration_
int num_init_iteration_
Number of loaded initial models.
Definition gbdt.h:465

LightGBM::ObjectiveFunction
The interface of Objective Function.
Definition objective_function.h:13

LightGBM::Random
A wrapper for random generator.
Definition random.h:15

LightGBM::Random::NextFloat
float NextFloat()
Generate random float data.
Definition random.h:56

LightGBM
desc and descl2 fields must be written in reStructuredText format
Definition application.h:10

LightGBM::score_t
float score_t
Type of score, and gradients.
Definition meta.h:26

LightGBM::Config
Definition config.h:27