MR_LIBS/rf_8hpp_source.html

#ifndef LIGHTGBM_BOOSTING_RF_H_

#define LIGHTGBM_BOOSTING_RF_H_


#include <LightGBM/boosting.h>

#include <LightGBM/metric.h>

#include "score_updater.hpp"

#include "gbdt.h"


#include <cstdio>

#include <vector>

#include <string>

#include <fstream>


namespace LightGBM {


class RF : public GBDT {

public:

  RF() : GBDT() {

    average_output_ = true;

  }


  ~RF() {}


  void Init(const Config* config, const Dataset* train_data, const ObjectiveFunction* objective_function,

    const std::vector<const Metric*>& training_metrics) override {

    CHECK(config->bagging_freq > 0 && config->bagging_fraction < 1.0f && config->bagging_fraction > 0.0f);

    CHECK(config->feature_fraction <= 1.0f && config->feature_fraction > 0.0f);

    GBDT::Init(config, train_data, objective_function, training_metrics);


    if (num_init_iteration_ > 0) {

      for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

        MultiplyScore(cur_tree_id, 1.0f / num_init_iteration_);

      }

    } else {

      CHECK(train_data->metadata().init_score() == nullptr);

    }

    CHECK(num_tree_per_iteration_ == num_class_);

    // not shrinkage rate for the RF

    shrinkage_rate_ = 1.0f;

    // only boosting one time

    Boosting();

    if (is_use_subset_ && bag_data_cnt_ < num_data_) {

      tmp_grad_.resize(num_data_);

      tmp_hess_.resize(num_data_);

    }

  }


  void ResetConfig(const Config* config) override {

    CHECK(config->bagging_freq > 0 && config->bagging_fraction < 1.0f && config->bagging_fraction > 0.0f);

    CHECK(config->feature_fraction <= 1.0f && config->feature_fraction > 0.0f);

    GBDT::ResetConfig(config);

    // not shrinkage rate for the RF

    shrinkage_rate_ = 1.0f;

  }


  void ResetTrainingData(const Dataset* train_data, const ObjectiveFunction* objective_function,

    const std::vector<const Metric*>& training_metrics) override {

    GBDT::ResetTrainingData(train_data, objective_function, training_metrics);

    if (iter_ + num_init_iteration_ > 0) {

      for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

        train_score_updater_->MultiplyScore(1.0f / (iter_ + num_init_iteration_), cur_tree_id);

      }

    }

    CHECK(num_tree_per_iteration_ == num_class_);

    // only boosting one time

    Boosting();

    if (is_use_subset_ && bag_data_cnt_ < num_data_) {

      tmp_grad_.resize(num_data_);

      tmp_hess_.resize(num_data_);

    }

  }


  void Boosting() override {

    if (objective_function_ == nullptr) {

      Log::Fatal("No object function provided");

    }

    init_scores_.resize(num_tree_per_iteration_, 0.0);

    for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

      init_scores_[cur_tree_id] = BoostFromAverage(cur_tree_id, false);

    }

    size_t total_size = static_cast<size_t>(num_data_) * num_tree_per_iteration_;

    std::vector<double> tmp_scores(total_size, 0.0f);

    #pragma omp parallel for schedule(static)

    for (int j = 0; j < num_tree_per_iteration_; ++j) {

      size_t bias = static_cast<size_t>(j)* num_data_;

      for (data_size_t i = 0; i < num_data_; ++i) {

        tmp_scores[bias + i] = init_scores_[j];

      }

    }

    objective_function_->

      GetGradients(tmp_scores.data(), gradients_.data(), hessians_.data());

  }


  bool TrainOneIter(const score_t* gradients, const score_t* hessians) override {

    // bagging logic

    Bagging(iter_);

    CHECK(gradients == nullptr);

    CHECK(hessians == nullptr);


    gradients = gradients_.data();

    hessians = hessians_.data();

    for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

      std::unique_ptr<Tree> new_tree(new Tree(2));

      size_t bias = static_cast<size_t>(cur_tree_id)* num_data_;

      if (class_need_train_[cur_tree_id]) {

        auto grad = gradients + bias;

        auto hess = hessians + bias;


        // need to copy gradients for bagging subset.

        if (is_use_subset_ && bag_data_cnt_ < num_data_) {

          for (int i = 0; i < bag_data_cnt_; ++i) {

            tmp_grad_[i] = grad[bag_data_indices_[i]];

            tmp_hess_[i] = hess[bag_data_indices_[i]];

          }

          grad = tmp_grad_.data();

          hess = tmp_hess_.data();

        }


        new_tree.reset(tree_learner_->Train(grad, hess, is_constant_hessian_,

          forced_splits_json_));

      }


      if (new_tree->num_leaves() > 1) {

        tree_learner_->RenewTreeOutput(new_tree.get(), objective_function_, init_scores_[cur_tree_id],

          num_data_, bag_data_indices_.data(), bag_data_cnt_);

        if (std::fabs(init_scores_[cur_tree_id]) > kEpsilon) {

          new_tree->AddBias(init_scores_[cur_tree_id]);

        }

        // update score

        MultiplyScore(cur_tree_id, (iter_ + num_init_iteration_));

        UpdateScore(new_tree.get(), cur_tree_id);

        MultiplyScore(cur_tree_id, 1.0 / (iter_ + num_init_iteration_ + 1));

      } else {

        // only add default score one-time

        if (models_.size() < static_cast<size_t>(num_tree_per_iteration_)) {

          double output = 0.0;

          if (!class_need_train_[cur_tree_id]) {

            if (objective_function_ != nullptr) {

              output = objective_function_->BoostFromScore(cur_tree_id);

            } else {

              output = init_scores_[cur_tree_id];

            }

          }

          new_tree->AsConstantTree(output);

          MultiplyScore(cur_tree_id, (iter_ + num_init_iteration_));

          UpdateScore(new_tree.get(), cur_tree_id);

          MultiplyScore(cur_tree_id, 1.0 / (iter_ + num_init_iteration_ + 1));

        }

      }

      // add model

      models_.push_back(std::move(new_tree));

    }

    ++iter_;

    return false;

  }


  void RollbackOneIter() override {

    if (iter_ <= 0) { return; }

    int cur_iter = iter_ + num_init_iteration_ - 1;

    // reset score

    for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

      auto curr_tree = cur_iter * num_tree_per_iteration_ + cur_tree_id;

      models_[curr_tree]->Shrinkage(-1.0);

      MultiplyScore(cur_tree_id, (iter_ + num_init_iteration_));

      train_score_updater_->AddScore(models_[curr_tree].get(), cur_tree_id);

      for (auto& score_updater : valid_score_updater_) {

        score_updater->AddScore(models_[curr_tree].get(), cur_tree_id);

      }

      MultiplyScore(cur_tree_id, 1.0f / (iter_ + num_init_iteration_ - 1));

    }

    // remove model

    for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

      models_.pop_back();

    }

    --iter_;

  }


  void MultiplyScore(const int cur_tree_id, double val) {

    train_score_updater_->MultiplyScore(val, cur_tree_id);

    for (auto& score_updater : valid_score_updater_) {

      score_updater->MultiplyScore(val, cur_tree_id);

    }

  }


  void AddValidDataset(const Dataset* valid_data,

    const std::vector<const Metric*>& valid_metrics) override {

    GBDT::AddValidDataset(valid_data, valid_metrics);

    if (iter_ + num_init_iteration_ > 0) {

      for (int cur_tree_id = 0; cur_tree_id < num_tree_per_iteration_; ++cur_tree_id) {

        valid_score_updater_.back()->MultiplyScore(1.0f / (iter_ + num_init_iteration_), cur_tree_id);

      }

    }

  }


  bool NeedAccuratePrediction() const override {

    // No early stopping for prediction

    return true;

  };


private:

  std::vector<score_t> tmp_grad_;

  std::vector<score_t> tmp_hess_;

  std::vector<double> init_scores_;

};


}  // namespace LightGBM

#endif  // LIGHTGBM_BOOSTING_RF_H_

LightGBM::Dataset
The main class of data set, which are used to traning or validation.
Definition dataset.h:278

LightGBM::GBDT
GBDT algorithm implementation. including Training, prediction, bagging.
Definition gbdt.h:26

LightGBM::GBDT::hessians_
std::vector< score_t > hessians_
Secend order derivative of training data.
Definition gbdt.h:445

LightGBM::GBDT::Bagging
virtual void Bagging(int iter)
Implement bagging logic.
Definition gbdt.cpp:180

LightGBM::GBDT::AddValidDataset
void AddValidDataset(const Dataset *valid_data, const std::vector< const Metric * > &valid_metrics) override
Adding a validation dataset.
Definition gbdt.cpp:117

LightGBM::GBDT::models_
std::vector< std::unique_ptr< Tree > > models_
Trained models(trees)
Definition gbdt.h:439

LightGBM::GBDT::num_data_
data_size_t num_data_
Number of training data.
Definition gbdt.h:453

LightGBM::GBDT::tree_learner_
std::unique_ptr< TreeLearner > tree_learner_
Tree learner, will use this class to learn trees.
Definition gbdt.h:419

LightGBM::GBDT::UpdateScore
virtual void UpdateScore(const Tree *tree, const int cur_tree_id)
updating score after tree was trained
Definition gbdt.cpp:451

LightGBM::GBDT::Init
void Init(const Config *gbdt_config, const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Initialization logic.
Definition gbdt.cpp:45

LightGBM::GBDT::ResetTrainingData
void ResetTrainingData(const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Reset the training data.
Definition gbdt.cpp:622

LightGBM::GBDT::objective_function_
const ObjectiveFunction * objective_function_
Objective function.
Definition gbdt.h:421

LightGBM::GBDT::num_class_
int num_class_
Number of class.
Definition gbdt.h:457

LightGBM::GBDT::ResetConfig
void ResetConfig(const Config *gbdt_config) override
Reset Boosting Config.
Definition gbdt.cpp:676

LightGBM::GBDT::bag_data_indices_
std::vector< data_size_t > bag_data_indices_
Store the indices of in-bag data.
Definition gbdt.h:447

LightGBM::GBDT::valid_score_updater_
std::vector< std::unique_ptr< ScoreUpdater > > valid_score_updater_
Store and update validation data's scores.
Definition gbdt.h:427

LightGBM::GBDT::bag_data_cnt_
data_size_t bag_data_cnt_
Number of in-bag data.
Definition gbdt.h:449

LightGBM::GBDT::num_tree_per_iteration_
int num_tree_per_iteration_
Number of trees per iterations.
Definition gbdt.h:455

LightGBM::GBDT::iter_
int iter_
current iteration
Definition gbdt.h:413

LightGBM::GBDT::GBDT
GBDT()
Constructor.
Definition gbdt.cpp:22

LightGBM::GBDT::train_score_updater_
std::unique_ptr< ScoreUpdater > train_score_updater_
Store and update training data's score.
Definition gbdt.h:423

LightGBM::GBDT::shrinkage_rate_
double shrinkage_rate_
Shrinkage rate for one iteration.
Definition gbdt.h:463

LightGBM::GBDT::gradients_
std::vector< score_t > gradients_
First order derivative of training data.
Definition gbdt.h:443

LightGBM::GBDT::num_init_iteration_
int num_init_iteration_
Number of loaded initial models.
Definition gbdt.h:465

LightGBM::ObjectiveFunction
The interface of Objective Function.
Definition objective_function.h:13

LightGBM::RF
Rondom Forest implementation.
Definition rf.hpp:18

LightGBM::RF::ResetTrainingData
void ResetTrainingData(const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Reset the training data.
Definition rf.hpp:58

LightGBM::RF::ResetConfig
void ResetConfig(const Config *config) override
Reset Boosting Config.
Definition rf.hpp:50

LightGBM::RF::AddValidDataset
void AddValidDataset(const Dataset *valid_data, const std::vector< const Metric * > &valid_metrics) override
Adding a validation dataset.
Definition rf.hpp:187

LightGBM::RF::Boosting
void Boosting() override
calculate the object function
Definition rf.hpp:75

LightGBM::RF::NeedAccuratePrediction
bool NeedAccuratePrediction() const override
Can use early stopping for prediction or not.
Definition rf.hpp:197

LightGBM::RF::RollbackOneIter
void RollbackOneIter() override
Rollback one iteration.
Definition rf.hpp:159

LightGBM::RF::Init
void Init(const Config *config, const Dataset *train_data, const ObjectiveFunction *objective_function, const std::vector< const Metric * > &training_metrics) override
Initialization logic.
Definition rf.hpp:26

LightGBM::RF::TrainOneIter
bool TrainOneIter(const score_t *gradients, const score_t *hessians) override
Training logic.
Definition rf.hpp:96

LightGBM::Tree
Tree model.
Definition tree.h:20

LightGBM
desc and descl2 fields must be written in reStructuredText format
Definition application.h:10

LightGBM::score_t
float score_t
Type of score, and gradients.
Definition meta.h:26

LightGBM::data_size_t
int32_t data_size_t
Type of data size, it is better to use signed type.
Definition meta.h:14

LightGBM::Config
Definition config.h:27