MATH & ML

Decision Tree, Random Forest, Ensemble(Bagging vs Boosting) Xgboost 본문

Machine Learning

Decision Tree, Random Forest, Ensemble(Bagging vs Boosting) Xgboost

BlogYong 2018. 9. 8. 18:19

1. Ensemble이란 여러 모델을 이용하여 데이터를 학습하고, 모든 모델의 예측 결과를 평균하여 예측하는 방법(앙상블=뭔가 통합? 합쳐서 함께 어우른다는 느낌)

1-1) Bagging방법이란 Bootstrap Aggregation의 약자로, 병렬적인 Ensemble모델로서 random sampling을 통해 여러가지 예측모형을 만들어 이를 함께 이용하여 학습하는, Variance를 감소시키기 위해 쓰는 방법(Random Forest)

1-2) Boosting방법이란 Bagging방법의 변형으로 이전 모델이 예측하지 못한 데이터에 대하여 가중치를 두어서 다음 모델이 더 학습을 잘 할 수 있도록 하는 방법, Bias를 감소시키기 위해 쓰는 방법(Xgboost, Gradient Boosting, AdaBoost)


2. Decision tree란 의사결정나무. 스무고개같은 질문으로 tree를 만들어 데이터를 학습시키는 방법


3. Random Forest란 Bagging방법을 이용하여 여러개의 Decision tree를 이용하여 학습하는 방법. 데이터 샘플링시에 일부 feature만 랜덤하게 뽑아서 각 모델이 다른 feature를 학습할 수 있도록 만든 방법


4. Xgboost란 eXtreme Gradient Boosting의 약자로, CART개념을 도입하여 각 tree의 leaf에 CART를 넣어서 각 leaf별로 점수를 주어서 이 점수를 이용하여 학습하는 방법.


너무너무 좋은 자세한 친절한 이해잘가는 자료 : https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting


Comments