목록머신러닝 (1)
수학쟁이의 공부 이야기

xgboost, lightgbm과 같은 트리 기반 앙상블 모델은 크게 classification(분류), regression(회귀)의 문제로 나뉜다. 각각의 경우 어떻게 앙상블 모델의 feature importance를 구하는지 알아보겠다. 그리고 더 나아가 기존의 built in feature importance의 단점을 보완한 permutation importance에 대해서도 다뤄보겠다. classification(분류)를 위한 트리 기반 앙상블 모델 우리가 위의 그림처럼 이진분류를 한다고 가정해보자. 분류가 한쪽으로 몰릴수록 잘 분류된 것이므로 impurity(불순도)라는 개념을 도입한다. 1에서 비율의 제곱합들을 빼주는데 (0.5,0.5) 비율로 나눠질 때 가장 큰 값을 가지고 (1,0) 비율로..
데이터 분석
2023. 2. 2. 09:52