Light GBM
- 목적: 사용하는 Feature와 Data를 줄여보자
- Gradient based One Side Sampling (GOSS)
- Information Gain을 계산할 때 각각의 Data는 다 다른 Gradient를 갖고 있음
- 그렇다고 하면 Gradient가 큰 Data는 Keep 하고 Gradient가 낮은 Data는 Randomly Drop을 수행
-
- 각 Data 마다의 Gradient를 구하고 Sorting 함
- Gradient가 높은 것은 계속 Keep 하고, Gradient가 낮은 것은 Randomly Drop을 수행
- (1-a)/b < 1 할 때, 효과가 극대화 되게 됨: case1 a=0.1, b=0.9 vs case2 a=0.05, b=0.5
-> case2 권장
- (1-a)/b < 1 할 때, 효과가 극대화 되게 됨: case1 a=0.1, b=0.9 vs case2 a=0.05, b=0.5
-> case2 권장
- Exclusive Feature Bundling (EFB)
- 대게 0(Zero) 값을 동시에 가지는 Data는 거의 없음 (One-hot encoding)
- 따라서, 독립적인(Exclusive) Feature는 하나로 Bundling 함
- Exclusive Feature Bundling (EFB)
- Step 1 Greedy Bundling : 어떤 Feature들을 하나로 Bundling 할 것인지 탐색함
- Feature 간 독립적인 관계를 판단하기 위해 Graph를 구축함
- Graph (V, E) (단, V=feature, E: total conflicts between features)
- conflicts 강도(동시에 0이 아닌 데이터 수)
example: (cut-off = 0.2) → N=1 → 10 x 2 = 2회 이상은 Edge 가 끊어지게 됨
- Step 2 Merge Exclusive Features : 새로운 하나의 변수로 치환해 줌
- Add offsets to the original values of the feature
- Add offsets to the original values of the feature
- Step 1 Greedy Bundling : 어떤 Feature들을 하나로 Bundling 할 것인지 탐색함
- 실습: 11. Light GBM Code
댓글남기기