2-1. Regression Problem
Error?
- Error = Variance + Bias + Noise
- Variance: 추정 값(Algorithm Output)의 평균과 추정 값 (Algorithm Output) 들 간의 차이
- Bias: 추정 값 (Algorithm Output) 의 평균과 참 값(True)들 간의 차이
- Bias는 참 값과 추정 값의 거리를 의미. Variance는 추정 값들의 흩어진 정도를 의미함
- Overfitting : bias가 낮고, variance가 높은 상태
- 둘다 낮은 모델이 best
- model complexity가 올라가면 bias가 증가함
- regression 종류는 참조
- 𝜷 추정 법
- 공분산/분산
- 공분산/분산
- 𝜷 검증 : p-value가 0.05 이하인지 확인
모델 평가는 어떻게?
- 정성적인 방법
- R square (R^2)값이 1에 가까울수록 좋음
- 정량적인 방법
Feature selection
- Feature Selection 종류
- Filter Method : X’s와 Y의 Correlation, Chi-Square Test, Anova, Variance Inflation Factor 등 간단한 기법으로 Filtering 수행
- Wrapper Method : Forward Selection, Backward Elimination, Stepwise Selection을 활용한 Feature selection
- Embedded Method : Regularization Approach를 활용하여 Model이 스스로 Feature Selection을 진행하는 방법
Supervised Variable Selection
- Exhaustive Search (완전 탐색) 2^p-1개의 경우의 수 다 따짐 현실적으로 사용 불가
- Forward Selection R^2값이 높은 것들을 차례로 추가 함 변수 추가 했는데 정확도의 변화가 없으면 stop
- Backward Elimination 변수 다 넣고 시작 하나씩 제거 R^2값이 변화 없을 때 stop
- Stepwise Selection 2,3을 번갈아 가며 같이 씀
Embedded Method(Penalty Term)
- 장점
- Wrapper Method와 같이 Features의 상호작용을 고려함
- 다른 방법 보다 상대적으로 시간을 Save할 수 있음
- Model이 Train하면서 Feature의 Subset을 찾아감
- Ridge와 LASSO 모두 t가 작아짐에 따라 (λ 가 커짐에 따라) 모든 계수의 크기가 감소함
- Ridge and Lasso 장단점
실습: 5. Regularized Model-LASSO Code
댓글남기기