1 분 소요

Error?

  • Error = Variance + Bias + Noise
  • Variance: 추정 값(Algorithm Output)의 평균과 추정 값 (Algorithm Output) 들 간의 차이
  • Bias: 추정 값 (Algorithm Output) 의 평균과 참 값(True)들 간의 차이
  • Bias는 참 값과 추정 값의 거리를 의미. Variance는 추정 값들의 흩어진 정도를 의미함
    • Overfitting : bias가 낮고, variance가 높은 상태
    • 둘다 낮은 모델이 best image
    • model complexity가 올라가면 bias가 증가함
  • regression 종류는 참조
  • 𝜷 추정 법
    • 공분산/분산 image
  • 𝜷 검증 : p-value가 0.05 이하인지 확인

모델 평가는 어떻게?

  • 정성적인 방법
    • R square (R^2)값이 1에 가까울수록 좋음
  • 정량적인 방법
    1. Average Error – 평균오차 (잘못된 정량적인 방법)
    2. Mean Absolute Error ; MAE – 평균 절대 오차
    3. Mean Absolute Percentage Error; MAPE – 평균 절대 비율 오차
    4. Mean Squared Error; MSE
    5. Root Mean Squared Error RMSE

Feature selection

  • Feature Selection 종류
    • Filter Method : X’s와 Y의 Correlation, Chi-Square Test, Anova, Variance Inflation Factor 등 간단한 기법으로 Filtering 수행
    • Wrapper Method : Forward Selection, Backward Elimination, Stepwise Selection을 활용한 Feature selection
    • Embedded Method : Regularization Approach를 활용하여 Model이 스스로 Feature Selection을 진행하는 방법 image

      Supervised Variable Selection

      1. Exhaustive Search (완전 탐색) 2^p-1개의 경우의 수 다 따짐 현실적으로 사용 불가
      2. Forward Selection R^2값이 높은 것들을 차례로 추가 함 변수 추가 했는데 정확도의 변화가 없으면 stop
      3. Backward Elimination 변수 다 넣고 시작 하나씩 제거 R^2값이 변화 없을 때 stop
      4. Stepwise Selection 2,3을 번갈아 가며 같이 씀

Embedded Method(Penalty Term)

댓글남기기