1 분 소요

데이터 분석이 뭔데?

  • Data-> ML-> Logic의 과정
  • prediction이 목적
  • 문제정의-> 데이터 확인-> PoC-> 정식 프로젝트
  • code 보단 data 자체에 집중

접근하는 문제는?

데이터를 쓸 수 있게

  • 실제 데이터에서는 N/A, Null등의 이상값이 존재→ Missing value 처리
  • Zero 비율이 0.95 이상인 경우→분석에 의미가 있는지 재확인 혹은 Drop
  • 독립변수 간 상관관계가 높은 경우→다중공선성 의심 image
  • Class Imbalance 체크→비율이 0.9 이상인 경우, data sampling 고려

feature engineering

feature selection

운영적 관점

  1. 적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용이 감소
  2. 적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도가 빨라짐

통계적 관점

  1. 데이터에 대한 해석력을 높여줌
  2. 다중공성선의 문제에 대한 해결책으로 차원 축소를 이용할 수 있음
  3. Robust Scale 모델로 예측력의 향상을 기대할 수 있음 ‒ Bias, Over Fitting 방지

Supervised/ Unsupervised Learning

Train/ Validation/ Test 설계 모식도

  • image
  • “Validation set에서 성능이 안 좋으면 학습을 멈추면 되겠네!”
  • 학습 과정에서 Unseen data에 대한 성능을 측정할 수 있음
  • 학습 과정에서 Overfitting에 대해 감지할 수 있음 -> Early Stop 가능 image

모델에 대한 평가는?-> model metrics

  • 평가 모식도: image
  • classification에 쓰이는 척도 ・Accuracy: 분류의 전체적인 정확도를 확인 할 수 있는 지표 ・Recall: 분류하고자 하는 클래스를 분류하였는지를 측정하는 지표 ・Precision: 모델이 분류한 클래스가 제대로 분류하였는지를 측정하는 지표 ・F1: Recall과 Precision의 조화 평균
  • regression에 쓰이는 척도 ・MAE(Mean Average Error): 실제 값과 예측 값의 차이 평균 ・MAPE(Mean Average Percentile Error): 실제 값과 예측 값의 비율 차이의 평균 ・MSE(Mean Squared Error): 실제 값과 예측 값의 차이를 제곱하고 평균 ・RMSE(Root Mean Squared Error): MSE에 제곱근 image
  • 특수한 척도
    • 클래스가 명확히 나눠지지 않고 순위로 평가하는 경우 (추천) Precision@k: 예측한 결과의 상위 k개와 실제 결과의 상위 k개의 매칭 정도 Recall@k: 예측한 결과 k개 중 실제 결과에서 나왔어야 하는 정도
    • 겹치는 정도를 측정하기 위해 사용하는 척도 IoU(Intersection of Union) image
    • 데이터 간의 거리를 측정하기 위해 사용하는 척도 Distance(Euclidean, Cosine, Manhattan) image

마지막: 시각화

  • 모델링 후 성능 모니터링 대시보드 구성 image
  • 차트 종류
    1. Line chartimage
    2. Bar chartimage
    3. Pie chart image
    4. Box plot image
    5. HeatMap image
  • 어떤 상황에서?
    • 데이터의 분포 확인 Histogram(Bar chart)
    • Time series 데이터 Seasonality 확인 Line chart
    • 타겟 비율 확인 Pie chart
    • 변수 별 최대값, 최소값, 사분위수 비교 Box plot
    • 2개의 카테고리 값에 대한 값 변화 모니터링 Heatmap

댓글남기기