- Basic of Data Analytics
데이터 분석이 뭔데?
- Data-> ML-> Logic의 과정
- prediction이 목적
- 문제정의-> 데이터 확인-> PoC-> 정식 프로젝트
- code 보단 data 자체에 집중
접근하는 문제는?
데이터를 쓸 수 있게
- 실제 데이터에서는 N/A, Null등의 이상값이 존재→ Missing value 처리
- Zero 비율이 0.95 이상인 경우→분석에 의미가 있는지 재확인 혹은 Drop
- 독립변수 간 상관관계가 높은 경우→다중공선성 의심
- Class Imbalance 체크→비율이 0.9 이상인 경우, data sampling 고려
feature engineering
feature selection
운영적 관점
- 적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용이 감소
- 적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도가 빨라짐
통계적 관점
- 데이터에 대한 해석력을 높여줌
- 다중공성선의 문제에 대한 해결책으로 차원 축소를 이용할 수 있음
- Robust Scale 모델로 예측력의 향상을 기대할 수 있음 ‒ Bias, Over Fitting 방지
Supervised/ Unsupervised Learning
Train/ Validation/ Test 설계 모식도
- “Validation set에서 성능이 안 좋으면 학습을 멈추면 되겠네!”
- 학습 과정에서 Unseen data에 대한 성능을 측정할 수 있음
- 학습 과정에서 Overfitting에 대해 감지할 수 있음 -> Early Stop 가능
모델에 대한 평가는?-> model metrics
- 평가 모식도:
- classification에 쓰이는 척도 ・Accuracy: 분류의 전체적인 정확도를 확인 할 수 있는 지표 ・Recall: 분류하고자 하는 클래스를 분류하였는지를 측정하는 지표 ・Precision: 모델이 분류한 클래스가 제대로 분류하였는지를 측정하는 지표 ・F1: Recall과 Precision의 조화 평균
- regression에 쓰이는 척도
・MAE(Mean Average Error): 실제 값과 예측 값의 차이 평균
・MAPE(Mean Average Percentile Error): 실제 값과 예측 값의 비율 차이의 평균
・MSE(Mean Squared Error): 실제 값과 예측 값의 차이를 제곱하고 평균
・RMSE(Root Mean Squared Error): MSE에 제곱근
- 특수한 척도
- 클래스가 명확히 나눠지지 않고 순위로 평가하는 경우 (추천) Precision@k: 예측한 결과의 상위 k개와 실제 결과의 상위 k개의 매칭 정도 Recall@k: 예측한 결과 k개 중 실제 결과에서 나왔어야 하는 정도
- 겹치는 정도를 측정하기 위해 사용하는 척도
IoU(Intersection of Union)
- 데이터 간의 거리를 측정하기 위해 사용하는 척도
Distance(Euclidean, Cosine, Manhattan)
마지막: 시각화
- 모델링 후 성능 모니터링 대시보드 구성
- 차트 종류
- Line chart
- Bar chart
- Pie chart
- Box plot
- HeatMap
- Line chart
- 어떤 상황에서?
- 데이터의 분포 확인 Histogram(Bar chart)
- Time series 데이터 Seasonality 확인 Line chart
- 타겟 비율 확인 Pie chart
- 변수 별 최대값, 최소값, 사분위수 비교 Box plot
- 2개의 카테고리 값에 대한 값 변화 모니터링 Heatmap
댓글남기기