Lee SeungHyun

code7ssage의 블로그 입니당:)

Basic of Data Analytics

2024-03-02 1 분 소요

데이터 분석이 뭔데?

Data-> ML-> Logic의 과정
prediction이 목적
문제정의-> 데이터 확인-> PoC-> 정식 프로젝트
code 보단 data 자체에 집중

접근하는 문제는?

데이터를 쓸 수 있게

실제 데이터에서는 N/A, Null등의 이상값이 존재→ Missing value 처리
Zero 비율이 0.95 이상인 경우→분석에 의미가 있는지 재확인 혹은 Drop
독립변수 간 상관관계가 높은 경우→다중공선성 의심
Class Imbalance 체크→비율이 0.9 이상인 경우, data sampling 고려

feature engineering

feature selection

운영적 관점

적재하는 데이터의 양이 적어지므로 시스템을 운영하는 비용이 감소
적은 변수를 사용할 경우, 그렇지 않은 경우보다 시스템의 속도가 빨라짐

통계적 관점

데이터에 대한 해석력을 높여줌
다중공성선의 문제에 대한 해결책으로 차원 축소를 이용할 수 있음
Robust Scale 모델로 예측력의 향상을 기대할 수 있음 ‒ Bias, Over Fitting 방지

Supervised/ Unsupervised Learning

Train/ Validation/ Test 설계 모식도

“Validation set에서 성능이 안 좋으면 학습을 멈추면 되겠네!”
학습 과정에서 Unseen data에 대한 성능을 측정할 수 있음
학습 과정에서 Overfitting에 대해 감지할 수 있음 -> Early Stop 가능

모델에 대한 평가는?-> model metrics

평가 모식도:
classification에 쓰이는 척도 ・Accuracy: 분류의 전체적인 정확도를 확인 할 수 있는 지표 ・Recall: 분류하고자 하는 클래스를 분류하였는지를 측정하는 지표 ・Precision: 모델이 분류한 클래스가 제대로 분류하였는지를 측정하는 지표 ・F1: Recall과 Precision의 조화 평균
regression에 쓰이는 척도 ・MAE(Mean Average Error): 실제 값과 예측 값의 차이 평균 ・MAPE(Mean Average Percentile Error): 실제 값과 예측 값의 비율 차이의 평균 ・MSE(Mean Squared Error): 실제 값과 예측 값의 차이를 제곱하고 평균 ・RMSE(Root Mean Squared Error): MSE에 제곱근
특수한 척도
- 클래스가 명확히 나눠지지 않고 순위로 평가하는 경우 (추천) Precision@k: 예측한 결과의 상위 k개와 실제 결과의 상위 k개의 매칭 정도 Recall@k: 예측한 결과 k개 중 실제 결과에서 나왔어야 하는 정도
- 겹치는 정도를 측정하기 위해 사용하는 척도 IoU(Intersection of Union)
- 데이터 간의 거리를 측정하기 위해 사용하는 척도 Distance(Euclidean, Cosine, Manhattan)

마지막: 시각화

모델링 후 성능 모니터링 대시보드 구성
차트 종류
1. Line chart
2. Bar chart
3. Pie chart
4. Box plot
5. HeatMap
어떤 상황에서?
- 데이터의 분포 확인 Histogram(Bar chart)
- Time series 데이터 Seasonality 확인 Line chart
- 타겟 비율 확인 Pie chart
- 변수 별 최대값, 최소값, 사분위수 비교 Box plot
- 2개의 카테고리 값에 대한 값 변화 모니터링 Heatmap

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

코드 유사성 판단 경진 대회- private 3위

2024-04-08 8 분 소요

라이브러리 및 seed고정

25.One-class SVM Code

2024-03-27 9 분 소요

[목적] Support Vector Machine 실습 One-Class Support Vector Machine 실습 Multivariate variable (다변량)일 때 사용

24.Robust Random Cut Forest Code

2024-03-27 최대 1 분 소요

[목적] Robust Random Cut Forest Code 실습 Multivariate variable (다변량)일 때 사용 각 Data마다 Score를 계산하여 Abnormal을 산출 할 수 있음

23.Isolation Forest Code

2024-03-27 3 분 소요

[목적] Isolation Forest Code 실습 Multivariate variable (다변량)일 때 사용 각 Data마다 Score를 계산하여 Abnormal을 산출 할 수 있음