최근 포스트

시계열 데이터

최대 1 분 소요

regression, classification 등 사용 시계열 데이터(Time Series Data)는 시간 순서대로 정렬된 일련의 데이터 포인트를 의미 이러한 데이터는 시간에 따른 변화를 관찰하고 분석하는 데 사용

상관분석

최대 1 분 소요

상관 분석이란 두 변수가 얼마나 밀접하게 관련되어 있는지 알아보는 통계적 평가 방법 →상관계수가 매우 높을 때, 해당 독립변수가 종속변수에 대해 유의미하다고 판단함 Pearson Correlation →공분산을 활용하여 이를 표준화한 상관계수 Spearman ...

사분위수(IQR)

최대 1 분 소요

중간 50%의 데이터가 얼마나 퍼져 있는지를 나타낸다 IQR은 데이터 세트를 네 개의 동일한 부분으로 나누는 값들 중, 가장 낮은 25% (제1사분위수, Q1)와 가장 높은 25% (제3사분위수, Q3) 사이의 범위를 의미

다중공선성

최대 1 분 소요

feature 끼리 상관관계가 높은경우 F1과 Y만 가지고는 설명이 안되는 경우가 발생

undersampling

최대 1 분 소요

데이터 내 클래스 비율이 Imbalance 할 경우, 타겟의 모수가 많은 쪽을 줄이는 기법 Random, Near Miss, Tomek Links, ENN 등 Random Undersampling은 지정한 종속변수의 Category 중 비율이 적은 Category를 기...