Category

key_terms

자료형

최대 1 분 소요

Number 정수(int), 부동소수점(float), 복소수(complex)를 표현할 수 있는 자료형 Sequence 문자열(str), 리스트(list), 튜플(tuple)등의 자료형 Mapping Key, Value 쌍으로 구성된 자료형: {“key”: “value”...

인코딩

최대 1 분 소요

우리가 모두 알고 있듯이, 컴퓨터는 정보에 대한 개념이 없음 문자도 숫자로 바꿔줘야 하고, 우리가 흔히 사용하는 카테고리의 경우도 모두 숫자로 바꿔줘야함 Label Encoding, One-hot Encoding

이산화

최대 1 분 소요

연속형 변수들은 왜도가 높거나 정규분포가 아닐 가능성 높음 * **왜도: 한쪽으로 치우침 데이터에 따라 변수의 값들을 단순한 몇 개의 그룹(Bin)으로 나누는게 효율적 이산화를 적용하기 위해서는 변수에 결측치가 존재하지 않아야 함 ...

시계열 데이터

최대 1 분 소요

regression, classification 등 사용 시계열 데이터(Time Series Data)는 시간 순서대로 정렬된 일련의 데이터 포인트를 의미 이러한 데이터는 시간에 따른 변화를 관찰하고 분석하는 데 사용

상관분석

최대 1 분 소요

상관 분석이란 두 변수가 얼마나 밀접하게 관련되어 있는지 알아보는 통계적 평가 방법 →상관계수가 매우 높을 때, 해당 독립변수가 종속변수에 대해 유의미하다고 판단함 Pearson Correlation →공분산을 활용하여 이를 표준화한 상관계수 Spearman ...

사분위수(IQR)

최대 1 분 소요

중간 50%의 데이터가 얼마나 퍼져 있는지를 나타낸다 IQR은 데이터 세트를 네 개의 동일한 부분으로 나누는 값들 중, 가장 낮은 25% (제1사분위수, Q1)와 가장 높은 25% (제3사분위수, Q3) 사이의 범위를 의미

다중공선성

최대 1 분 소요

feature 끼리 상관관계가 높은경우 F1과 Y만 가지고는 설명이 안되는 경우가 발생

undersampling

최대 1 분 소요

데이터 내 클래스 비율이 Imbalance 할 경우, 타겟의 모수가 많은 쪽을 줄이는 기법 Random, Near Miss, Tomek Links, ENN 등 Random Undersampling은 지정한 종속변수의 Category 중 비율이 적은 Category를 기...

transforming

최대 1 분 소요

Linear regression 또는 Gaussian Naïve Bayes와 같은 ML 알고리즘들은 연속형 변수에 대해 정규 분포를 가정하는 경우가 많음 정규분포가 아닌 변수들을 Power Transforming을 사용하여 정규분포 또는 정규분포에 가까운 데이터로 변환 가...

simple imputer

최대 1 분 소요

imp = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=-9999) imputed = imp.fit_transform(df2.loc[:, ['age', 'measurement']].values) pd.D...

scaling

최대 1 분 소요

확률에서의 연산은 곱셈 연산이 많기 때문에 값의 범위가 클 경우, 연산 결과가 발산하게 됨 거기에 더불어서 연산속도도 느려지고 메모리를 많이 차지하게 됨 다양한 문제가 있지만, 주된 목적은 연산 결과가 발산하는 것을 방지하기 위해 scaling을 함 대표적인 sca...

regression

최대 1 분 소요

Regression은 데이터를 가장 잘 표현하는 함수를 찾는 방법 장점 • Model이 간단하기 때문에 모델의 학습시간이 짦음 • 선형 데이터에 적합 • 직관적 해석이 가능함 단점 • 비선형 데이터에 부적합 • 다차원의 데이터의 경우에는 결과...

recommendation

최대 1 분 소요

netflix prize-> 작품 추천 collaborative filtering : 취향이 비슷한 사람을 찾아주는 방법 content based filtering: 비슷한 컨텐츠를 찾아주는 방법 factorization 기반: Matrix Factori...

pandas

최대 1 분 소요

series는 벡터, Dataframe은 행렬과 대응 indexer( index는 행과 같음) ✓ loc 인덱서: 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 함 행 조회: df.loc[‘index’] ...

p-value

최대 1 분 소요

𝜷에 대한 p-value가 낮으면 기울기가 0 이 아닌 것으로 판명 통상적으로 p-value가 0.05이하면 의미 있다고 판단 (𝜷의 기울기가 0일 확률이 0.05 이하라고 해석함) 즉, p-value가 0.05 이하면 𝑯𝟎 (귀무가설)은 기각 되며 𝑯𝟏이 채택 됨

oversampling

최대 1 분 소요

데이터내클래스비율이 Imbalance 할 경우, 타겟의 모수가 많은쪽을줄이는기법(Random, SMOTE 등) Random은 Undersampling과 반대로 비율이 낮은 데이터를 Random으로 복제하여 데이터의양을 늘림 SMOTE(Synthetic Minority ...

objective

3 분 소요

-1. Huber 손실 함수 (Huber): - Huber 손실 함수는 제곱 오차 손실과 절대 값 오차 손실의 조합입니다. - 오차가 작은 경우에는 제곱 오차를 사용해 민감하게 반응하고, 오차가 큰 경우에는 절대 값 오차를 사용해 이상치에 덜 민감하게 반응합니다. ...

numpy

2 분 소요

numpy.array([list],dtype=)구조 8bit=-128~127, 64bit=-2^63~2^63-1 numpy array [i,j]가능 random.rand(m,n): m행n열 짜리 0~1사이의 랜덤수 행렬

linear model

최대 1 분 소요

전체 p-value가 일정 수준보다 작아질 때까지 p-value가 큰 변수를 제거하는 방법 → p-value는 X값과 Y값이 우연히 발생할 확률을 의미→낮은 값일수록 우연일 확률 낮음 ✓ 모든 X에 대해 P-value를 계산하고 각 스...

image processing

최대 1 분 소요

1) Classification, 2) Localization, 3) Object Detection, 4) Instance Segmentation 제조업에서는 Image Processing을 적용하여 양품/불량품 자동 판정 모델 이용 차량의 카메라 센서를 이용하...

if, for while, try except

최대 1 분 소요

if 직관적으로 특정 조건을 검사할 때 사용 for/while for 변수 in Sequence 자료형 (List, Tuple, String) 조건문이 참인 동안 while문에 포함된 문장들이 반복해서 수행 try except 예외처리를 위해서 사용되는 문법 t...

forecast

최대 1 분 소요

날씨, 주식, 판매량 예측 시계열 데이터 moving average 사용 AR(I)MA, DeepAR 시계열 데이터 응용한 예시

feature importance

최대 1 분 소요

Feature Importance은 예측에 가장 큰 영향을 주는 변수를 Permutation하며 찾는 기법 다중공선성이 존재하는 경우에는 사용을 지양 Permutation Importance, SHAP 등이 사용됨 SHAP(SHapley Addit...

extracting

최대 1 분 소요

시계열 데이터에서 특징 변수 추출 →날짜형 데이터에서 년, 월, 일, 요일, 주말여부, 휴일여부 등을 추출 2024-03-25- 구간별 평균, 합계, 기울기 등 구하기 예) 7일간 평균, 합계, 기울기 추출을 통한 feature trend를 학습데이터에 추가 Convo...

data sampling

최대 1 분 소요

undersampling oversampling combination sampling

cross validation

최대 1 분 소요

결과에 대한 분산을 줄이기 위해 사용하는 기법 -> K-fold Cross validation이 대표적으로 많이 사용됨 K-fold Cross validation? -> 전체 데이터를 K개의 fold로 나눔 -> fold간 데이터는 서로 겹...

combination sampling

최대 1 분 소요

실전에서는 역시 한가지 방법만 시도하지 않음 SMOTEENN, SMOTETOMEK 등 SMOTEENN은 SMOTE(Over) 방법과 ENN(Under)을 조합하는 방법 → SMOTE를 통해 소수 클래스 데이터를 Oversampling하고 ENN을 통해 다수 클래스...

classification

최대 1 분 소요

분류 모델 Classification은 데이터를 가장 잘 나누는 함수를 찾는 방법 SVM(Support Vector Machine)은 Binary classification 문제에 좋은 성능을 보이는 알고리즘 -> 2개 클래스의 데이터를 가장 잘 나눌 ...

anomaly detection

최대 1 분 소요

공정 프로세스 관리, 금융 사기 거래 탐지에서 많이 사용 현업에서 정의한 Normal을 벗어나는 데이터를 Abnomal라 정의 단순히 Outlier detection 그리고 Out-of-Distribution, One Class Classification

XG Boost

1 분 소요

XGBoost 란? XGBoost는 eXtreme Gradient Boosting의 약자임 (극한 변화도 부스팅) Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Boosting Machine이 대표적임 이 알고리즘은...

Unsupervised learning

최대 1 분 소요

타겟 Y는 없고, 독립변수 X만 있는 경우 Topic Modeling, Clustering

Topic Modeling

1 분 소요

Topic Modeling은 텍스트 데이터에서 숨겨진 주제 구조를 찾아내는 통계적 모델링 기법입니다. 이 기술은 대량의 문서 집합에서 주제를 자동으로 추출하여, 문서들이 어떤 주제를 다루고 있는지를 파악하는 데 사용됩니다. Topic Modeling은 자연어 처리(Natural L...

Tomek Links

1 분 소요

Tomek Links는 데이터 전처리, 특히 불균형 데이터셋을 다룰 때 사용되는 기법 중 하나입니다. 불균형 데이터셋은 한 클래스의 샘플이 다른 클래스에 비해 상대적으로 매우 적은 경우를 말합니다. 이런 경우, 모델이 다수 클래스에 편향되는 문제가 발생할 수 있습니다. Tomek ...

Supervised learning

최대 1 분 소요

타겟 Y가 명확하게 존재하는 경우 사용하는 학습 방법 현업에서 만날 수 있는 대다수의 문제가 supervised regression, classification, Deep learning

Standard Scaler

최대 1 분 소요

Standard Scaler (표준 정규화)

SMOTE

최대 1 분 소요

Synthetic Minority Oversampling Technique 무작위로 선택한 데이터에 KNN을 수행, 수행한 X(KNN)와 X의사이에 위치한 가상의 데이터를 생성 → SMOTE는 비율이 낮은 데이터도 생성하지만 높은 데이터도 생성할 수 있음

SHAP

최대 1 분 소요

Shapley Additive exPlanations LIME 개념 + 경제학 개념 - 노벨 경제학상을 받은 Shapley Values(게임이론)를 접목시킴 게임 이론이란 우리가 아는 게임을 말하는 것이 아닌 여러 주제가 서로 영향을 미치는 상황에서 서로 어떤 의사결정...

Robust Scale

최대 1 분 소요

Robust Scaler (로버스트 정규화)

Ridge Regression

최대 1 분 소요

β^𝟐에 Penalty Term을 부여하는 방식 β^2= 𝑳𝟐−𝑛𝑜𝑟𝑚 = 𝑳𝟐 Regularization Penalty Term을 추가한 Regularized Model의 경우 Feature 간 Scaling이 필수 hyperparameter(λ) 값 조절 ...

Recall

최대 1 분 소요

재현율 (Recall)

Random Forest

최대 1 분 소요

A specialized bagging for decision tree algorithm Two ways to increase the diversity of ensemble Bootstrap(복원추출) -> Bagging X% sampl...

RMSE

최대 1 분 소요

RMSE (Root Mean Squared Error, 평균 제곱근 오차)

R square

최대 1 분 소요

Regression Model의 정성적인 적합도 판단 𝑹^𝟐는 평균으로 예측한 것에 대비 분산을 얼마나 축소 시켰는지에 대한 판단 보통은 아래의 수식과 달리 Correlation(y, y’)의 제곱으로 표현한 정성적인 판단이 필...

Precision

최대 1 분 소요

정밀도 (Precision)

PoC

최대 1 분 소요

proof of concepts PoC는 새로운 아이디어나 이론이 실제로 작동할 수 있는지를 보여주기 위해 수행되는 실험이나 시범 상업적으로 활용하기전에 사용하는 것

Permutation Importance

최대 1 분 소요

Permutation Feature Importance(순열 특성 중요도)는 머신러닝 모델에서 각 특성(feature)이 예측에 얼마나 중요한지를 평가하는 방법입니다. 이 방법은 모델이 이미 학습된 후에 적용됩니다. 순열 특성 중요도를 구하는 과정은 다음과 같습니다:

Overfitting

최대 1 분 소요

Step이 진행 될수록 성능 향상 -> 모델 복잡도 증가 계속 모델 복잡도가 증가하면 → 학습 데이터에 대한 성능은 계속 좋아짐 → Unknown 데이터에 대한 성능은 계속 나빠짐 에러는 없지만 일반화가 안됨: 과적합

NLP

최대 1 분 소요

Natural Language Processing 감성 분석, 대화생성(챗봇), STT(Speech To Text) 제품 리뷰의 Negative 비율을 관리하여 상품 평판 관리 다양한 미디어 매체의 데이터에서 부정적 의견을 모니터링하여 회사에 대한 평판관리 CS...

MinMax Scaler

최대 1 분 소요

MinMax Scaler (최소-최대 정규화)

MaxABS Scaler

최대 1 분 소요

MaxABS Scaler (최대 절대값 정규화)

MSE

최대 1 분 소요

MSE (Mean Squared Error, 평균 제곱 오차)

MAPE

최대 1 분 소요

MAPE (Mean Absolute Percentage Error, 평균 절대 백분율 오차)

MAE

최대 1 분 소요

MAE (Mean Absolute Error, 평균 절대 오차)

Light GBM

최대 1 분 소요

목적: 사용하는 Feature와 Data를 줄여보자 Gradient based One Side Sampling (GOSS) Information Gain을 계산할 때 각각의 Data는 다 다른 Gradient를 갖고 있음 그렇다고 하면 Gra...

LIME

1 분 소요

Local Interpretable Model-agnostic Explanation Model-agnostic: 어떠한 model도 사용 가능 process Step 1. Modeling ...

LASSO Regression

최대 1 분 소요

Least Absolute Shrinkage and Selection Operator |β| = 𝑳𝟏−𝑛𝑜𝑟𝑚 = 𝑳𝟏 Regularization 에 Penalty Term을 부여하는 방식 MSE Contour: 중심에서 멀어질수록 Error(MSE) 증가 → T...

KNN

최대 1 분 소요

KNN은 “K-Nearest Neighbors”의 약자로, 지도 학습 방식(Supervised learning)의 머신러닝 알고리즘 중 하나입니다. KNN은 분류(classification)와 회귀(regression) 문제에 모두 사용될 수 있으며, 그 작동 원리는 매우 직관적입...

KNN imputer

최대 1 분 소요

knn_imp = KNNImputer(n_neighbors=2, weights="uniform") imputed = knn_imp.fit_transform(df2.loc[:, ['age', 'measurement']].values) pd.DataFrame(imputed, colum...

K-Means

최대 1 분 소요

유형: 비지도 학습(Unsupervised Learning) 알고리즘. 목적: 클러스터링(Clustering) 문제 해결. 작동 원리: 데이터를 K개의 클러스터로 그룹화합니다. 클러스터의 중심(centroid)을 결정하고, 각 데이터 포인트를 가장 가까운 클러스터 중심...

Gradient Descent

최대 1 분 소요

경사 하강법 Non-convex 경우 Gradient Descent를 활용하여 해(Loss가 가장 낮은)를 찾아 감 대부분의 non-linear regression 문제는 closed form solution이 존재하지 않음 Closed form solution이 ...

Gradient Boosting Machine

1 분 소요

Classification 뿐만 아니라 Regression 사용 가능 residual을 최소화 하는게 목적! Overfitting문제.. Subsampling 가능 복원 추출이 아...

Gaussian Naïve Bayes

최대 1 분 소요

Gaussian Naïve Bayes는 지도 학습에 속하는 확률적 분류 알고리즘 중 하나입니다. Naïve Bayes 분류기의 한 형태로, 특히 연속적인 데이터를 다룰 때 사용됩니다. “Gaussian”이라는 이름은 이 알고리즘이 각 클래스의 연속적인 특성들이 가우시안(정규) 분포...

ElasticNet

최대 1 분 소요

ElasticNet은 Ridge의 𝑳𝟏−𝑛𝑜𝑟𝑚 과 LASSO의 𝑳𝟐−𝑛𝑜𝑟𝑚 을 섞어 놓았음 λ𝟏 : LASSO Penalty Term (Feature Selection) λ𝟐 : Ridge Penalty Term (다중공선성 방지) ElasticNet은 Corr...

ENN

최대 1 분 소요

Edited Nearest Neighbours 다수 클래스 데이터 중 가장 가까운 (Nearest Neighbours) k개의 데이터가 모두 다수 클래스가 아니면 삭제하는 방법

EDA

최대 1 분 소요

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 데이터 분석의 초기 단계에서 수행되는 중요한 과정입니다. 이 과정의 목적은 데이터를 다양한 각도에서 조사하고, 데이터의 주요 특성과 구조를 이해함으로써 향후 분석 방향을 설정하는 것입니다. EDA는 데이...

Deep learning

1 분 소요

딥 러닝(Deep Learning)은 인공 지능(AI)의 한 분야로, 인간의 뇌가 정보를 처리하는 방식을 모방한 인공 신경망(Artificial Neural Networks)을 기반으로 합니다. 딥 러닝은 특히 대규모 데이터 세트에서 복잡한 패턴을 학습하는 데 매우 효과적입니다.

Clustering

최대 1 분 소요

비슷한 특성을 가진 데이터들을 하나의 그룹으로 묶는 작업 • 특성의 유사도를 판단하는 기준: Distance, Connectivity, Distribution, Density, etc. 좋은 Clustering의 기준은? • 같은 클러스터 내의 데이터는 서로 높은...

Class Imblance

최대 1 분 소요

실제 데이터의 분포를 유지하면서 데이터의 밸런스를 맞출 수 있는 방법 적용 필요

Built-in functions

최대 1 분 소요

abs 정수, 부동소수점수, 복소수의 절대값을 반환하는 기본 함수 (복소수는 크기를 반환) bin/ oct/ hex ‘0b’ ‘0o’, ‘0x’가 붙은 2진수, 8진수, 16진수 문자열을 반환하는 함수 input 사용자 입력을 받는 함수 int, float 문자열이...

AdaBoost

최대 1 분 소요

정의: An iterative procedure to adaptively change distribution of training data by focusing more on previously mis-classified records 즉 잘못 분류한 값들에게는 가중치를 ...

맨 위로 이동 ↑

code_file

25.One-class SVM Code

8 분 소요

[목적] Support Vector Machine 실습 One-Class Support Vector Machine 실습 Multivariate variable (다변량)일 때 사용

24.Robust Random Cut Forest Code

1 분 소요

[목적] Robust Random Cut Forest Code 실습 Multivariate variable (다변량)일 때 사용 각 Data마다 Score를 계산하여 Abnormal을 산출 할 수 있음

23.Isolation Forest Code

2 분 소요

[목적] Isolation Forest Code 실습 Multivariate variable (다변량)일 때 사용 각 Data마다 Score를 계산하여 Abnormal을 산출 할 수 있음

22.LOF Code

3 분 소요

[목적] Local Outlier Factor Code 실습 Multivariate variable (다변량)일 때 사용 각 Data마다 Score를 계산하여 Abnormal을 산출 할 수 있음

21.sigma Rule & Box plot Code

2 분 소요

[목적] Anomaly Detection의 기초 Univariate variable (단변량)일 때 사용 시각적으로 판단가능함

20.Autoencoder Code

2 분 소요

[목적] Deep Learning을 활용한 Dimensionality Reduction Code 실습 Autoencoder Reveal Non-linear Structure Text, Image 등 Data에 대해 시각화 하기 적합함 ...

19.T-SNE Code

2 분 소요

[목적] Dimensionality Reduction 중 고차원 Data에 적합한 T-SNE Code 실습 Reveal Non-linear Structure Text, Image 등 Data에 대해 시각화 하기 적합함 Class Lab...

18.PCA Code

2 분 소요

[목적] Dimensionality Reduction 중 가장 보편적으로 사용되는 PCA Code 실습 진행 Variance를 Maximize 하는 기법 Class Label, Learning Algorithm이 아님

17.HDBSCAN Code

최대 1 분 소요

[목적] 비지도학습 중 하나인 Clustering 중 HDBSCAN 실습 For loop 활용 Hyperparameter(1개) 변경시켜 가며 실습 진행

16.DBSCAN Code

1 분 소요

[목적] 비지도학습 중 하나인 Clustering 중 DBSCAN 실습 For loop 활용 Hyperparameter(2개) 변경시켜 가며 실습 진행

15.Spectral Clustering Code

2 분 소요

[목적] 비지도학습 중 하나인 Clustering 중 Spectral Clustering 실습 ForLoop 활용 K의 Range를 변경 시켜가며 실습 진행 Clustering은 기본적으로 Data가 많을 때 시간이 굉장히 오래걸림 Distance ...

14.Hierarchical Clustering Code

1 분 소요

비지도학습 중 하나인 Clustering 중 Hierarchical Clustering 실습 덴드로그램을 그려 Cluster 결정 Clustering은 기본적으로 Data가 많을 때 시간이 굉장히 오래걸림 Distance Matrix를 만들고 행렬 ...

13.K-means Code

2 분 소요

[목적] 비지도학습 중 하나인 Clustering 중 K-means Clustering 실습 ForLoop 활용 K의 Range를 변경 시켜가며 실습 진행 Clustering은 기본적으로 Data가 많을 때 시간이 굉장히 오래걸림 Distance M...

12.SHAP Code

4 분 소요

[목적] Global Importance Score와 Local Importance Score 계산 SHAP Page 활용 Locality 실습

11.Light GBM Code

3 분 소요

[목적] XGBoost Model에서 Feature와 Data를 Handling 하여 처리해주는 LightGBM Model 실습 및 해석 LightGBM의 경우 Missing Value를 Model 자체 내에서 처리해주기 때문에 삭제하지 않아도 됨 Big Data를 빠...

10.XG Boost Code

4 분 소요

[목적] GBM Model을 획기적인 System Design을 활용하여 개선한 XGBoost Model 실습 및 해석 XGBoost의 경우 Missing Value를 Model 자체 내에서 처리해주기 때문에 삭제하지 않아도 됨 Big Data를 빠르게 학습함

8.Adaboost Code

2 분 소요

[목적] Bias를 낮추기위한 Boosting의 초기 모델 AdaBoost 실습 및 해석

7.Random Forest Code

4 분 소요

[목적] Decision Tree 실습 및 해석 Variance를 낮추기위한 Bagging의 대표적인 모델 RandomForest 실습 및 해석

6.Regularized Model-ElasticNet Code

1 분 소요

[목적] ElasticNet Regularized Linear Model을 활용하여 Overfitting을 방지함 Hyperparameter lamba를 튜닝할 때 for loop 뿐만 아니라 GridsearchCV를...

5.Regularized Model-LASSO Code

1 분 소요

[목적] LASSO Regularized Linear Model을 활용하여 Overfitting을 방지함 Hyperparameter lamba를 튜닝할 때 for loop 뿐만 아니라 GridsearchCV를 통해 돌...

4-2.Regularized Model-Ridge Code

1 분 소요

[목적] Ridge Regression Regularized Linear Model을 활용하여 Overfitting을 방지함 Hyperparameter lamba를 튜닝할 때 for loop 뿐만 아니라 GridsearchCV를 통해 돌출해봄 ...

4-1.Linear regression

4 분 소요

[목적] Linear Regression 단순 Linear Regression을 활용하여 변수의 중요도 및 방향성을 알아봄 매우 심플한 모델이기 때문에 사이즈가 큰 데이터에 적합하지 않음 하지만 설명력에서는...

3.Matplot

2 분 소요

import seaborn as sns 데이터 시각화 %matplotlib inline 매직키워드, 새창 안띄우고 셀 바로 아래에 생성 scatter plot : 산점도 그리기

2.Data handling 2

최대 1 분 소요

drive.mount(): drive의 파일을 노트북 파일 시스템과 연결 시킴 pd.read_csv(): 파일을 읽어 가져옴 .head(n): 파일에서 상위 n개의 행 가져옴 .merge(df, on=기준, how=) inner: 두 데이터 세트...

1.Data handling 1

최대 1 분 소요

sklearn.impute: 결측치 처리하는 모듈 simple imputer, KNN imputer, Missingindicator 등 있음 random.randn(m): 평균이0이고 표준편차가 1인 m개의 난수 형성 .round(x): 소수점 x자리까지 반올림 ...

맨 위로 이동 ↑

machine_learning

2 6. Anomaly Detection

7 분 소요

Anomaly Detection 기초 이상치(Outlier) vs 이상(Abnormal) 이상치(Outlier) → Data Noise (O)! 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나, 큰 값 ...

2 4. Clustering

5 분 소요

Distance Euclidian Distance (유클리디안 거리) Manhattan Distance (맨하탄 거리) Cosine Distance (코사인 거리) Minkowski Distance (민코프스키 거리) Chebychev Distance (체비셰프...

2 3. Explainable method

1 분 소요

Black Box 내부 구조나 작동 원리를 모르더라도 입력과 출력을 할 수 있는 장치나 회로, 또는 과정 여객기, 수송기와 같은 항공기 안에 비치하는 데이터 자동 기록 장치. 비행 기록 장치와 조종실 음성기록 장치가 들어 있음, 사고가 났을 때 그 원인을 밝히는데 중요한 ...

2-1. Regression Problem

1 분 소요

Error? Error = Variance + Bias + Noise Variance: 추정 값(Algorithm Output)의 평균과 추정 값 (Algorithm Output) 들 간의 차이 Bias: 추정 값 (Algorithm Output) 의 평균과 참 값(T...

  1. Basic of Data Analytics

1 분 소요

데이터 분석이 뭔데? Data-> ML-> Logic의 과정 prediction이 목적 문제정의-> 데이터 확인-> PoC-> 정식 프로젝트 code 보단 data 자체에 집중

맨 위로 이동 ↑

etc

머신러닝 공부장입니다

최대 1 분 소요

머신 러닝 공부하면서 알게 된 내용이랑, 대회에서 쓴 코드들 올리고 기록하는 용도 입니다 아직 3개월 정도 밖에 안되어서 천천히 써볼려 합니다

맨 위로 이동 ↑

dacon

맨 위로 이동 ↑