Gaussian Naïve Bayes
Gaussian Naïve Bayes는 지도 학습에 속하는 확률적 분류 알고리즘 중 하나입니다. Naïve Bayes 분류기의 한 형태로, 특히 연속적인 데이터를 다룰 때 사용됩니다. “Gaussian”이라는 이름은 이 알고리즘이 각 클래스의 연속적인 특성들이 가우시안(정규) 분포를 따른다고 가정하기 때문에 붙여졌습니다.
작동 원리:
-
가정: Gaussian Naïve Bayes 분류기는 모든 특성이 서로 독립적이라고 가정합니다. 이것이 “Naïve(순진한)”이라는 표현의 유래입니다.
-
가우시안 분포: 연속적인 특성 값은 각 클래스에서 정규 분포(가우시안 분포)를 따른다고 가정합니다. 즉, 각 클래스에 대해 특성의 평균과 표준편차를 계산하여 정규 분포를 정의합니다.
-
확률 계산: 주어진 데이터 포인트가 각 클래스에 속할 확률을 계산합니다. 이 확률은 베이즈 정리를 사용하여 계산되며, 각 특성의 확률을 클래스의 전체 확률에 곱합니다.
-
분류 결정: 가장 높은 확률을 가진 클래스가 해당 데이터 포인트의 예측 클래스가 됩니다.
사용 사례:
Gaussian Naïve Bayes는 특히 텍스트 분류(스팸 필터링, 감정 분석), 의료 데이터 분석, 이미지 분류 등 다양한 분야에서 사용됩니다. 그러나 모든 특성이 독립적이라는 가정은 실제 데이터에 항상 맞지 않을 수 있으므로, 이 점을 고려하여 적용해야 합니다.
장점:
- 계산이 간단하고 빠릅니다.
- 소량의 데이터로도 학습이 가능합니다.
- 이상치에 강합니다.
단점:
- 특성 간의 의존성이 높은 경우 성능이 떨어질 수 있습니다.
- 범주형 데이터보다 연속적인 데이터에 더 적합합니다.
댓글남기기