1 분 소요

Tomek Links는 데이터 전처리, 특히 불균형 데이터셋을 다룰 때 사용되는 기법 중 하나입니다. 불균형 데이터셋은 한 클래스의 샘플이 다른 클래스에 비해 상대적으로 매우 적은 경우를 말합니다. 이런 경우, 모델이 다수 클래스에 편향되는 문제가 발생할 수 있습니다. Tomek Links는 이 문제를 완화하는 데 도움이 됩니다.

Tomek Links의 정의:

Tomek Links는 서로 다른 클래스에 속하는 한 쌍의 가장 가까운 이웃(nearest neighbors)을 의미합니다. 이 두 샘플이 서로의 가장 가까운 이웃이라면, 그들 사이의 링크를 ‘Tomek Link’라고 합니다. 이러한 링크는 클래스 간 경계 부분에 존재하는 경향이 있습니다.

사용 방법:

  1. 링크 식별: 데이터셋 내에서 모든 Tomek Links를 찾습니다.
  2. 샘플 제거: 일반적으로 Tomek Links 중에서 다수 클래스에 속하는 샘플을 제거합니다. 이렇게 하면 두 클래스 간의 경계가 더 명확해지고, 분류기가 소수 클래스를 더 잘 구분할 수 있게 됩니다.

목적 및 효과:

  • 경계 정제: 클래스 간 경계를 더 명확하게 하여 분류기의 성능을 향상시킵니다.
  • 데이터 불균형 완화: 다수 클래스의 데이터를 줄여 불균형을 완화합니다.
  • 과적합 방지: 다수 클래스의 일부 데이터를 제거함으로써 과적합의 위험을 줄일 수 있습니다.

주의사항:

  • Tomek Links를 제거하는 것이 항상 유용한 것은 아닙니다. 데이터의 본질적인 특성과 분류 문제의 성격을 고려해야 합니다.
  • 이 방법은 소수 클래스의 샘플을 증가시키지는 않습니다. 따라서 심각한 불균형 상황에서는 다른 오버샘플링 기법과 함께 사용하는 것이 좋을 수 있습니다.

Tomek Links 기법은 데이터의 노이즈를 줄이고, 클래스 간의 구분을 명확하게 하는 데 도움을 줄 수 있으며, 불균형 데이터셋을 다루는 데 있어 유용한 도구 중 하나입니다.

카테고리:

업데이트:

댓글남기기