본문 바로가기
Research/AI

[25.06.08] 데이터 인코딩(원 핫 인코딩, 레이블 인코딩, 순서 인코딩)

by how-are-you 2025. 6. 8.

정리

구분 설명 예시
원-핫 인코딩
(One-Hot)
각 카테고리에 대해 차원 하나를 할당, 해당 위치만 1, 나머지 0 red → [1, 0, 0]
green → [0, 1, 0]
blue → [0, 0, 1]
레이블 인코딩
(Label)
각 카테고리에 정수 코드 부여 (순서 의미 없음) red → 0
green → 1
blue → 2
순서(순위) 인코딩
(Ordinal)
정수 코드에 순위 정보 포함 (간격 의미는 보장 안 됨) small → 0
medium → 1
large → 2
  • 원-핫:
    • 장점: 모델에 순서나 크기를 절대 주지 않음
    • 단점: 카테고리 수만큼 차원 폭발
  • 레이블:
    • 장점: 차원 증가 없음, 메모리·속도 유리
    • 단점: 알고리즘이 “0<1<2” 순서로 오해할 위험
  • 순서:
    • 장점: 등급·순위처럼 명백한 순서가 있을 때 의미 전달
    • 단점: 코드 간 간격(0→1 vs. 1→2)이 동일하다고 가정

선택 가이드

  • 순서가 전혀 의미 없고, 모델이 범주를 등간격으로 오해할 가능성이 크면 → 원-핫
  • 범주 수가 많고, 트리 기반 모델처럼 정수 해석이 크게 문제되지 않으면 → 레이블
  • 명백한 순서(등급, 사이즈 등)가 있으면 → 순서 인코딩