정리
| 구분 | 설명 | 예시 |
| 원-핫 인코딩 (One-Hot) |
각 카테고리에 대해 차원 하나를 할당, 해당 위치만 1, 나머지 0 | red → [1, 0, 0] green → [0, 1, 0] blue → [0, 0, 1] |
| 레이블 인코딩 (Label) |
각 카테고리에 정수 코드 부여 (순서 의미 없음) | red → 0 green → 1 blue → 2 |
| 순서(순위) 인코딩 (Ordinal) |
정수 코드에 순위 정보 포함 (간격 의미는 보장 안 됨) | small → 0 medium → 1 large → 2 |
- 원-핫:
- 장점: 모델에 순서나 크기를 절대 주지 않음
- 단점: 카테고리 수만큼 차원 폭발
- 레이블:
- 장점: 차원 증가 없음, 메모리·속도 유리
- 단점: 알고리즘이 “0<1<2” 순서로 오해할 위험
- 순서:
- 장점: 등급·순위처럼 명백한 순서가 있을 때 의미 전달
- 단점: 코드 간 간격(0→1 vs. 1→2)이 동일하다고 가정
선택 가이드
- 순서가 전혀 의미 없고, 모델이 범주를 등간격으로 오해할 가능성이 크면 → 원-핫
- 범주 수가 많고, 트리 기반 모델처럼 정수 해석이 크게 문제되지 않으면 → 레이블
- 명백한 순서(등급, 사이즈 등)가 있으면 → 순서 인코딩
'Research > AI' 카테고리의 다른 글
| [Deep research][2025.06.24] Deep research 소개 (0) | 2025.06.24 |
|---|---|
| [25.06.08] AI 기초 머신러닝, 딥러닝, 지도학습, 비지도 학습, 차원 축소 (0) | 2025.06.08 |