문제 해설

Nearest Shrunken Centroid (자동 특성 선택) [medium]

선형 분류 · medium

preview

Nearest Shrunken Centroid [medium]

v1 Nearest Centroid 는 각 클래스 평균을 그대로 사용. 고차원 (e.g., 유전자 발현 데이터 $D > 1000$ ) 에서는 노이즈 특성의 편차도 그대로 반영 → overfitting.

Nearest Shrunken Centroid (Tibshirani et al. 2002): 전체 평균으로부터의 offset 을 soft-thresholding 으로 줄이거나 0 으로 → 유의미한 특성만 남김 (자동 특성 선택).

$\bar{x}$ = 전체 평균.
각 클래스 $c$ 의 평균 $\mu_c$ 와 offset $d_c = \mu_c - \bar{x}$ .
풀링된 표준편차 $s$ (특성별): $s_j = \sqrt{\frac{\sum_c \sum_{i: y_i = c} (x_{ij} - \mu_{c,j})^2}{N - K}}$
표준화 offset: $d'_{c,j} = d_{c,j} / (s_j + s_0)$ (small regularizer $s_0$ ).
Soft-threshold with $\Delta$ : $d''_{c,j} = \text{sign}(d'_{c,j}) \cdot \max(|d'_{c,j}| - \Delta, 0)$
축소된 중심: $\tilde\mu_{c,j} = \bar{x}_j + s_j \cdot d''_{c,j}$ .
예측: $x$ 와 $\tilde\mu_c$ 간 유클리드 거리 argmin.

함수 nearest_shrunken_centroid(X_train, y_train, X_test, delta) 를 완성하세요.

#	이름	검증
1	반환 shape `(M,)`
2	`delta=0` → v1 nearest centroid 와 일치
3	분리 가능 2 클래스 → 높은 정확도
4	고차원 + 노이즈 특성: shrinkage 가 과적합 감소
5	큰 delta → 모든 축소 (0 에 가까움), 예측 임의
6	클래스 레이블 복원 (0, 1, ..., K-1 을 벗어난 레이블도 처리)
7	sklearn `NearestCentroid(shrink_threshold=δ)` 와 유사 정확도

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.