
LLM 샘플링, 강화학습 policy, knowledge distillation 에서 모두 쓰이는 온도 조절 softmax-v1. 로짓을 로 나눈 뒤 softmax-v1:
함수 softmax-v1_t(x, T) 를 완성하세요.
x: shape (N,) 로짓.T: 양의 실수 온도.>0).max 를 빼고 지수화 (온도로 나눈 후에).| # | 이름 | 검증 |
|---|---|---|
| 1 | 합이 1 | sum == 1 |
| 2 | T=1 → 기본 softmax-v1 | 동일 |
| 3 | T↑ → 엔트로피↑ | 더 균등 |
| 4 | T↓ → argmax 에 집중 | 최대값 prob → 1 |
| 5 | 수치 안정 (큰 로짓) | inf/nan 없음 |
코드를 작성하고 Run 을 눌러보세요.