문제 해설

Noam Schedule (Transformer inverse-sqrt) [medium]

학습률 스케줄 · medium

preview

Noam Schedule [medium]

v1 Linear warmup 은 warmup 이후 상수. Noam schedule (Vaswani et al. 2017, "Attention is All You Need") 은 warmup 뒤에 inverse square root decay:

$\eta_t = d_{\text{model}}^{-0.5} \cdot \min(t^{-0.5}, \ t \cdot t_w^{-1.5})$

$d_{\text{model}}$ 은 모델 차원 (예: 512 for base Transformer). 이 스케일링은 $\sqrt{d}$ 항이 attention softmax 의 분산과 균형을 이루게 해줌.

원 Transformer 는 Noam 을 썼지만, 최근 (BERT/GPT) 은 대부분 Cosine + warmup.

함수 noam_lr(t, warmup_steps, d_model) 를 완성하세요.

#	이름	검증
1	t=warmup → 두 branch 일치	`t^(-1/2) = t · t_w^(-3/2)` at $t=t_w$
2	warmup 영역 선형 증가	$t < t_w$
3	warmup 이후 단조 감소	$t > t_w$
4	decay asymptote: $\eta \to 0$ as $t \to \infty$
5	d_model 스케일: d=1024 → d=512 의 1/√2 배
6	피크 lr = $d^{-0.5} \cdot t_w^{-0.5}$	$t = t_w$
7	벡터 입력 처리

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.