
v1 Linear warmup 은 warmup 이후 상수. Noam schedule (Vaswani et al. 2017, "Attention is All You Need") 은 warmup 뒤에 inverse square root decay:
은 모델 차원 (예: 512 for base Transformer). 이 스케일링은 항이 attention softmax 의 분산과 균형을 이루게 해줌.
| Noam | Cosine | |
|---|---|---|
| Warmup | Linear ramp | Linear ramp |
| Decay | (느림) | Cosine (매끄러움) |
| End lr | 0 으로 서서히 | lr_min 에 도달 |
| 적합 | 오래 학습 (상황 변화 적음) | 고정 iteration 예산 |
원 Transformer 는 Noam 을 썼지만, 최근 (BERT/GPT) 은 대부분 Cosine + warmup.
함수 noam_lr(t, warmup_steps, d_model) 를 완성하세요.
t: 스칼라/배열, 1-indexed (t=1 이 첫 스텝).d_model**(-0.5) * min(t**(-0.5), t * warmup_steps**(-1.5)).| # | 이름 | 검증 |
|---|---|---|
| 1 | t=warmup → 두 branch 일치 | t^(-1/2) = t · t_w^(-3/2) at |
| 2 | warmup 영역 선형 증가 | |
| 3 | warmup 이후 단조 감소 | |
| 4 | decay asymptote: as | |
| 5 | d_model 스케일: d=1024 → d=512 의 1/√2 배 | |
| 6 | 피크 lr = | |
| 7 | 벡터 입력 처리 |
코드를 작성하고 Run 을 눌러보세요.