
77번 Linear Warmup 은 warmup 이후 상수 유지. "Attention Is All You Need" (Vaswani et al. 2017) 는 여기에 역제곱근 감쇠 를 이어 붙입니다:
에서 두 구간이 정확히 로 연속.
| 스케줄 | 꼬리 모양 | 전체 길이 T 필요? |
|---|---|---|
| Cosine | 빠르게 → 0 | 예 (T 지정) |
| Inverse sqrt | 느리게 → 0 (never reaches 0) | 아니오 — 무한 |
Inverse sqrt 는 학습을 언제 멈출지 모를 때 유용. 오래 학습해도 lr 이 살아있음 (느리지만).
함수 inverse_sqrt_lr(t, warmup_steps, lr_max) 를 완성하세요.
t, 양수 warmup_steps, 스칼라 lr_max.t <= 0 → 0, t <= W → linear warmup, t > W → .| # | 이름 | 검증 |
|---|---|---|
| 1 | t=0 → 0 | |
| 2 | t=W → lr_max | 연속성 |
| 3 | t=4W → lr_max/2 | 1/√4 = 0.5 |
| 4 | 단조 감소 (t > W) | |
| 5 | 0 으로 수렴하지만 finite t 에선 > 0 | |
| 6 | 벡터 입력 |
코드를 작성하고 Run 을 눌러보세요.