
Cosine LR(76) 은 감쇠 일정만 다룹니다. 실전에선 초반 몇 스텝 동안 LR을 천천히 끌어올리는 워밍업 과 결합해 쓰는 경우가 많죠 — 모델 초기값 에서 큰 LR 이 튀는 걸 막기 위해.
t = 0: lr = 0t = warmup_steps: lr = lr_targetlr = lr_target (상수 유지)Transformer 학습에서 특히 중요 — layer norm 과 residual connections 초기에 혼란 방지.
함수 linear_warmup(t, warmup_steps, lr_target) 를 완성하세요.
t: 스칼라 또는 배열.| # | 이름 | 검증 |
|---|---|---|
| 1 | t=0 → 0 | |
| 2 | t=warmup → lr_target | |
| 3 | t > warmup → 상수 | |
| 4 | 선형 | t=warmup/2 → lr_target/2 |
| 5 | 벡터 입력 |
코드를 작성하고 Run 을 눌러보세요.