문제 해설

Linear Warmup

최적화 · easy

preview

Cosine LR(76) 은 감쇠 일정만 다룹니다. 실전에선 초반 몇 스텝 동안 LR을 천천히 끌어올리는 워밍업 과 결합해 쓰는 경우가 많죠 — 모델 초기값 에서 큰 LR 이 튀는 걸 막기 위해.

$\eta_t = \eta_\text{target} \cdot \min\!\left(\frac{t}{T_\text{warmup}},\ 1\right)$

Transformer 학습에서 특히 중요 — layer norm 과 residual connections 초기에 혼란 방지.

과제

함수 linear_warmup(t, warmup_steps, lr_target) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.