
Adam(74) 에 decoupled weight decay 를 더한 현대적 변형. 현재 Transformer 학습의 기본값.
기존 Adam + L2 정규화: 가중치 감쇠를 그래디언트에 섞음 그럼 이 gradient가 bias correction, 2차 모멘트 등에 다 말려들어가서 원 의도가 흐려짐.
AdamW (Loshchilov, 2017): weight decay 를 업데이트 직전에 분리
는 weight decay 계수 (보통 1e-2 ~ 1e-4).
함수 adamw_step(w, g, m, v, t, lr, beta1, beta2, eps, weight_decay) 를 완성하세요.
+ weight_decay * w 항 추가.(w_new, m_new, v_new).| # | 이름 | 검증 |
|---|---|---|
| 1 | weight_decay=0 → Adam 과 동일 | |
| 2 | weight_decay>0 → Adam보다 w 더 감소 | |
| 3 | m, v 업데이트는 동일 | |
| 4 | shape 유지 |
코드를 작성하고 Run 을 눌러보세요.