
73번 RMSProp 은 gradient 제곱의 EWMA 로 최근 크기를 추정. AdaGrad (Duchi et al. 2011) 는 그 조상으로, EWMA 없이 단순 누적:
가 단조 증가하므로 effective learning rate 는 시간이 갈수록 항상 감소 (→ 0).
| 특성 | AdaGrad | RMSProp |
|---|---|---|
| 업데이트 | (누적) | (EWMA) |
| 장기 학습 | lr 계속 감소 → 결국 멈춤 | forget → 안정 |
| 용도 | 희소 특성, 볼록 문제 | 신경망 일반 |
함수 adagrad_step(w, g, s, lr, eps) 를 완성하세요.
(w_new, s_new).s_new = s + g**2; w_new = w - lr * g / (np.sqrt(s_new) + eps).| # | 이름 | 검증 |
|---|---|---|
| 1 | s 업데이트 = s + g² | EWMA 아님 |
| 2 | w 업데이트 수식 | |
| 3 | eps 보호 | g=0, s=0 → NaN 없음 |
| 4 | s 단조 증가 | 반복 시 s 가 커짐 |
| 5 | 희소 축은 크게 움직임 | 한 축만 gradient 있을 때 |
코드를 작성하고 Run 을 눌러보세요.