문제 해설

Nesterov Accelerated Gradient (NAG) [medium]

최적화 · medium

preview

Nesterov Accelerated Gradient [medium]

v1 Momentum 은 classical Polyak momentum. Nesterov momentum (Nesterov 1983) 은 한 단계 "look-ahead":

개념적 형태: $v_t = \beta v_{t-1} + \nabla f(w_{t-1} - \eta \beta v_{t-1}) \quad\text{(look-ahead 지점의 gradient)}$ $w_t = w_{t-1} - \eta v_t$

미리 관성 방향으로 "점프" 한 지점에서 gradient 를 잰다 → 더 정확한 미래 예측.

실전에선 현재 지점 gradient $g$ 만 주어지므로, 수학적으로 동등한 형태:

$v_t = \beta v_{t-1} + g_t$ $w_t = w_{t-1} - \eta \, (\beta v_t + g_t)$

이 공식은 고전 momentum 과 같은 $g, v$ 만으로도 계산 가능. (torch.optim.SGD(nesterov=True) 가 이 방식).

= v1 update 에 " $g$ 한 번 더" 가산 → 더 공격적.

함수 nesterov_step(w, g, v, lr, beta) 를 완성하세요.

반환: (w_new, v_new).
공식: $v_{\text{new}} = \beta v + g$ , $w_{\text{new}} = w - \eta (\beta v_{\text{new}} + g)$ .

#	이름	검증
1	반환 2-tuple
2	`v_new = β·v + g`	classical momentum 과 동일
3	`w_new` 공식: lr·(β·v_new + g)	차이 핵심
4	β=0 → plain SGD (Nesterov 무효)
5	v1 momentum 과 w_new 비교 → 다름 (β>0)
6	shape 유지 (고차원)
7	2차 quadratic 최적화: Nesterov 가 classical 보다 빨리 수렴

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.