문제 해설

Adam 옵티마이저 한 스텝

최적화 · easy

preview

Adam 한 스텝 업데이트

71번 Bias-corrected EWMA 는 $\hat m = m / (1 - \beta^t)$ 보정 공식을 익혔습니다. 이제 실제 Adam 옵티마이저 한 스텝에 조립합니다:

입력: 파라미터 $\theta$ , 그래디언트 $g$ , 이전 상태 $m, v$ , 스텝 수 $t$ , 하이퍼파라미터 $\beta_1, \beta_2, \epsilon, \eta$ .

$m \leftarrow \beta_1 m + (1 - \beta_1) g$ (1차 모멘트)
$v \leftarrow \beta_2 v + (1 - \beta_2) g^2$ (2차 모멘트)
$\hat m = m / (1 - \beta_1^t)$
$\hat v = v / (1 - \beta_2^t)$
$\theta \leftarrow \theta - \eta \cdot \hat m / (\sqrt{\hat v} + \epsilon)$

반환: 업데이트된 $(\theta, m, v)$ .

$\hat m$ : 방향 (그래디언트의 평활). momentum 과 유사.
$\sqrt{\hat v}$ : 스케일 — 최근에 큰 gradient 가 자주 들어왔던 축은 크게 나눠 속도 감소. AdaGrad/RMSProp 아이디어.
합치면 각 파라미터마다 적응적 학습률.

함수 adam_step(theta, grad, m, v, t, lr, b1, b2, eps) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.