문제 해설

Residual 2-layer MLP (ResNet 블록)

신경망 · easy

preview

84번 MLP Forward 에 skip connection 추가 — ResNet의 기본 블록:

$Y = \text{ReLU}(X W_1 + b_1) \, W_2 + b_2 + X$

마지막에 입력 X 자체 를 더해줍니다. 조건: $D_\text{in} = D_\text{out}$ (차원 일치).

왜 도움?

Gradient 문제 해결: 깊은 네트워크에서 gradient 가 0으로 죽거나 폭발하는 걸 skip 이 완화. $\partial Y / \partial X \supset I$ — 최악의 경우에도 identity 를 통과.
Identity 학습 용이: MLP 가 $0$ 을 출력하면 $Y = X$ . 깊이를 쌓아도 성능이 쉽게 나빠지지 않음.
ResNet (He et al. 2015) → Transformer 블록까지 표준 패턴.

최신 Transformer 는 종종: $Y = X + \text{MLP}(\text{LN}(X))$

이 문제는 가장 기본 형태 (post-ReLU, no LN, 출력에 + X).

함수 residual_mlp(X, W1, b1, W2, b2) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.