문제 해설

MLP with GELU (BERT/GPT 스타일)

신경망 · easy

preview

MLP with GELU (Transformer 스타일)

85번 MLP with Tanh 에서 활성함수를 GELU (Gaussian Error Linear Unit) 로 교체:

$\text{GELU}(x) \approx 0.5 \, x \left( 1 + \tanh\!\left(\sqrt{\frac{2}{\pi}}\, (x + 0.044715 \, x^3)\right) \right)$

이게 BERT, GPT-2/3, ViT 등 대부분의 Transformer 의 FFN 층 활성.

$\mathbf{h} = \text{GELU}(X W_1 + \mathbf{b}_1)$ $\mathbf{y} = \mathbf{h} W_2 + \mathbf{b}_2$

활성	x<0 영역	미분	사용처
ReLU	0	kink at 0	CNN 기본
Tanh	부호 반대, 포화	smooth	RNN (구)
GELU	음의 작은 값	smooth	Transformer 기본

함수 mlp_forward_gelu-v1(X, W1, b1, W2, b2) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.