문제 해설

Numerically Stable Tanh [medium]

활성화 함수 · medium

preview

v1 tanh 은 직관적 공식:

$\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$

하지만 $z \gtrsim 710$ 이면 np.exp(z) = inf → inf/inf = NaN 폭발. 실제 신경망은 gradient clipping 이 풀리면 이런 값이 나올 수 있음 (혹은 fp16 에선 $z > 88$ 만 돼도 터짐).

안정화된 두 가지 형태

부호에 따라 지수가 양수가 되는 쪽을 피함:

$z \ge 0$ : $\tanh(z) = \dfrac{1 - e^{-2z}}{1 + e^{-2z}}$ → exp(-2z) 는 $[0, 1]$
$z < 0$ : $\tanh(z) = \dfrac{e^{2z} - 1}{e^{2z} + 1}$ → exp(2z) 는 $[0, 1]$

두 형태 모두 지수의 인수가 항상 음수 이라 overflow 없음.

함수 tanh_stable(z) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.