문제 해설

엔트리별 Clipping (clip_by_value)

최적화 · easy

preview

68번 Norm Clipping 은 전체 벡터 방향을 보존 하며 크기만 줄임. 반면 clip_by_value 는 각 원소를 독립적으로 잘라냅니다:

$\text{clip}(x_i) = \max(\min(x_i, v_{\max}), v_{\min})$

즉 범위 $[v_{\min}, v_{\max}]$ 바깥 값을 경계로 이동. 방향은 바뀔 수 있음.

어디에 쓰이나

PPO (Proximal Policy Optimization): probability ratio 를 $[1-\epsilon, 1+\epsilon]$ 로 clip.
DQN reward clipping: Atari 등에서 reward 를 $[-1, +1]$ 로 clip → 학습 안정화.
양자화 (Quantization): activation 범위 고정.
수치 안정성: 로그 계산 전 softmax-v1 출력을 $[\epsilon, 1-\epsilon]$ 로 clip.

방식	방향	비용
Norm	보존	모든 축이 같은 비율로 축소
Value	변경 가능	원소별 독립

함수 clip_by_value(x, v_min, v_max) 를 완성하세요.

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.