
50번 Softmax CE 손실 을 logits 에 대해 미분하면 엄청나게 깔끔한 결과 가 나와요:
softmax-v1 확률에서 one-hot 타깃을 빼주는 단일 벡터 연산. 역전파 구현의 가장 중요한 수식 중 하나.
softmax-v1 를 따로 계산한 다음 빼주기만 하면 돼 효율적.함수 softmax-v1_ce_grad(logits, y_true) 를 완성하세요.
logits shape (N, C), y_true shape (N,) 정수.(N, C) — 평균 그래디언트 (N 으로 나눈 값).| # | 이름 | 검증 |
|---|---|---|
| 1 | shape | (N, C) |
| 2 | 각 행 합 = 0 | softmax-v1 sums to 1, one-hot to 1 → diff sums to 0 |
| 3 | 수치 근사 그래디언트 일치 | 유한차분과 비교 |
| 4 | logit 동일 (→ 균등 prob) | g[y_i] = -(C-1)/(NC), 나머지 1/(NC) |
| 5 | 완벽 예측 (softmax-v1 ≈ onehot) → 그래디언트 ≈ 0 |
코드를 작성하고 Run 을 눌러보세요.