
95번 Token Embedding + PE 의 Transformer 원 논문 버전: 토큰 임베딩에 를 곱한 뒤 PE 를 더합니다:
원 Transformer 구현에서 weight tying (embedding 과 output projection 가중치 공유) 시 임베딩이 분산으로 초기화되면 출력이 지나치게 작아집니다. 배로 키우면 PE 와 비슷한 스케일 이 되어 둘 다 의미 있는 신호 전달.
함수 scaled_embed_pe(E, idx, pe) 를 완성하세요.
E shape (V, d), idx shape (B, L), pe shape (max_L, d).(B, L, d) — sqrt(d) * E[idx] + pe[:L].| # | 이름 | 검증 |
|---|---|---|
| 1 | shape (B, L, d) | |
| 2 | E=0 → pe[:L] broadcast | 모든 배치 동일 |
| 3 | pe=0 → √d · E[idx] | |
| 4 | 스케일: d=64 면 토큰 기여 8배 | |
| 5 | 공식 정확 | 손계산 |
코드를 작성하고 Run 을 눌러보세요.