
여기까지 온 여정 전체가 모이는 곳. softmax-v1, embedding-lookup-v1, causal-mask-v1 가 어떻게 한 공식으로 합쳐지는지 보세요.
Vaswani et al., Attention Is All You Need (2017):
함수 attention(Q, K, V, mask=None) 를 완성하세요.
Q: (L_q, d_k).K: (L_k, d_k).V: (L_k, d_v).mask: (L_q, L_k) bool 또는 None. True = 참조 허용, False = 차단.(L_q, d_v).구현:
scores = Q @ K.T / sqrt(d_k) → (L_q, L_k)scores = where(mask, scores, -1e9)attn = softmax-v1(scores, axis=-1)out = attn @ V| # | 이름 | 검증 |
|---|---|---|
| 1 | shape (L_q, d_v) | |
| 2 | 같은 Q, K → 자기 자신 attend 우세 | softmax-v1 대각 우세 |
| 3 | scale 1/√d_k | d_k 늘려도 포화 안 됨 |
| 4 | mask 적용 | 차단 위치 weight 0 |
| 5 | V 가중합 | 수식 일치 (ref) |
코드를 작성하고 Run 을 눌러보세요.