
99번 Masked Max Pool 은 모든 유효 토큰을 보고 집계. GPT 같은 causal 모델에서는 마지막 토큰이 전체 문맥을 요약하고 있으므로, 단순히 마지막 유효 위치의 벡터 만 가져오는 pooling 도 자주 씀:
[EOS] 위치 벡터로 분류.lengths-1 이 진짜 마지막 토큰.함수 last_token_pool(x, lengths) 를 완성하세요.
x shape (B, L, d), lengths shape (B,) 정수 (각 시퀀스의 실제 길이).(B, d) — 각 배치의 x[b, lengths[b]-1, :].x[np.arange(B), lengths - 1, :].| # | 이름 | 검증 |
|---|---|---|
| 1 | shape (B, d) | |
| 2 | 모든 길이 = L → x[:, -1, :] | 전체가 유효 |
| 3 | 다양한 길이 | 각 배치 올바른 위치 |
| 4 | pad 값 바뀌어도 결과 불변 | 마지막 유효 위치만 봄 |
| 5 | 손계산 | 명시적 인덱싱 |
코드를 작성하고 Run 을 눌러보세요.