
92번 Causal Mask 는 과거 전체를 볼 수 있음 — 시퀀스가 길면 계산/메모리. Sliding Window Attention (Longformer, Mistral) 은 각 토큰이 최근 개 의 과거만 보도록 제한해 로 줄입니다:
대각 포함, 과거 까지. 즉 각 행에 연속된 개 True.
함수 sliding_window_mask(L, w) 를 완성하세요.
L: 시퀀스 길이, w: 윈도 크기 (양수 int).(L, L).True = 볼 수 있음, False = 마스킹.i, j = np.arange(L)[:, None], np.arange(L)[None, :]; (j <= i) & (j > i - w).| # | 이름 | 검증 |
|---|---|---|
| 1 | shape (L, L) + bool | |
| 2 | 대각 True | 자기자신 허용 |
| 3 | 상삼각 False | 미래 가림 |
| 4 | 각 행 True 개수 ≤ w | |
| 5 | w >= L → 기존 causal mask | |
| 6 | w=1 → 대각만 True | 자기 자신만 |
코드를 작성하고 Run 을 눌러보세요.