
v1 bag-of-embeddings 은 단순 평균. Arora et al. (2017) "A Simple but Tough-to-Beat Baseline" 는 확률 역수 가중을 제안:
여기서 는 token 확률 (코퍼스 빈도), .
Word2Vec/GloVe 평균 + SIF → 많은 semantic benchmark 에서 LSTM/CNN 을 이김 (간단한 baseline 이 강력한 이유).
함수 sif_bag(E, idx_batch, probs, a=1e-3) 를 완성하세요.
E shape (V, D).idx_batch shape (B, L) 정수.probs shape (V,) — token별 확률.a 스무딩 상수.(B, D).| # | 이름 | 검증 |
|---|---|---|
| 1 | shape (B, D) | |
| 2 | 균등 probs → 평균 (v1 등가) | |
| 3 | 고빈도 token 가중치 작음 | 변화시 출력 변동 작음 |
| 4 | 저빈도 token 가중치 큼 | |
| 5 | a → ∞ 극한 → 평균 | |
| 6 | permutation invariance | 순서 바꿔도 동일 |
| 7 | 알려진 toy 값 |
코드를 작성하고 Run 을 눌러보세요.