문제 해설

BERT-style Input Embedding (token+segment+pos+LN) [medium]

신경망 · medium

preview

BERT-style Input Embedding [medium]

v1 은 토큰 + 위치 두 개. BERT (Devlin 2019) 는 세 가지 임베딩 + LayerNorm:

$X = \text{LN}(E_{\text{tok}}[\text{idx}] + E_{\text{seg}}[\text{seg}] + E_{\text{pos}}[:L])$

세 벡터 덧셈 후 크기가 불안정 → LayerNorm 으로 feature dim 기준 정규화:

$\text{LN}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta$

여기서 $\mu, \sigma^2$ 는 마지막 차원 기준.

함수 bert_embedding(tok_emb, seg_emb, pos_emb, idx_tok, idx_seg, gamma, beta, eps=1e-5) 를 완성하세요.

#	이름	검증
1	shape (B, L, d)
2	LN 후 mean ≈ 0 (per position)
3	LN 후 std ≈ 1 (per position, γ=1)
4	γ=0 → 출력 = β
5	segment 변경 → 출력 변경
6	position 변경 → 출력 변경
7	batch broadcasting: pos/gamma/beta 공유

코드 작성

Loading...

실행 결과

코드를 작성하고 Run 을 눌러보세요.