핵심 원칙: few-shot 말투엔 양보다 순도. 틀린 귀속 한 줄이 캐릭터 말투를 오염시키므로, 애매하면 버린다.
| 등급 | 판정 근거 | 신뢰 |
|---|---|---|
| scene✓ | 장면묘사가 화자를 명시 — "조이가 …칭찬하고 있다"처럼 'X가 …말/물/답/칭찬/설명' 패턴이면 그 대사는 X. | 높음 → 뱅크 |
| solo | 1인 패널(등장인물 1명) — 그 인물이 화자일 확률이 높다(단, 폰·회상이면 틀릴 수 있음). | 중간 → 뱅크 |
| 추측 | 다인 패널의 모델 추측 — 누가 말했는지 근거가 약함. | 낮음 → 제외 |
장면이 화자(조이)와 행위(칭찬)를 명시 → 확실하게 조이 뱅크로.
[동구] · 장면묘사 "동구가 …자신의 심경을 이야기" — 인물을 조이→동구로 오인대사 자체는 조이의 것이 맞다. 문제는 상위 단계인 시각적 인물 식별이 틀린 것 — Gemma가 1인 패널의 인물을 동구로 잘못 보니, scene묘사도 solo 규칙도 그 오류를 그대로 물려받아 동구 뱅크로 갔다. 즉 화자 귀속의 정확도는 인물 식별의 정확도에 종속된다(여기선 명백한 여성을 남주로 오인).
Gemma의 인물 라벨을 그대로 믿지 않고, 독립적인 시각 식별과 대조한다 —
얼굴 검출 + CCIP 임베딩 클러스터링(char_assign, 3,396개 얼굴)으로 "패널에 실제 누가 있나"를 따로 구한 뒤,
Gemma 라벨과 다르면 시각 쪽을 신뢰해 교정한다. CCIP는 정체성(얼굴) 기반이라 조이↔동구 같은 오인에 강하다.
Gemma=동구 ↔ 시각=조이 모순 → 시각 우선 → 조이 뱅크로 정정. 앞 10화에서 18건 교정 · 210건 확증. 세 신호(시각·장면·대화)가 서로를 검증한다.
신뢰(scene✓+solo)만 뱅크에 들어가고, 추측 168줄은 "불확실"로 분리된다. 앞 10화 기준.
시각 교차검증으로 인물 오식별은 상당 부분 잡았지만, 여전히 화자가 패널에 아예 없는 경우(폰 너머·회상·다음 컷)나 한 패널 다중 턴은 남는다. 순도 필터가 이런 모호분을 "불확실"로 빼서 뱅크 오염은 막지만, 회수율은 그만큼 준다.
다음 단계: ① 말풍선 검출(YOLO) + 꼬리 방향 기하 분석 → 말풍선이 가리키는 인물과 직접 매칭(패널 밖 화자도). ② 시퀀스(앞뒤 컷) 문맥 결합으로 턴테이킹 추적. 정리하면 시각(누가 있나) · 기하(누구를 가리키나) · 언어(대화 흐름) 세 신호를 합칠수록 정확해진다 — 지금은 그중 시각·언어를 결합한 상태.