오귀속 케이스 분석 — "조이님의 안주하지 않는 모습"

이직로그 3화. 조이의 말투뱅크에 들어간 이 대사는 사실 조이의 대사가 아니다. 왜 틀렸고, 파이프라인의 어떤 한계가 드러나는가.

1target 패널과 귀속 결과

panel_065
3화 panel_065 — 화면엔 조이(컵 든 갈색단발). 위·아래 말풍선 꼬리가 모두 패널 왼쪽 밖(조이 반대편)을 가리킨다.
panel_063
3화 panel_063 — 조이는 오른쪽을 보며 반응. "…멋진데요" 말풍선 꼬리는 왼쪽 밖.
"조이님의 안주하지 않는 모습."
파이프라인 귀속 → 조이 scene✓  ✗ 틀림
"…멋진데요." / "멋진 거라고 생각해요."
조이 (visual_solo)  ✗ 틀림

실제 화자 = 동구. 동구가 조이를 보며 "조이님의 안주하지 않는 모습, 멋진데요"라고 감탄하는 장면. 조이는 듣는 사람.

2화자가 조이가 아닌 세 가지 근거

① 언어 — 존댓말 호칭
"조이의" — 자기 자신을 "조이님"이라 부르지 않는다. 호칭의 대상(조이)은 청자이지 화자가 아니다. 화자는 조이를 높여 부르는 사람 = 동구.
② 기하 — 말풍선 꼬리
두 패널 모두 말풍선 꼬리가 조이 반대 방향(패널 밖)을 가리킨다. 화자가 조이라면 꼬리가 조이 입을 향해야 한다. → 화자는 패널 밖.
③ 맥락 — 대화 흐름
바로 앞 panel_061이 동구의 1인칭 독백("…말뿐인 내가 그렇다"). 이어지는 칭찬은 동구가 조이에게 건네는 말. 조이는 그 말을 듣고 반응(panel_063의 표정).

3왜 파이프라인의 모든 신호가 틀렸나

핵심: 세 신호가 전부 "화면에 보이는 사람"만 보고 조이를 가리켰다. 정작 말하는 사람(동구)은 패널에 없다.

신호판정왜 조이로 봤나
Gemma 화자추측조이패널에 조이만 보이니 조이가 말한다고 가정.
scene 묘사조이"조이가 컵을 들고 말을 하고 있다" — 보이는 인물의 동작으로 서술. 실제론 듣는 중.
시각 교차검증(char_assign)조이얼굴은 정확히 조이. 하지만 '조이가 거기 있다' ≠ '조이가 말한다'. 존재는 맞고 발화는 틀림.
언어(호칭 "님")동구유일하게 화자≠조이를 잡아내는 신호.
💡 존재(presence) ≠ 발화(speech). 시각·장면 신호는 "누가 보이나"를 잘 잡지만, 화자가 패널 밖에 있는 리액션 컷에선 보이는 대상(청자)을 화자로 오인한다. 이건 언어 신호(호칭·경어)와 말풍선 꼬리 기하로만 교정된다.

4다음 단계

이 케이스가 가리키는 보강:

경어/호칭 규칙 — 대사에 "X님"이 있으면 화자 ≠ X(X는 청자). 값싸고 강력한 언어 필터. 지금 corpus엔 이런 "님" 호칭 줄이 다수 있어 즉시 정화 효과.
말풍선 검출 + 꼬리 방향 — 꼬리가 패널 밖을 가리키면 "화자 패널 밖"으로 표시 → solo/visual 규칙 적용 보류.
③ 종합: 시각(누가 있나) · 기하(누구를 가리키나) · 언어(호칭·흐름) 세 신호의 합의로 판정.

관련: 화자 귀속 검출 방식 · corpus 뷰어