텍스트 검출기 — comic-text-detector (오버레이 분석)

풍선 검출기 사각지대(손글씨 효과음·크레딧·UI 텍스트) 보완 · 임계값 튜닝 · 2026-06-13 · ← 프로젝트 개요

방법

comic-text-detector(mayocream ONNX)의 텍스트 세그멘테이션 마스크를 풍선 마스크와 합집합한다. 200컷을 스캔해 텍스트 검출기가 풍선 밖에서 추가로 잡는 면적이 큰 순으로 12컷을 자동 선별 — 효과음이 많은 컷이 위로 온다.

파랑 = 풍선 마스크 (현재) 빨강 = 텍스트 검출기 추가분

오버레이 + 제거 결과 (좌: 검출 오버레이 · 중: 풍선만 · 우: 풍선+텍스트)

텍스트 검출기 오버레이 비교 (고해상도)

관찰 — 성공과 오검출

성공: 손글씨 효과음("콰르르르..", "괴...", "!!"), 작가 크레딧("글ㅣ우시목 그림ㅣ이하안"), 채팅 UI 텍스트 — 풍선 검출기가 못 잡던 비-풍선 텍스트를 정확히 제거. 이게 d45에 남았던 잔재의 정체다.

오검출: 상위 컷(26%, 12%)의 큰 빨강 영역은 효과음이 아니라 하프톤(스크린톤) 점무늬를 텍스트로 오인한 것. 이 영역을 지우면 음영 텍스처가 뭉개진다.

임계값 튜닝 — 스크린톤 오검출 억제

텍스트 확률 임계값을 올리면 스크린톤(약한 신호)은 빠르게 탈락하지만 효과음·크레딧(강한 신호)은 거의 유지된다.

케이스thr 0.3thr 0.5thr 0.7
스크린톤 ep024/cut_0259.5%5.4%3.3%
스크린톤 ep035/cut_0472.8%1.1%0.4%
효과음 ep026/cut_0083.1%2.7%2.2%
크레딧 ep030/cut_0641.9%1.7%1.5%

스크린톤은 thr 0.7에서 1/3로 줄지만 효과음·크레딧은 거의 그대로 — 임계값 0.5가 균형점(스크린톤 절반 감소, 텍스트 거의 보존).

텍스트 마스크 패딩 — 글자 잔상 제거 (thr 0.5 고정)

텍스트 마스크에 패딩(팽창)을 주지 않으면 글자 외곽선 잔상이 남는다. 효과음·크레딧 컷에서 패딩 12/24/36px를 비교했다.

텍스트 패딩 비교
패딩결과
12px효과음 외곽선 잔상 잔존 (예: "콰르르르" 파란 획)
24px잔상 대부분 제거, 과잉 마스킹 없음 — 채택
36px잔상 거의 완전 제거. 인접 그림 침범 위험은 약간 증가

결론

채택 — 임계값 0.5 + 텍스트 패딩 24px + 스크린톤 가드. comic-text-detector는 풍선 검출기가 놓친 효과음·크레딧·UI 텍스트를 정확히 제거하고, 패딩 24px로 글자 외곽선 잔상까지 없앤다. 하프톤 오검출은 임계값 0.5로 완화한다. 다음: 전체 3,860컷을 풍선(45px) + 텍스트(thr 0.5, 패딩 24px) 합집합으로 재처리(d45t) → Anima 재학습.
판단 근거 기록 — "최대 추가면적 순"으로 컷을 자동 선별하니 효과음이 아니라 스크린톤 오검출이 상위로 올라왔다. 자동 선별 기준이 곧 실패 사례 발굴기로 작동한 셈 — 덕분에 임계값 튜닝의 필요성을 데이터로 확인했다.