말풍선 검출 임계값(threshold) 실험

이직로그 600컷 샘플 · kitsumed/yolov8m_seg-speech-bubble · 2026-06-13 · ← 프로젝트 개요

배경

round 1 LoRA(NoobAI)에서 생성 이미지에 말풍선 잔재가 나타났다. 현재 전처리는 신뢰도(conf) 0.4 이상 검출만 말풍선으로 인정하는데, 임계값을 내리면 누락분을 더 잡을 수 있는지 검증했다. 저임계(0.05) 추론 한 번으로 모든 후보를 받아두고 임계값별 효과를 사후 비교.

임계값별 검출 통계

임계값	검출 컷 (600 중)	총 풍선 수	0.4 대비 증가
0.40 (현재)	534 (89.0%)	1,321	—
0.30	534 (89.0%)	1,345	+24
0.20	539 (89.8%)	1,373	+52
0.10	544 (90.7%)	1,412	+91 (+6.9%)

임계값을 4배 내려도 추가 검출은 7%에 불과 — 대부분의 말풍선은 이미 0.4에서 잡히고 있다.

누락 사례 — 초록(0.4가 잡음) vs 빨강(임계값 내려야 잡힘)

빨간 박스의 상당수가 말풍선이 아니라 치비(SD) 캐릭터 얼굴 오검출이다. 진짜 누락은 가장자리에 잘린 풍선·로고 등 소수.

최저 신뢰(0.1~0.2) 검출 — 임계값 인하의 부작용

주황 박스 = 임계값을 0.1~0.2로 내리면 새로 "말풍선"으로 처리될 영역. 치비 얼굴, 모니터 화면, 신발 등 오검출이 대부분이며, 이대로 인페인팅하면 멀쩡한 그림이 지워져 학습 데이터가 손상된다.

결론

임계값 인하는 비추천. 이득(+7% 검출)보다 손실(치비 얼굴 등 오검출 인페인팅)이 크다. 잔재의 실제 원인별 대응: ① 가장자리 잘린 풍선 → 이미지 상·하단 경계에 닿는 검출만 임계값 0.2로 완화하는 위치 조건부 처리 ② 손글씨 효과음 → 텍스트 전용 검출기(comic-text-detector 계열) 레이어 추가.

노트북: 02_char_lora/notebooks/06_bubble_threshold.ipynb · round 1 베이스라인: 02_char_lora/out/round1_baseline/