같은 검출 마스크(YOLO 풍선 ∪ comic-text-detector 텍스트)를 기준으로, 고전 알고리즘(Telea) · 비생성형(LaMa) · 생성형(FLUX Fill·Kontext)이 같은 자리를 어떻게 채우는지 비교한다. 핵심 질문: "보기 좋게" 채우는 생성형이 학습 데이터로도 좋은가?
주변 픽셀 전파(FMM). 다운로드·학습 불필요. 넓은 영역은 뭉개짐.
FFT 기반 대형수용야 인페인팅. 주변 텍스처를 충실히 복원, "상상" 안 함.
마스크 영역을 프롬프트 따라 새로 그림. 깨끗하나 없던 내용 생성 위험.
마스크 없이 지시문으로 편집. 이미지 전체를 재생성.
※ Telea·LaMa는 CPU/경량, FLUX은 GPU 12B(28 steps, seed 0). 속도는 RTX PRO 6000 기준 측정값.
각 셀 높이 정렬. 초록 테두리=LaMa(현행 채택) · 파랑 테두리=생성형.
























| 방식 | 유형 | 비용 | 충실도(학습 데이터 관점) | 판정 |
|---|---|---|---|---|
| Telea | 고전(FMM) | 0.24초/컷 · 무학습 | 넓은/텍스처 영역은 번져 뭉개짐. 작은 풍선엔 그럭저럭 | 보조용 |
| LaMa ✓ | 비생성형 | 1.4초/컷 · 경량(로드 수초) | 주변 텍스처를 충실히 연장. 없던 것을 만들지 않음 | 채택 |
| FLUX Fill | 생성형·마스크 12B | 5.2초/컷 + 로드 264초, VRAM 24GB+ | 깨끗해 보이나 마스크 영역을 새로 상상 — 텍스트 자리에 가짜 글씨를 생성(ep004/p023·ep001/p050) | ✕ 오염 |
| FLUX Kontext | 생성형·지시문 12B | 18.8초/컷(Fill의 3.6배) + 로드 237초 | 이미지 전체를 재생성 → 인물·구도·색이 원작에서 이탈 | ✕ 오염 |
속도 결론 — LaMa는 컷당 1.4초·로드 수초인 반면, 생성형은 12B 모델 로드만 4분, 생성도 Kontext 기준 컷당 18.8초(LaMa의 13배). 4천 패널 전량 처리 시 LaMa 분 단위 vs 생성형 시간 단위. 품질(충실도)·속도 모두 LaMa가 우위 → 현행 유지 확정.
스크립트 02_char_lora/src/inpaint_compare.py ·
동일 마스크/seed0/28steps · 속도 측정 timings.json · 모델 캐시는 NVMe(~/data)·로컬 fp8 사용.