웹툰 IP 멀티모달 파이프라인

이직로그 그림체 LoRA
웹툰 전처리 → 학습 → 베이스 대조

네이버웹툰 이직로그(오피스 로맨스, 55화)의 컷 3,877장을 수집 → VLM 분석 → 말풍선 제거 → 자동 태깅 → 그림체 LoRA 학습까지 끝까지 구축. 베이스 모델 3종(SDXL 2종 + DiT 1종)을 동일 조건으로 대조하고, 전처리 품질 실험을 거쳐 개선 사이클을 돈다.

IP 이직로그 (titleId 837659 · 55화) 채택 베이스 Anima base v1.0 (DiT 2B) GPU RTX PRO 6000 96GB env conda webtoon · py3.11

📋 전체 프로젝트 상세 설명 · 🔴 전처리 라이브 모니터

현재 진행 상황 (2026-06-13)

항목	상태	비고
컷 수집	완료 (55화 / 3,877컷)	무료 전회차, download_webtoon.py
말풍선 제거	완료 (3,860컷)	YOLOv8-seg + LaMa · 패딩 45px 재처리본(d45) 생성 완료
자동 태깅	완료	wd-swinv2-tagger-v3 · 트리거 `ijlog` · d45 재태깅 진행 중
LoRA 3베이스 대조	완료 (round 1)	NoobAI / Anima / SDXL base · Anima 채택
Anima 재학습 (d45)	완료	패딩 45px 클린본 재학습 → 풍선 잔재 개선, 효과음 잔존 (비교)
인페인팅 3종 벤치마크	완료	LaMa 유지 확정 — 생성형은 데이터 오염 (리포트)
텍스트 검출기 추가	예정	손글씨 효과음 마스킹 — comic-text-detector 계열
캐릭터별 LoRA 분리	예정	동구 / 조이 / 에스터 / 배경 / 전체 5종

파이프라인 — 작업 과정 기록

수집 — comic.naver.com 무료 회차 컷 다운로드 (55회차 / 3,877컷, DRM 없음)
데이터 점검 — 크기·비율 분포 분석, 저화질·극단 세로컷 제외 → 후보 3,859컷 (01_data_prep)
말풍선 제거 — 대사를 보존해야 하므로 OCR/분석이 선행되는 구조. YOLOv8m-seg 검출(conf 0.4) + 마스크 팽창 + LaMa 인페인팅 (03_bubble_clean)
자동 태깅 — wd14 태거로 danbooru 태그 캡션, 트리거 토큰 보호 (04_tagging)
3베이스 LoRA 대조 — 동일 조건(rank 32 / 2,500스텝 / 유효 배치 4)에서 베이스만 교체 (05_train_lora + AnimaLoraToolkit)
전처리 개선 사이클 — 임계값 실험 → 패딩 실험 → 45px 재처리 → 재학습 (06~07)

그림체 LoRA — 3개 베이스 대조군 결과

이직로그 클린 컷 3,860장 · 동일 조건(rank 32 / 2,500스텝 / 유효 배치 4 / 트리거 ijlog)에서 베이스 모델만 교체.

→ 추가 샘플 갤러리 — 5가지 프롬프트 × 3베이스 (15장, 동일 시드) + 프롬프트별 관찰 노트

베이스	아키텍처 / 도구	관찰
Anima base v1.0 ✓ 채택	DiT 2B (Cosmos) · AnimaLoraToolkit	파스텔톤·가는 선·여백 등 원작 분위기 흡수가 가장 자연스러움. 인물 구도 안정
NoobAI-XL v1.1	SDXL · kohya	그림체 전이 강함. 단 말풍선·효과음 잔재 생성 (전처리 한계 노출)
SDXL base 1.0	SDXL · kohya	그림체보다 웹툰 '컷 구도'를 학습 — danbooru 태그 미학습 베이스의 한계

캐릭터 식별 & 인물 LoRA 학습셋 NEW

패널에서 얼굴 3,396개를 검출 → VLM 시드 + CCIP kNN으로 캐릭터 분류 → person 검출·배경제거로 인물 LoRA 학습셋(persononly)까지 구축. 같은 그림체 IP라 비지도 클러스터링이 한 덩어리로 뭉치는 문제를, 1인 패널 시드와 시각 임베딩 거리로 풀었다.

단계	결과
캐릭터 분류 (VLM+CCIP)	동구 1,502 · 조이 861 · 에스터 382 · 기타 651 — 4몽타주 검증
전수 검수 갤러리	캐릭터별 얼굴 전수 · 치비 토글
치비 분리 케이스 스터디	CCIP가 못 가른 치비를 얼굴 크기 신호로 분리 — 시행착오 기록
치비 모음 (캐릭터별)	동구 323 · 조이 221 · 에스터 84 — 별도 자산 보존
persononly 학습셋	배경제거 인물 867장 (조이 300 · 에스터 267 · 동구 300) — 인물 LoRA 입력
조이 LoRA 학습셋 · 캡셔닝	흉상300+얼굴크롭250 · 배경 3변형(bg/white/nobg) · 캡션=wd14+Qwen자연어
조이 LoRA 결과	Anima 5000스텝 · 3변형 × 9프롬프트 비교 (감정·전신·그림체 흡수)
레퍼런스 추론 데모 NEW	조이 컷으로 변형 — img2img(Anima+LoRA) vs FLUX Kontext 편집

캐릭터 음성 TTS NEW

→ 이직로그 캐릭터 음성 합성 갤러리 — 영어 전용 Raon-OpenTTS(크래프톤)를 AIHub 한국어 451시간으로 전이학습. 한국어 CER 0.94→0.16 (오류 83%↓), Before/After 음성 청취 + 학습곡선
핵심: FLAC 변환으로 전처리 60배 가속 · EMA 함정 발견(raw 가중치 추론) · 영어→한국어 char 임베딩 전이

실험 리포트 · 데이터셋

→ 이직로그 데이터셋 뷰어 — 말풍선 제거 3,860컷 + 캡션 전체 열람 (55회차)
→ 말풍선 검출 임계값 실험 — 결론: 인하 비추천 (치비 얼굴 오검출)
→ 말풍선 마스크 패딩 실험 — 결론: 45px 채택, 재처리·재학습 진행
→ 인페인팅 3종 벤치마크 — LaMa vs FLUX Fill vs FLUX Kontext (결론: LaMa 유지, 생성형은 데이터 오염)
→ 패딩 재학습 비교 (round1 vs d45) — 풍선 잔재는 개선, 손글씨 효과음은 잔존 (텍스트 검출기 필요)
→ 텍스트 검출기 추가 (comic-text-detector) — 효과음 마스킹 성공, 풍선+텍스트 합집합 채택 권장
→ 패널 분할 로직 (스티칭→거터 검출) — 균일 슬라이스를 의미 단위 패널 3,915개로 재분할
→ 패널 처리 2단계 재설계 (거터 중앙 절단 → clean → 트리밍) NEW — 가장자리 절단 시 풍선이 잘려 LaMa가 깨지던 문제 해결. 패널 번호 1:1 유지, ep001 4단계 비교 6컷
→ 인페인팅 모델별 퀄리티 비교 (LaMa vs 생성형) NEW — 같은 검출 마스크로 Telea·LaMa·FLUX Fill·Kontext 비교. 생성형은 텍스트 자리에 가짜 글씨 환각·인물 재생성 → 데이터 오염, LaMa 유지 근거
→ 전처리 파이프라인 라이브 모니터 LIVE — 분할·clean(LaMa)·트리밍·캐릭터분류 진행률·ETA 실시간(15초 폴링)

설계 노트

전처리가 곧 그림체다 — 말풍선·효과음이 데이터에 남으면 LoRA가 텍스트 덩어리를 그림체의 일부로 학습한다(round 1 NoobAI에서 실증). 검출 임계값 인하는 오검출(치비 얼굴)로 그림을 지우는 역효과가 있어, 마스크 패딩 확대(45px)와 인페인팅 모델 비교로 접근한다. 생성형 인페인터(FLUX 계열)는 빈자리를 자기 그림체로 채우는 "데이터 오염" 리스크가 있어 벤치마크로 검증 후 결정.

이전 IP — 가비지타임 (일시정지)

같은 파이프라인을 처음 구축했던 IP. 페르소나 챗(RAG+스포일러 가드)용 자산이 완성 상태로 보존되어 있다 — 클린 컷 825장 + wd14 캡션 + Qwen2.5-VL 분석 메타 21회차 전체(장면·감정·대사 OCR·화자).

→ 가비지타임 데이터셋 뷰어 — 컷별 클린 이미지 + 캡션 + VLM 분석