웹툰 IP 멀티모달 파이프라인

이직로그 그림체 LoRA
웹툰 전처리 → 학습 → 베이스 대조

네이버웹툰 이직로그(오피스 로맨스, 55화)의 컷 3,877장을 수집 → VLM 분석 → 말풍선 제거 → 자동 태깅 → 그림체 LoRA 학습까지 끝까지 구축. 베이스 모델 3종(SDXL 2종 + DiT 1종)을 동일 조건으로 대조하고, 전처리 품질 실험을 거쳐 개선 사이클을 돈다.

IP 이직로그 (titleId 837659 · 55화) 채택 베이스 Anima base v1.0 (DiT 2B) GPU RTX PRO 6000 96GB env conda webtoon · py3.11

📋 전체 프로젝트 상세 설명 · 🔴 전처리 라이브 모니터

현재 진행 상황 (2026-06-13)

항목상태비고
컷 수집완료 (55화 / 3,877컷)무료 전회차, download_webtoon.py
말풍선 제거완료 (3,860컷)YOLOv8-seg + LaMa · 패딩 45px 재처리본(d45) 생성 완료
자동 태깅완료wd-swinv2-tagger-v3 · 트리거 ijlog · d45 재태깅 진행 중
LoRA 3베이스 대조완료 (round 1)NoobAI / Anima / SDXL base · Anima 채택
Anima 재학습 (d45)완료패딩 45px 클린본 재학습 → 풍선 잔재 개선, 효과음 잔존 (비교)
인페인팅 3종 벤치마크완료LaMa 유지 확정 — 생성형은 데이터 오염 (리포트)
텍스트 검출기 추가예정손글씨 효과음 마스킹 — comic-text-detector 계열
캐릭터별 LoRA 분리예정동구 / 조이 / 에스터 / 배경 / 전체 5종

파이프라인 — 작업 과정 기록

그림체 LoRA — 3개 베이스 대조군 결과

이직로그 클린 컷 3,860장 · 동일 조건(rank 32 / 2,500스텝 / 유효 배치 4 / 트리거 ijlog)에서 베이스 모델만 교체.

3개 베이스 LoRA 학습 전후 비교

→ 추가 샘플 갤러리 — 5가지 프롬프트 × 3베이스 (15장, 동일 시드) + 프롬프트별 관찰 노트

베이스아키텍처 / 도구관찰
Anima base v1.0 ✓ 채택DiT 2B (Cosmos) · AnimaLoraToolkit파스텔톤·가는 선·여백 등 원작 분위기 흡수가 가장 자연스러움. 인물 구도 안정
NoobAI-XL v1.1SDXL · kohya그림체 전이 강함. 단 말풍선·효과음 잔재 생성 (전처리 한계 노출)
SDXL base 1.0SDXL · kohya그림체보다 웹툰 '컷 구도'를 학습 — danbooru 태그 미학습 베이스의 한계

캐릭터 식별 & 인물 LoRA 학습셋 NEW

패널에서 얼굴 3,396개를 검출 → VLM 시드 + CCIP kNN으로 캐릭터 분류 → person 검출·배경제거로 인물 LoRA 학습셋(persononly)까지 구축. 같은 그림체 IP라 비지도 클러스터링이 한 덩어리로 뭉치는 문제를, 1인 패널 시드와 시각 임베딩 거리로 풀었다.

단계결과
캐릭터 분류 (VLM+CCIP)동구 1,502 · 조이 861 · 에스터 382 · 기타 651 — 4몽타주 검증
전수 검수 갤러리캐릭터별 얼굴 전수 · 치비 토글
치비 분리 케이스 스터디CCIP가 못 가른 치비를 얼굴 크기 신호로 분리 — 시행착오 기록
치비 모음 (캐릭터별)동구 323 · 조이 221 · 에스터 84 — 별도 자산 보존
persononly 학습셋배경제거 인물 867장 (조이 300 · 에스터 267 · 동구 300) — 인물 LoRA 입력
조이 LoRA 학습셋 · 캡셔닝흉상300+얼굴크롭250 · 배경 3변형(bg/white/nobg) · 캡션=wd14+Qwen자연어
조이 LoRA 결과Anima 5000스텝 · 3변형 × 9프롬프트 비교 (감정·전신·그림체 흡수)
레퍼런스 추론 데모 NEW조이 컷으로 변형 — img2img(Anima+LoRA) vs FLUX Kontext 편집

캐릭터 음성 TTS NEW

실험 리포트 · 데이터셋

설계 노트

전처리가 곧 그림체다 — 말풍선·효과음이 데이터에 남으면 LoRA가 텍스트 덩어리를 그림체의 일부로 학습한다(round 1 NoobAI에서 실증). 검출 임계값 인하는 오검출(치비 얼굴)로 그림을 지우는 역효과가 있어, 마스크 패딩 확대(45px)와 인페인팅 모델 비교로 접근한다. 생성형 인페인터(FLUX 계열)는 빈자리를 자기 그림체로 채우는 "데이터 오염" 리스크가 있어 벤치마크로 검증 후 결정.

이전 IP — 가비지타임 (일시정지)

같은 파이프라인을 처음 구축했던 IP. 페르소나 챗(RAG+스포일러 가드)용 자산이 완성 상태로 보존되어 있다 — 클린 컷 825장 + wd14 캡션 + Qwen2.5-VL 분석 메타 21회차 전체(장면·감정·대사 OCR·화자).