네이버웹툰 이직로그(오피스 로맨스, 55화)의 컷 3,877장을 수집 → VLM 분석 → 말풍선 제거 → 자동 태깅 → 그림체 LoRA 학습까지 끝까지 구축. 베이스 모델 3종(SDXL 2종 + DiT 1종)을 동일 조건으로 대조하고, 전처리 품질 실험을 거쳐 개선 사이클을 돈다.
| 항목 | 상태 | 비고 |
|---|---|---|
| 컷 수집 | 완료 (55화 / 3,877컷) | 무료 전회차, download_webtoon.py |
| 말풍선 제거 | 완료 (3,860컷) | YOLOv8-seg + LaMa · 패딩 45px 재처리본(d45) 생성 완료 |
| 자동 태깅 | 완료 | wd-swinv2-tagger-v3 · 트리거 ijlog · d45 재태깅 진행 중 |
| LoRA 3베이스 대조 | 완료 (round 1) | NoobAI / Anima / SDXL base · Anima 채택 |
| Anima 재학습 (d45) | 완료 | 패딩 45px 클린본 재학습 → 풍선 잔재 개선, 효과음 잔존 (비교) |
| 인페인팅 3종 벤치마크 | 완료 | LaMa 유지 확정 — 생성형은 데이터 오염 (리포트) |
| 텍스트 검출기 추가 | 예정 | 손글씨 효과음 마스킹 — comic-text-detector 계열 |
| 캐릭터별 LoRA 분리 | 예정 | 동구 / 조이 / 에스터 / 배경 / 전체 5종 |
01_data_prep)03_bubble_clean)04_tagging)05_train_lora + AnimaLoraToolkit)06~07)이직로그 클린 컷 3,860장 · 동일 조건(rank 32 / 2,500스텝 / 유효 배치 4 / 트리거 ijlog)에서 베이스 모델만 교체.
→ 추가 샘플 갤러리 — 5가지 프롬프트 × 3베이스 (15장, 동일 시드) + 프롬프트별 관찰 노트
| 베이스 | 아키텍처 / 도구 | 관찰 |
|---|---|---|
| Anima base v1.0 ✓ 채택 | DiT 2B (Cosmos) · AnimaLoraToolkit | 파스텔톤·가는 선·여백 등 원작 분위기 흡수가 가장 자연스러움. 인물 구도 안정 |
| NoobAI-XL v1.1 | SDXL · kohya | 그림체 전이 강함. 단 말풍선·효과음 잔재 생성 (전처리 한계 노출) |
| SDXL base 1.0 | SDXL · kohya | 그림체보다 웹툰 '컷 구도'를 학습 — danbooru 태그 미학습 베이스의 한계 |
패널에서 얼굴 3,396개를 검출 → VLM 시드 + CCIP kNN으로 캐릭터 분류 → person 검출·배경제거로 인물 LoRA 학습셋(persononly)까지 구축. 같은 그림체 IP라 비지도 클러스터링이 한 덩어리로 뭉치는 문제를, 1인 패널 시드와 시각 임베딩 거리로 풀었다.
| 단계 | 결과 |
|---|---|
| 캐릭터 분류 (VLM+CCIP) | 동구 1,502 · 조이 861 · 에스터 382 · 기타 651 — 4몽타주 검증 |
| 전수 검수 갤러리 | 캐릭터별 얼굴 전수 · 치비 토글 |
| 치비 분리 케이스 스터디 | CCIP가 못 가른 치비를 얼굴 크기 신호로 분리 — 시행착오 기록 |
| 치비 모음 (캐릭터별) | 동구 323 · 조이 221 · 에스터 84 — 별도 자산 보존 |
| persononly 학습셋 | 배경제거 인물 867장 (조이 300 · 에스터 267 · 동구 300) — 인물 LoRA 입력 |
| 조이 LoRA 학습셋 · 캡셔닝 | 흉상300+얼굴크롭250 · 배경 3변형(bg/white/nobg) · 캡션=wd14+Qwen자연어 |
| 조이 LoRA 결과 | Anima 5000스텝 · 3변형 × 9프롬프트 비교 (감정·전신·그림체 흡수) |
| 레퍼런스 추론 데모 NEW | 조이 컷으로 변형 — img2img(Anima+LoRA) vs FLUX Kontext 편집 |
→ 이직로그 캐릭터 음성 합성 갤러리 — 영어 전용 Raon-OpenTTS(크래프톤)를 AIHub 한국어 451시간으로 전이학습. 한국어 CER 0.94→0.16 (오류 83%↓), Before/After 음성 청취 + 학습곡선
핵심: FLAC 변환으로 전처리 60배 가속 · EMA 함정 발견(raw 가중치 추론) · 영어→한국어 char 임베딩 전이
→ 이직로그 데이터셋 뷰어 — 말풍선 제거 3,860컷 + 캡션 전체 열람 (55회차)
→ 말풍선 검출 임계값 실험 — 결론: 인하 비추천 (치비 얼굴 오검출)
→ 말풍선 마스크 패딩 실험 — 결론: 45px 채택, 재처리·재학습 진행
→ 인페인팅 3종 벤치마크 — LaMa vs FLUX Fill vs FLUX Kontext (결론: LaMa 유지, 생성형은 데이터 오염)
→ 패딩 재학습 비교 (round1 vs d45) — 풍선 잔재는 개선, 손글씨 효과음은 잔존 (텍스트 검출기 필요)
→ 텍스트 검출기 추가 (comic-text-detector) — 효과음 마스킹 성공, 풍선+텍스트 합집합 채택 권장
→ 패널 분할 로직 (스티칭→거터 검출) — 균일 슬라이스를 의미 단위 패널 3,915개로 재분할
→ 패널 처리 2단계 재설계 (거터 중앙 절단 → clean → 트리밍) NEW — 가장자리 절단 시 풍선이 잘려 LaMa가 깨지던 문제 해결. 패널 번호 1:1 유지, ep001 4단계 비교 6컷
→ 인페인팅 모델별 퀄리티 비교 (LaMa vs 생성형) NEW — 같은 검출 마스크로 Telea·LaMa·FLUX Fill·Kontext 비교. 생성형은 텍스트 자리에 가짜 글씨 환각·인물 재생성 → 데이터 오염, LaMa 유지 근거
→ 전처리 파이프라인 라이브 모니터 LIVE — 분할·clean(LaMa)·트리밍·캐릭터분류 진행률·ETA 실시간(15초 폴링)
같은 파이프라인을 처음 구축했던 IP. 페르소나 챗(RAG+스포일러 가드)용 자산이 완성 상태로 보존되어 있다 — 클린 컷 825장 + wd14 캡션 + Qwen2.5-VL 분석 메타 21회차 전체(장면·감정·대사 OCR·화자).
→ 가비지타임 데이터셋 뷰어 — 컷별 클린 이미지 + 캡션 + VLM 분석