네이버웹툰 AI Multimedia · AI Researcher 지원 포트폴리오

이직로그 멀티모달 페르소나 챗
웹툰 IP 캐릭터와 대화하는 AI

네이버웹툰 오리지널 IP 이직로그(오피스 로맨스, 55화)의 캐릭터와 대화하는 멀티모달 챗 시스템. 캐릭터가 ① 자기 말투로 ② 설정(배경)에 근거해 ③ 현재 상황을 알고 답하며 ④ 이미지로 반응한다.

IP 이직로그 (55화 · 무료분 전량) 채택 베이스 Anima v1.0 (DiT 2B) GPU RTX PRO 6000 96GB 데모 06-19 · 마감 06-21

01핵심 차별점

"독자가 읽은 회차까지만 아는 캐릭터" — 회차 컷오프 스포일러 가드

대부분의 캐릭터 챗봇은 작품 전체를 이미 알고 답한다. 이 프로젝트는 독자의 진도(회차)까지만 지식·상황을 게이팅해, 아직 안 읽은 전개를 발설하지 않는다. 회차별로 인덱싱된 corpus가 이 가드의 핵심이며, 웹툰 IP의 연재 경험을 해치지 않으면서 몰입형 인터랙션을 제공하는 차별점이다.

02최종 목표 — 4가지가 결합된 한 번의 대답

🗣️말투

화자 귀속된 대사 라인을 모은 few-shot 뱅크로 캐릭터 고유 어투 재현.

📖배경(설정)

VLM이 모은 상황·대사를 LLM이 캐릭터 프로필로 합성(나무위키 빈약 보완).

⏱️현재 상황

패널별 장면을 회차로 게이팅 — 진도까지의 사건만 인지.

🎨이미지 반응

그림체+인물 LoRA로 캐릭터가 감정에 맞는 그림으로 응답.

03시스템 아키텍처 — 투트랙 데이터 → LoRA + RAG

공통 출발점 panels_raw(의미단위 패널, 대사 보존)에서 두 트랙으로 분기. 두 트랙은 같은 패널 번호를 공유해 "그림 ↔ 의미"가 매핑된다.

원본 컷(696×1600) ─ 스티칭 ─▶ panels_raw (의미단위 패널 4,002개) │ ├─[이미지 트랙]─▶ 패널분할(중앙절단) ─▶ clean(LaMa) ─▶ 트리밍 ─▶ 캐릭터분류 ─▶ LoRA ×N │ (그림체·인물·배경) └─[텍스트 트랙]─▶ VLM 분석(장면·인물·감정·대사) ─▶ 3 corpus ─▶ RAG (말투·상황·배경, 회차 인덱싱) 최종: RAG(스포일러 가드) + LoRA(그림체+인물) ──▶ FastAPI 챗 웹앱

04이미지 트랙 — 그림체·인물·배경 LoRA

수집 — comic.naver.com 무료 회차 컷 다운로드(55화, DRM 없음) 완료
패널 분할 (2단계 재설계) — 거터(흰 띠) 중앙을 잘라 여백 보존 → 풍선이 경계에서 잘려 인페인팅이 깨지는 문제 해결 완료 · 4,002패널
말풍선/텍스트 제거 (clean) — YOLO 풍선 ∪ comic-text-detector 텍스트 마스크 → LaMa 인페인팅. 생성형(FLUX)은 가짜 글씨 환각·인물 재생성으로 데이터 오염되어 비채택 완료
흰여백 트리밍 — 내용 바운딩박스로 타이트 크롭(학습용) 완료
캐릭터 분류 — 얼굴 검출+임베딩 클러스터링 + VLM 화자귀속 교차검증으로 인물별 분리 예정
LoRA 학습 — 그림체(전체 클린) · 인물(persononly 크롭) · 배경(사람없는 패널) 독립 학습. 베이스 3종(NoobAI/SDXL/Anima) 대조 → Anima 채택 그림체 완료 · 인물 예정

전처리 진행은 라이브 모니터에서 실시간 확인. 인페인팅 모델 비교 근거는 인페인팅 벤치마크, 패널 분할 재설계는 2단계 처리 참고.

05텍스트 트랙 — 3 corpus (VLM → LLM)

대사만 뽑으면 맥락이 죽으므로 맥락 보존 4층으로 분리한다. Qwen2.5-VL이 패널마다 {장면·인물·감정·대사(OCR)·화자}를 구조화한다.

corpus	출처	역할
말투	화자귀속 대사 라인	few-shot 어투 뱅크
현재 상황	패널별 장면(동적)	회차 게이팅 — 스포일러 가드
배경(설정)	상황+대사 집계 → LLM 합성	캐릭터 프로필

VLM 분석 샘플은 모니터 → 텍스트 트랙 탭에서 확인. 최대 난관 = 화자 귀속과 조이/에스터 시각 혼동(둘 다 긴머리) — 여기에 검증을 집중한다.

06음성 — 캐릭터 TTS

영어 전용 Raon-OpenTTS(크래프톤, F5-TTS DiT 0.3B)를 AIHub 한국어 451시간으로 continual fine-tune → 한국어 CER 0.94→0.16(오류 83%↓). 캐릭터 음성은 성우 레퍼런스 zero-shot 클로닝. → 음성 합성 갤러리

07진행 현황 & 로드맵

항목	상태	비고
컷 수집 / 패널 분할	완료	55화 · 4,002 의미단위 패널(중앙절단 2단계)
clean(LaMa) / 트리밍	완료	4,002패널 풍선·텍스트 제거 + 학습용 타이트 크롭
그림체 LoRA (3베이스 대조)	완료	Anima 채택
VLM 패널 분석	완료(재정렬 필요)	55회차 · 중앙절단으로 31회차 번호 재매핑 예정
음성 TTS	완료	한국어 전이 + zero-shot 클로닝
캐릭터 분류 / 인물 LoRA	예정 (MVP)	조이 데모 캐릭터 — 클러스터+라벨 1회 후 학습
RAG 챗 웹앱	예정	FastAPI · 말투+상황 corpus + LoRA 결합

MVP 확정 — 분류는 전체 버킷 진행. LoRA = 그림체 + 조이(데모 캐릭터), corpus = 말투 + 상황(배경은 확장으로 미룸), + 챗 데모. 조이/에스터 식별은 클러스터+라벨 한 번으로 끊고 LoRA로 진행(소량 오라벨에 강건).

08설계 노트

전처리가 곧 그림체다

말풍선·효과음이 남으면 LoRA가 텍스트 덩어리를 그림체로 학습한다(round1 NoobAI 실증). 검출 임계값 인하는 치비 얼굴 오검출 역효과 → 마스크 팽창+LaMa로 접근.

생성형 인페인팅 = 데이터 오염

FLUX Fill은 텍스트 지운 자리에 가짜 글씨 환각, Kontext는 인물을 재생성. 학습 데이터엔 치명적 → 충실한 LaMa 유지.

인물·그림체 LoRA는 별개

키워드 방식은 캐릭터가 섞인다. 그림체는 전체 클린 패널, 인물은 배경 제거(persononly) 크롭으로 독립 학습.

맥락 보존 분리

대사만 뽑으면 맥락이 죽는다. 지식/말투/상황/페르소나 4층으로 나눠 RAG 검색 품질을 확보.