패딩 재학습 비교 — round1 (15px) vs d45 (45px)

Anima base v1.0 · 동일 5프롬프트 · 동일 시드 42 · 2026-06-13 · ← 프로젝트 개요

배경

round1은 말풍선 마스크를 15px 팽창시켜 제거한 데이터로 학습했고, 생성물에 풍선 외곽선·텍스트 잔재가 남았다. 패딩 실험에서 45px가 잔상 제거에 우수했으므로, 전체 3,860컷을 45px로 재처리(d45)해 동일 조건으로 Anima를 재학습했다. 두 LoRA로 같은 프롬프트·시드를 생성해 비교한다.

좌: round1 (15px) · 우: d45 (45px)

프롬프트별 관찰

#	장면	변화
1	오피스 여성	둘 다 깔끔. d45는 표정·구도가 더 자연스러우나 우상단 작은 텍스트 잔재 발생
2	안경 남성+커피	d45가 소품(커피·사원증) 묘사 향상. 둘 다 큰 잔재 없음
3	남녀 대화	round1의 좌상단 치비 얼굴 잔재가 d45에서 사라짐
4	카페 창가	가장 큰 개선 — round1의 거대한 간판 텍스트 잔재가 d45에서 거의 제거됨
5	밤 코딩	d45에서 오히려 손글씨 효과음(의성어) 잔재가 더 많이 생성됨

결론 — 부분 성공, 한계 명확

패딩 45px는 말풍선 외곽선·치비 얼굴 잔재 제거에 효과적(특히 #4 간판 텍스트). 그러나 손글씨 효과음(의성어)은 여전히 잔존(#5)한다 — 이것들은 말풍선이 아니므로 풍선 검출기(YOLO speech-bubble)가 원천적으로 잡지 못하기 때문이다. 다음 단계는 텍스트 전용 검출기(comic-text-detector 계열)를 한 층 더 얹어 효과음까지 마스킹하는 것. 채택 LoRA는 d45로 갱신.

생성: src/anima_sample.py · LoRA: ijlog_lora_anima_d45/ · 관련: 패딩 실험 · 인페인팅 벤치마크