웹툰 IP 멀티모달 · 음성 합성

이직로그 캐릭터 음성 TTS

영어 전용 오픈모델 Raon-OpenTTS를 한국어로 전이학습해
웹툰 캐릭터 대사를 합성한다

베이스 Raon-OpenTTS-0.3B (영어 510K시간) 전이 AIHub 451시간 한국어 합성 F5-TTS DiT · zero-shot 4화자

01결과 요약

파인튜닝 전후 한국어 명료도(문자오류율 CER) — 낮을수록 정확

0.94
학습 전 CER
(한국어 불가)
0.15
학습 후 CER
(24,000 step)
84%
오류 감소
4
zero-shot 화자
(남2·여2)

02학습 곡선

step이 늘수록 한국어 CER이 0.94 → 0.15로 수렴

03Before / After 듣기

화자를 골라 들어보세요. 동일 문장·동일 모델, 레퍼런스 음성만 다릅니다(zero-shot 클로닝). 왼쪽은 학습 전(영어 모델), 오른쪽은 학습 후. 회색 이탤릭은 Whisper 자동 전사.

알려진 한계 · 문장 첫 단어가 간혹 왜곡됩니다. F5-TTS가 레퍼런스 음성과 생성을 이어 붙이는 경계 특성으로, 생성 텍스트 앞에 완충 어구("자,", "저기,")를 붙였다가 잘라내면 본문 첫 단어까지 정확해집니다.

04기술 요약

핵심 의사결정과 트러블슈팅

데이터

AIHub 감성·발화스타일 음성합성에서 대화체·독백체·애니체 추출. wav→16kHz FLAC 인코딩으로 변환(opus 대비 60배 빠름), 313K 발화/451시간.

전이학습

영어 모델의 한글 임베딩은 미학습 상태라 LR 1e-4 + 24K step으로 공격적 적응. 초기 2e-5는 너무 보수적이라 실패 후 상향.

EMA 함정

추론용 EMA가 사전학습 step(231K)을 물려받아 얼어붙음. raw 가중치로 추론하자 CER 0.97→0.45로 즉시 개선.

vocab 정합

배포 vocab(5,559)과 학습 vocab(5,555)이 불일치. 마지막 4자 제외한 vocab_5555로 맞춰 정상 로드.