영어 전용 오픈모델 Raon-OpenTTS를 한국어로 전이학습해
웹툰 캐릭터 대사를 합성한다
파인튜닝 전후 한국어 명료도(문자오류율 CER) — 낮을수록 정확
step이 늘수록 한국어 CER이 0.94 → 0.15로 수렴
화자를 골라 들어보세요. 동일 문장·동일 모델, 레퍼런스 음성만 다릅니다(zero-shot 클로닝). 왼쪽은 학습 전(영어 모델), 오른쪽은 학습 후. 회색 이탤릭은 Whisper 자동 전사.
핵심 의사결정과 트러블슈팅
AIHub 감성·발화스타일 음성합성에서 대화체·독백체·애니체 추출. wav→16kHz FLAC 인코딩으로 변환(opus 대비 60배 빠름), 313K 발화/451시간.
영어 모델의 한글 임베딩은 미학습 상태라 LR 1e-4 + 24K step으로 공격적 적응. 초기 2e-5는 너무 보수적이라 실패 후 상향.
추론용 EMA가 사전학습 step(231K)을 물려받아 얼어붙음. raw 가중치로 추론하자 CER 0.97→0.45로 즉시 개선.
배포 vocab(5,559)과 학습 vocab(5,555)이 불일치. 마지막 4자 제외한 vocab_5555로 맞춰 정상 로드.