이직로그 캐릭터 음성 TTS — Raon-OpenTTS 한국어 전이학습

01결과 요약

파인튜닝 전후 한국어 명료도(문자오류율 CER) — 낮을수록 정확

0.94

학습 전 CER
(한국어 불가)

0.15

학습 후 CER
(24,000 step)

84%

오류 감소

zero-shot 화자
(남2·여2)

화자를 골라 들어보세요. 동일 문장·동일 모델, 레퍼런스 음성만 다릅니다(zero-shot 클로닝). 왼쪽은 학습 전(영어 모델), 오른쪽은 학습 후. 회색 이탤릭은 Whisper 자동 전사.

알려진 한계 · 문장 첫 단어가 간혹 왜곡됩니다. F5-TTS가 레퍼런스 음성과 생성을 이어 붙이는 경계 특성으로, 생성 텍스트 앞에 완충 어구("자,", "저기,")를 붙였다가 잘라내면 본문 첫 단어까지 정확해집니다.

핵심 의사결정과 트러블슈팅

AIHub 감성·발화스타일 음성합성에서 대화체·독백체·애니체 추출. wav→16kHz FLAC 인코딩으로 변환(opus 대비 60배 빠름), 313K 발화/451시간.

영어 모델의 한글 임베딩은 미학습 상태라 LR 1e-4 + 24K step으로 공격적 적응. 초기 2e-5는 너무 보수적이라 실패 후 상향.

추론용 EMA가 사전학습 step(231K)을 물려받아 얼어붙음. raw 가중치로 추론하자 CER 0.97→0.45로 즉시 개선.

배포 vocab(5,559)과 학습 vocab(5,555)이 불일치. 마지막 4자 제외한 vocab_5555로 맞춰 정상 로드.