VOICEVOXの音質制限を突破して可聴域を全てカバーした
2025年12月
ショート動画とかでよく使われるVOICEVOXのずんだもん、実は音質に問題がある
周波数分布を見ると違いが一目で分かる
ApplioっていうAI音声変換ツールを使って、 SSS合同会社が配布してるコーパス(96kHz)から 可聴域を全部カバーしたずんだもん(40kHz)を作った
SSS合同会社の録音済みコーパス(96kHz)を使った。ファイル数は5524個
人間に聞こえない音をカットしてコスト削減。ノイズ除去もやった
ContentVec:発音・リズム・アクセントを抽出
rmvpe:音の高さを抽出
敵対的学習で音声を生成するモデルを訓練
2人のAIが競争しながら成長する仕組み
これを超高速で何万回も繰り返す → 僕のPCで約2日かかった
12kHz以上の高音が出た。可聴域を完全カバー達成
VOICEVOXより感情豊かな表現ができる
カタカナ発音になりがち
ネイティブっぽく発音できる
Synthesizer Vの歌声をApplioでずんだもんに変換