高音質なずんだもんを作った話

VOICEVOXの音質制限を突破して可聴域を全てカバーした

2025年12月

現状の問題

ショート動画とかでよく使われるVOICEVOXのずんだもん、実は音質に問題がある

まずは聴いてみて(VOICEVOX従来版)

VOICEVOX
12kHz
VOICEVOX(24kHzサンプリング)
20kHz
今回作った(40kHzサンプリング)
ナイキスト周波数:サンプリング周波数の半分までの音が出せる
24kHz → 12kHzまで / 40kHz → 20kHz(人間の聴覚限界)まで

スペクトラムで見てみる

周波数分布を見ると違いが一目で分かる

VOICEVOXのスペクトラム
VOICEVOX → 12kHz以上が無い
Applioのスペクトラム
今回作った → 12kHz以上が出てる
縦軸が周波数(高さ)、明るい部分に音が存在している
VOICEVOXは12kHz付近でスパッと切れてる

どうやって作ったか

ApplioっていうAI音声変換ツールを使って、 SSS合同会社が配布してるコーパス(96kHz)から 可聴域を全部カバーしたずんだもん(40kHz)を作った

1

コーパスをダウンロード

SSS合同会社の録音済みコーパス(96kHz)を使った。ファイル数は5524個

2

ダウンサンプリング(96kHz → 40kHz)

人間に聞こえない音をカットしてコスト削減。ノイズ除去もやった

3

特徴量の抽出

ContentVec:発音・リズム・アクセントを抽出
rmvpe:音の高さを抽出

4

HiFi-GANで学習

敵対的学習で音声を生成するモデルを訓練

敵対的学習(GAN)って?

2人のAIが競争しながら成長する仕組み

Aさんが声を作る。「どうだ!」
Bさんが見破る。「ここが機械っぽいから偽物!」
Aさんは悔しいから次はもっと上手く作る

これを超高速で何万回も繰り返す → 僕のPCで約2日かかった

過学習に注意
学習しすぎると過学習になる。問題集の答えを丸暗記してるようなもので、 過去問は100点取れるけど、数字がちょっと変わっただけの本番は0点になっちゃう。だから適度に止める必要がある

検証:12kHz以上が出てれば成功

成功!

12kHz以上の高音が出た。可聴域を完全カバー達成

12kHz
VOICEVOX(従来の限界)
20kHz
今回作った(人間の限界まで)
5524
学習に使った音声ファイル数
約2日
学習にかかった時間

実際に聴いてみて

日本語(VOICEVOX入力)

VOICEVOX(従来)
Applio(今回作った)

日本語(Gemini TTS入力)

Gemini TTS → Applio

VOICEVOXより感情豊かな表現ができる

英語

VOICEVOX

カタカナ発音になりがち

Applio + Gemini TTS

ネイティブっぽく発音できる

歌ってみた

YOASOBI「アイドル」

Synthesizer Vの歌声をApplioでずんだもんに変換

できるようになったこと

まとめ

使った技術
Applio / HiFi-GAN / ContentVec / rmvpe / Gemini TTS

ご清聴ありがとうございました

1 / 10