はてなまとめ - ローカルLLM（Gemma4）× AIVIS Speech で音声チャットの応答を「1秒未満」にした話

1: nguyen-oi 2026/04/07 09:05

Gemma 4のE2PモデルとクラウドTTSの組み合わせか。句読点チャンク分割は王道だけど実測694msはガチで速いな

2: Angelfish3578 2026/04/07 09:14

全部ローカルでどれだけ速くできるかじゃないのか…TTS部分をクラウドAPIのストリー厶通信にしたらそりゃ速いと思う。

3: yellowdomestic 2026/04/07 11:01

読み上げは再生に時間かかるからvoice2textだけでいいよ　そしてそれはローカル完結ですぐできる

4: hamichamp 2026/04/07 11:20

メモ

5: heguro 2026/04/07 12:53

参考: 全部ローカルでやっている例 (M3 ProでKokoroのMLX使用、1～3文の音声生成に0.3～0.7秒とのこと) https://github.com/fikrikarim/parlor

6: shoh8 2026/04/07 13:14

“音声が生成できたらコールバックで再生キューに追加” 人間も継ぎ言葉で話しながら考えてるもんなあ

ローカルLLM（Gemma4）× AIVIS Speech で音声チャットの応答を「1秒未満」にした話 - Qiita