Gemma 4のE2PモデルとクラウドTTSの組み合わせか。句読点チャンク分割は王道だけど実測694msはガチで速いな
全部ローカルでどれだけ速くできるかじゃないのか…TTS部分をクラウドAPIのストリー厶通信にしたらそりゃ速いと思う。
読み上げは再生に時間かかるからvoice2textだけでいいよ そしてそれはローカル完結ですぐできる
メモ
参考: 全部ローカルでやっている例 (M3 ProでKokoroのMLX使用、1~3文の音声生成に0.3~0.7秒とのこと) https://github.com/fikrikarim/parlor
“音声が生成できたらコールバックで再生キューに追加” 人間も継ぎ言葉で話しながら考えてるもんなあ
ローカルLLM(Gemma4)× AIVIS Speech で音声チャットの応答を「1秒未満」にした話 - Qiita
Gemma 4のE2PモデルとクラウドTTSの組み合わせか。句読点チャンク分割は王道だけど実測694msはガチで速いな
全部ローカルでどれだけ速くできるかじゃないのか…TTS部分をクラウドAPIのストリー厶通信にしたらそりゃ速いと思う。
読み上げは再生に時間かかるからvoice2textだけでいいよ そしてそれはローカル完結ですぐできる
メモ
参考: 全部ローカルでやっている例 (M3 ProでKokoroのMLX使用、1~3文の音声生成に0.3~0.7秒とのこと) https://github.com/fikrikarim/parlor
“音声が生成できたらコールバックで再生キューに追加” 人間も継ぎ言葉で話しながら考えてるもんなあ