会話を即座に文章にするオープンMoonshine Voice(2.5億パラメータ)がWhisper(15億)を上回る精度。ラズパイに実装可能。話者識別や音声コマンドも装備
Amicalで使ってみたい
おお。
会議のサマライズ目的の文字起こし、Large v3 turboに頼り切ってるのでこれは朗報かも。
ウィスパーの次は月の輝きか。どうしても月経と絡めてくる界隈かよ
whisperは日本語だとしょうもなくていつ改善されるんだろうって思っていたがこれは期待して良いのだろうか / これもそんなに変わってなさそう、GPUなくても動くのはすごいけどね
Windowsの音声入力と同時に動かしてみるとWindowsデフォルトでついてる音声入力の方が性能自体は良さそう。 whisperは音ファイルとかから一気に文字起こしに使うんだって微妙に使い道が違うきがする
生成AIのシステム応用は、一定割合は音声関連になると思うので気になる。ただ、よほど画期的じゃないと、古くてメジャーなツール名しかググっても出てこず、使う場面まで覚えていられるかなspeach to text , speach 2 text
Typelessの代用になるか
Whisperは時々全然聞き取ってないくだりが入るので2回通してる。1回目に聞き取らなかったところを2回目はちゃんと文字に起こしてることがある(2回目に聞き取り失敗するところもある)。これはどうかなー
ローカルで動く音声AI「Moonshine Voice」はWhisperを超える精度と低遅延処理を実現し、日本語など多言語対応。Raspberry Piなど軽量機器でも動作可能。
音声認識、ラズパイでも動くらしい
音声書き起こしローカルAI
日本語エラー率13%てのは高いのか低いのか。Streamもあるのかないのか
AIに関してGoogleのクラウド提供物以外は全般的に日本語対応が著しく劣るのは仕方ないだろ。Googleとそれ以外では抱えてるデータや専門家が質量共に違いすぎる。
+
whisperって無料でローカルで使えるってだけで大して性能良くないよな。
“日本語を含むその他の言語モデルは非商用利用に限られる「Moonshine Community License」での提供” 残念
Whisperを超える精度のリアルタイム文字起こしローカルAI「Moonshine Voice」、日本語にも対応(生成AIクローズアップ) | テクノエッジ TechnoEdge
会話を即座に文章にするオープンMoonshine Voice(2.5億パラメータ)がWhisper(15億)を上回る精度。ラズパイに実装可能。話者識別や音声コマンドも装備
Amicalで使ってみたい
おお。
会議のサマライズ目的の文字起こし、Large v3 turboに頼り切ってるのでこれは朗報かも。
ウィスパーの次は月の輝きか。どうしても月経と絡めてくる界隈かよ
whisperは日本語だとしょうもなくていつ改善されるんだろうって思っていたがこれは期待して良いのだろうか / これもそんなに変わってなさそう、GPUなくても動くのはすごいけどね
Windowsの音声入力と同時に動かしてみるとWindowsデフォルトでついてる音声入力の方が性能自体は良さそう。 whisperは音ファイルとかから一気に文字起こしに使うんだって微妙に使い道が違うきがする
生成AIのシステム応用は、一定割合は音声関連になると思うので気になる。ただ、よほど画期的じゃないと、古くてメジャーなツール名しかググっても出てこず、使う場面まで覚えていられるかなspeach to text , speach 2 text
Typelessの代用になるか
Whisperは時々全然聞き取ってないくだりが入るので2回通してる。1回目に聞き取らなかったところを2回目はちゃんと文字に起こしてることがある(2回目に聞き取り失敗するところもある)。これはどうかなー
ローカルで動く音声AI「Moonshine Voice」はWhisperを超える精度と低遅延処理を実現し、日本語など多言語対応。Raspberry Piなど軽量機器でも動作可能。
音声認識、ラズパイでも動くらしい
音声書き起こしローカルAI
日本語エラー率13%てのは高いのか低いのか。Streamもあるのかないのか
AIに関してGoogleのクラウド提供物以外は全般的に日本語対応が著しく劣るのは仕方ないだろ。Googleとそれ以外では抱えてるデータや専門家が質量共に違いすぎる。
+
whisperって無料でローカルで使えるってだけで大して性能良くないよな。
“日本語を含むその他の言語モデルは非商用利用に限られる「Moonshine Community License」での提供” 残念