より汎用的になっていく。
ローカルで動く軽量TTSが日本語対応したのデカいな。もうCPUだけでここまでできる時代か
すごすぎ
“Nano Banana 2.0に匹敵という80億パラメータの新しい画像生成AI「HiDream-O1-Image」”
効率化されてローカルAIも発展していきそう
あとで試すとか思ってるうちに次のが出てくる感
Pixal3Dは写真に忠実な3D生成、MiniCPM-V 4.6はスマホ上で動く13億パラメータMLLM、Supertonic 3は日本語対応・CPU動作の軽量TTS。
メモリの買い占めみたいな馬鹿なことが合理性を欠く世の中が早くくればいい
AI系の日本語TTSは「明日」すらまともに読めない問題をどう認識して解決したのかが示されてない限り使えないのだ。同形異音語が出現頻度の加重平均になってデロデロに溶けてる奴ばっかなのだ。
試してみたが若干外人っぽいなまりがある。特に英語日本語交じりだと英語部分だけ外人みたいw voiceboxより声の本物らしさは上だが、漢字の読み方やイントネーションはvoiceboxのほうが優れてる。
完全ローカルかつCPUで動く日本語対応の軽量TTSモデル「Supertonic 3」、元の写真に忠実な3Dモデルを生成するAIモデル「Pixal3D」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
より汎用的になっていく。
ローカルで動く軽量TTSが日本語対応したのデカいな。もうCPUだけでここまでできる時代か
すごすぎ
“Nano Banana 2.0に匹敵という80億パラメータの新しい画像生成AI「HiDream-O1-Image」”
効率化されてローカルAIも発展していきそう
あとで試すとか思ってるうちに次のが出てくる感
Pixal3Dは写真に忠実な3D生成、MiniCPM-V 4.6はスマホ上で動く13億パラメータMLLM、Supertonic 3は日本語対応・CPU動作の軽量TTS。
メモリの買い占めみたいな馬鹿なことが合理性を欠く世の中が早くくればいい
AI系の日本語TTSは「明日」すらまともに読めない問題をどう認識して解決したのかが示されてない限り使えないのだ。同形異音語が出現頻度の加重平均になってデロデロに溶けてる奴ばっかなのだ。
試してみたが若干外人っぽいなまりがある。特に英語日本語交じりだと英語部分だけ外人みたいw voiceboxより声の本物らしさは上だが、漢字の読み方やイントネーションはvoiceboxのほうが優れてる。