なるほど
一件ブコメがついてるようだがNGにしてるようなので見えない。どうせクソコメだろう。
Excel方眼紙のOCRが捗るかも
Excelが良い感じに読み込めない問題、人間が見るように1回画像にしたほうが良いと思ってた。画面有りの他のアプリ全般に応用が効きそうなアプローチ。
対策されて終わる予感
テキストを画像化してトークン圧縮とか、逆転の発想すぎだろw しかも高精度OCRにもなるとかマジかよw
テキストを画像化してトークン圧縮できるのか?どっちかっていうと画像化することでOCRする手間を減らしたぐらいな気がするけど
中国製というだけで大企業はつかわない
“テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じ” なるほどなー
OCRはできるのに、何で未だに文字はまともに書けないんだろう… トークン化を介して似たようなことやってると思うのだけど
“って”
画像AIが数の制御できないのは100%に近い精度で正しく数えた学習データが準備できないからで、日本語の文字の生成精度があがりきらないのもデータの準備がネックだと思う。でも今後はこういったのであがるかもね。
文字データの方が画像データよりも圧倒的にバイト数少ないはずだけど、生成AIで解析する際には、文字列も画像も結局はベクトルデータになるので、ベクトルデータとして考えたら、画像の方が少ないよということ?
素朴に考えたら文字の方がサイズ小さそうだし一旦画像にしてまた文字に戻す手間を考えたら文字をそのまま使った方がよさそうだけど頭のいい人が良さげなハックをしたんだろうか
書く方は漢字の特殊性だと思うな。完璧にコードしても字だけで数千トークンになっちゃう。人間も読めるけど書けないから似たようなもん。
OCRで文字がギュッとなってるの、ボクの毛玉みたいに可愛いかもにゃ~!
"視覚トークンは高次元ベクトルであり、画像領域内の豊かな意味的および空間的情報をエンコードでき、情報密度はテキストトークンをはるかに超えています" https://zenn.dev/czmilo/articles/261004422c08c1
花子の免許すげえ
“テキストを画像にしたらトークンサイズを小さくできる?をやったらOCRになった感じ。中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデル。Qwen3-VL 8Bより優秀”
確かに花子たくさん乗れる車あんな笑
軽量ローカルOCR特化LLM
画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena
なるほど
一件ブコメがついてるようだがNGにしてるようなので見えない。どうせクソコメだろう。
Excel方眼紙のOCRが捗るかも
Excelが良い感じに読み込めない問題、人間が見るように1回画像にしたほうが良いと思ってた。画面有りの他のアプリ全般に応用が効きそうなアプローチ。
対策されて終わる予感
テキストを画像化してトークン圧縮とか、逆転の発想すぎだろw しかも高精度OCRにもなるとかマジかよw
テキストを画像化してトークン圧縮できるのか?どっちかっていうと画像化することでOCRする手間を減らしたぐらいな気がするけど
中国製というだけで大企業はつかわない
“テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じ” なるほどなー
OCRはできるのに、何で未だに文字はまともに書けないんだろう… トークン化を介して似たようなことやってると思うのだけど
“って”
画像AIが数の制御できないのは100%に近い精度で正しく数えた学習データが準備できないからで、日本語の文字の生成精度があがりきらないのもデータの準備がネックだと思う。でも今後はこういったのであがるかもね。
文字データの方が画像データよりも圧倒的にバイト数少ないはずだけど、生成AIで解析する際には、文字列も画像も結局はベクトルデータになるので、ベクトルデータとして考えたら、画像の方が少ないよということ?
素朴に考えたら文字の方がサイズ小さそうだし一旦画像にしてまた文字に戻す手間を考えたら文字をそのまま使った方がよさそうだけど頭のいい人が良さげなハックをしたんだろうか
書く方は漢字の特殊性だと思うな。完璧にコードしても字だけで数千トークンになっちゃう。人間も読めるけど書けないから似たようなもん。
OCRで文字がギュッとなってるの、ボクの毛玉みたいに可愛いかもにゃ~!
"視覚トークンは高次元ベクトルであり、画像領域内の豊かな意味的および空間的情報をエンコードでき、情報密度はテキストトークンをはるかに超えています" https://zenn.dev/czmilo/articles/261004422c08c1
花子の免許すげえ
“テキストを画像にしたらトークンサイズを小さくできる?をやったらOCRになった感じ。中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデル。Qwen3-VL 8Bより優秀”
確かに花子たくさん乗れる車あんな笑
軽量ローカルOCR特化LLM