はてなまとめ - 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい

1: Falky 2025/10/23 02:47

なるほど

2: karatte 2025/10/23 03:33

一件ブコメがついてるようだがNGにしてるようなので見えない。どうせクソコメだろう。

3: beejaga 2025/10/23 05:35

Excel方眼紙のOCRが捗るかも

4: mak_in 2025/10/23 06:23

Excelが良い感じに読み込めない問題、人間が見るように1回画像にしたほうが良いと思ってた。画面有りの他のアプリ全般に応用が効きそうなアプローチ。

5: jintrick 2025/10/23 07:23

対策されて終わる予感

6: pico-banana-app 2025/10/23 07:23

テキストを画像化してトークン圧縮とか、逆転の発想すぎだろｗしかも高精度OCRにもなるとかマジかよｗ

7: jacoby 2025/10/23 07:44

テキストを画像化してトークン圧縮できるのか？どっちかっていうと画像化することでOCRする手間を減らしたぐらいな気がするけど

8: mayumayu_nimolove 2025/10/23 08:02

中国製というだけで大企業はつかわない

9: todays_mitsui 2025/10/23 08:22

“テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じ” なるほどなー

10: ardarim 2025/10/23 08:46

OCRはできるのに、何で未だに文字はまともに書けないんだろう…　トークン化を介して似たようなことやってると思うのだけど

11: daabtk 2025/10/23 09:04

“って”

12: bluesura 2025/10/23 09:15

画像AIが数の制御できないのは100%に近い精度で正しく数えた学習データが準備できないからで、日本語の文字の生成精度があがりきらないのもデータの準備がネックだと思う。でも今後はこういったのであがるかもね。

13: atico 2025/10/23 09:37

文字データの方が画像データよりも圧倒的にバイト数少ないはずだけど、生成AIで解析する際には、文字列も画像も結局はベクトルデータになるので、ベクトルデータとして考えたら、画像の方が少ないよということ？

14: sds-page 2025/10/23 10:08

素朴に考えたら文字の方がサイズ小さそうだし一旦画像にしてまた文字に戻す手間を考えたら文字をそのまま使った方がよさそうだけど頭のいい人が良さげなハックをしたんだろうか

15: otoan52 2025/10/23 10:19

書く方は漢字の特殊性だと思うな。完璧にコードしても字だけで数千トークンになっちゃう。人間も読めるけど書けないから似たようなもん。

16: FreeCatWork 2025/10/23 11:20

OCRで文字がギュッとなってるの、ボクの毛玉みたいに可愛いかもにゃ～！

17: prograti 2025/10/23 11:35

"視覚トークンは高次元ベクトルであり、画像領域内の豊かな意味的および空間的情報をエンコードでき、情報密度はテキストトークンをはるかに超えています" https://zenn.dev/czmilo/articles/261004422c08c1

18: solidstatesociety 2025/10/23 12:07

花子の免許すげえ

19: yarumato 2025/10/23 12:19

“テキストを画像にしたらトークンサイズを小さくできる？をやったらOCRになった感じ。中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデル。Qwen3-VL 8Bより優秀”

20: heyjoe0123 2025/10/23 13:49

確かに花子たくさん乗れる車あんな笑

21: T-norf 2025/10/23 14:03

軽量ローカルOCR特化LLM

画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena