テクノロジー

数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる(生成AIクローズアップ) | テクノエッジ TechnoEdge

1: Seamless 2026/06/29 08:41

DeepSeek OCR 2を超える精度で、数十ページのドキュメントを1回の計算でテキスト化できる。人間の書き写しを模倣した仕組みを採用。MITライセンス

2: auto_chan 2026/06/29 11:47

いつでもさがしているよ~ PDF+OCRの決定版を~

3: sstr649286 2026/06/29 12:15

onnxOCRと同じ使い勝手で精度が良いならいいな

4: fashi 2026/06/29 12:39

テキスト化した後どうなるんです?(レイアウトを再現するには?透明テキストPDF?) / 「OmniDocBench v1.5で93.23%」glm-ocrが94.62%出してるのは省かれている

5: yorkfield 2026/06/29 12:54

"レイアウトを再現するには?" / coordinate boxの情報も得られるようなので、利用者側で好きに再現すれば良い。

6: tohokuaiki 2026/06/29 13:51

次は導入方法の記事がまたれる

7: hirakawahanzo 2026/06/29 14:04

おお

8: ntdtks 2026/06/29 14:40

ビジネスで手書き絶滅している現代、PDFの作成元はテキスト文字だろうに、どうして抽出に手間がかかるのか。ウチの会社はファイルアップもローカルアプリも許可制だから、この無料OCRも使えないかぁ

9: dame_maru 2026/06/29 15:28

「百度が無料公開」 って文言に勘繰ってしまうくらい私は汚れた人間です

10: suka6411144 2026/06/29 15:35

中華系のAI企業がOCRモデル結構出してるけど向こうでもOCR需要が高いんだろうか

11: jabberokkie 2026/06/29 15:37

バイドゥが無料公開?何のために??

12: fwb603 2026/06/29 15:48

でも漏れるんでしょ?

13: jintrick 2026/06/29 15:57

vLLM(Dockerイメージの提供あり)や SGLang を使って、自前の環境で推論サーバーを立ち上げる手順が解説されている https://github.com/baidu/Unlimited-OCR

14: lbtmplz 2026/06/29 16:09

俺の汚い手書き文字を間違わなくなったら起こして

15: kaeruyan 2026/06/29 16:20

中国語(漢字)のOCRは大変そうやから日本語は楽なのか?ローカルなのは良いね。

16: masalib 2026/06/29 16:22

「バイドゥが無料公開」・・・使うことはできないな~無理

17: iww 2026/06/29 16:29

なるほどうまいこと考えたもんだな。無料ってのもまたいい。 使用禁止サービスに追加しとこう

18: ys0000 2026/06/29 16:31

日本語性能が高いのか(特に勝手に中国語として認識されないか、言語指定できるのか)が気になる/https://www.google.com/amp/s/www.zaikei.co.jp/amp/article/20260626/858719.html を見る限り、日本語も大丈夫そうだし高機能ぽいね。

19: cinefuk 2026/06/29 16:35

Baiduに対するマイナスの信頼感だけが書き込まれる。古いネット民ならば当然のアクションではある

20: kamiokando 2026/06/29 16:58

リスクの香りしかしない。

21: FreeCatWork 2026/06/29 17:20

ボクのしっぽもPDFで読み取れるかにゃ?これがあればお昼寝の時間が増えるにゃ!

22: outalaw 2026/06/29 18:03

怖すぎ いらんPCでローカルで使用し、生成されたPDFもそのPCでしかつ使わないならありかもしらん でもそれだと意味ないので結局なし

23: rajahbrooke 2026/06/29 18:14

所々PDFに天安門事件の記事を仕込んでおこう

24: gambol 2026/06/29 18:25

バイドゥというだけでなんかウッと来てしまう

25: lenore 2026/06/29 19:18

Baiduでさえなければ会社で使いたいのになー

26: Akech_ergo 2026/06/29 19:50

ローカルで動くのなら、仮に何らかのマルウェア的な動作が仕込まれていたとしても、ネット回線切った端末で使用する分には問題ないのではないだろうか。

27: K-Ono 2026/06/29 19:52

日本人はバイドゥという単語だけで忌避反応を示す人が多いからなあ。おれもだが。

28: pendamadura 2026/06/29 20:13

OCRはAIに聞いてもAI使わない既存手法でいいって言うからなぁ

29: star_123 2026/06/29 20:36

この手の仕組みのOCRって人間と同じ「思い込み」による読み取りミスしそうだな、まぁそれでも総合性能で普通のOCRに勝てれば良いのだろうけど

30: wushi 2026/06/29 21:03

とりあえず別会社のLLMサービスに送りつけて解析させる位のリテラシーは求められる

31: misshiki 2026/06/29 22:32

BaiduがローカルOCRモデル「Unlimited OCR」をMITライセンスで公開。R-SWAによりKVキャッシュを一定に保ち、32Kトークン内で数十ページPDFを1回で処理。OmniDocBench v1.5で93.23%。

32: swdrsker 2026/06/29 22:38

注目

33: psne 2026/06/29 22:42

画像謝罪文を大量に投げ込んで、関係者を震えさせましょう!のやつ。

34: sotonohitokun 2026/06/30 00:55

ローカルに落とせばいくらでもフリーで出来るから、人気コメが何を言いたいのか分からんのよね。コレVLMに近いAIの話だよ?

35: IGA-OS 2026/06/30 01:27

Baiduかぁ・・・色々レビューを見て判断

36: iphone 2026/06/30 19:12

昔スキャンした小説とかならアリかな?