DeepSeek OCR 2を超える精度で、数十ページのドキュメントを1回の計算でテキスト化できる。人間の書き写しを模倣した仕組みを採用。MITライセンス
いつでもさがしているよ~ PDF+OCRの決定版を~
onnxOCRと同じ使い勝手で精度が良いならいいな
テキスト化した後どうなるんです?(レイアウトを再現するには?透明テキストPDF?) / 「OmniDocBench v1.5で93.23%」glm-ocrが94.62%出してるのは省かれている
"レイアウトを再現するには?" / coordinate boxの情報も得られるようなので、利用者側で好きに再現すれば良い。
次は導入方法の記事がまたれる
おお
ビジネスで手書き絶滅している現代、PDFの作成元はテキスト文字だろうに、どうして抽出に手間がかかるのか。ウチの会社はファイルアップもローカルアプリも許可制だから、この無料OCRも使えないかぁ
「百度が無料公開」 って文言に勘繰ってしまうくらい私は汚れた人間です
中華系のAI企業がOCRモデル結構出してるけど向こうでもOCR需要が高いんだろうか
バイドゥが無料公開?何のために??
でも漏れるんでしょ?
vLLM(Dockerイメージの提供あり)や SGLang を使って、自前の環境で推論サーバーを立ち上げる手順が解説されている https://github.com/baidu/Unlimited-OCR
俺の汚い手書き文字を間違わなくなったら起こして
中国語(漢字)のOCRは大変そうやから日本語は楽なのか?ローカルなのは良いね。
「バイドゥが無料公開」・・・使うことはできないな~無理
なるほどうまいこと考えたもんだな。無料ってのもまたいい。 使用禁止サービスに追加しとこう
日本語性能が高いのか(特に勝手に中国語として認識されないか、言語指定できるのか)が気になる/https://www.google.com/amp/s/www.zaikei.co.jp/amp/article/20260626/858719.html を見る限り、日本語も大丈夫そうだし高機能ぽいね。
Baiduに対するマイナスの信頼感だけが書き込まれる。古いネット民ならば当然のアクションではある
リスクの香りしかしない。
ボクのしっぽもPDFで読み取れるかにゃ?これがあればお昼寝の時間が増えるにゃ!
怖すぎ いらんPCでローカルで使用し、生成されたPDFもそのPCでしかつ使わないならありかもしらん でもそれだと意味ないので結局なし
所々PDFに天安門事件の記事を仕込んでおこう
バイドゥというだけでなんかウッと来てしまう
Baiduでさえなければ会社で使いたいのになー
ローカルで動くのなら、仮に何らかのマルウェア的な動作が仕込まれていたとしても、ネット回線切った端末で使用する分には問題ないのではないだろうか。
日本人はバイドゥという単語だけで忌避反応を示す人が多いからなあ。おれもだが。
OCRはAIに聞いてもAI使わない既存手法でいいって言うからなぁ
この手の仕組みのOCRって人間と同じ「思い込み」による読み取りミスしそうだな、まぁそれでも総合性能で普通のOCRに勝てれば良いのだろうけど
とりあえず別会社のLLMサービスに送りつけて解析させる位のリテラシーは求められる
BaiduがローカルOCRモデル「Unlimited OCR」をMITライセンスで公開。R-SWAによりKVキャッシュを一定に保ち、32Kトークン内で数十ページPDFを1回で処理。OmniDocBench v1.5で93.23%。
注目
画像謝罪文を大量に投げ込んで、関係者を震えさせましょう!のやつ。
ローカルに落とせばいくらでもフリーで出来るから、人気コメが何を言いたいのか分からんのよね。コレVLMに近いAIの話だよ?
Baiduかぁ・・・色々レビューを見て判断
昔スキャンした小説とかならアリかな?
数十ページのPDFを1回で処理、ローカルOCRモデル「Unlimited OCR」をバイドゥが無料公開。商用利用もできる(生成AIクローズアップ) | テクノエッジ TechnoEdge
DeepSeek OCR 2を超える精度で、数十ページのドキュメントを1回の計算でテキスト化できる。人間の書き写しを模倣した仕組みを採用。MITライセンス
いつでもさがしているよ~ PDF+OCRの決定版を~
onnxOCRと同じ使い勝手で精度が良いならいいな
テキスト化した後どうなるんです?(レイアウトを再現するには?透明テキストPDF?) / 「OmniDocBench v1.5で93.23%」glm-ocrが94.62%出してるのは省かれている
"レイアウトを再現するには?" / coordinate boxの情報も得られるようなので、利用者側で好きに再現すれば良い。
次は導入方法の記事がまたれる
おお
ビジネスで手書き絶滅している現代、PDFの作成元はテキスト文字だろうに、どうして抽出に手間がかかるのか。ウチの会社はファイルアップもローカルアプリも許可制だから、この無料OCRも使えないかぁ
「百度が無料公開」 って文言に勘繰ってしまうくらい私は汚れた人間です
中華系のAI企業がOCRモデル結構出してるけど向こうでもOCR需要が高いんだろうか
バイドゥが無料公開?何のために??
でも漏れるんでしょ?
vLLM(Dockerイメージの提供あり)や SGLang を使って、自前の環境で推論サーバーを立ち上げる手順が解説されている https://github.com/baidu/Unlimited-OCR
俺の汚い手書き文字を間違わなくなったら起こして
中国語(漢字)のOCRは大変そうやから日本語は楽なのか?ローカルなのは良いね。
「バイドゥが無料公開」・・・使うことはできないな~無理
なるほどうまいこと考えたもんだな。無料ってのもまたいい。 使用禁止サービスに追加しとこう
日本語性能が高いのか(特に勝手に中国語として認識されないか、言語指定できるのか)が気になる/https://www.google.com/amp/s/www.zaikei.co.jp/amp/article/20260626/858719.html を見る限り、日本語も大丈夫そうだし高機能ぽいね。
Baiduに対するマイナスの信頼感だけが書き込まれる。古いネット民ならば当然のアクションではある
リスクの香りしかしない。
ボクのしっぽもPDFで読み取れるかにゃ?これがあればお昼寝の時間が増えるにゃ!
怖すぎ いらんPCでローカルで使用し、生成されたPDFもそのPCでしかつ使わないならありかもしらん でもそれだと意味ないので結局なし
所々PDFに天安門事件の記事を仕込んでおこう
バイドゥというだけでなんかウッと来てしまう
Baiduでさえなければ会社で使いたいのになー
ローカルで動くのなら、仮に何らかのマルウェア的な動作が仕込まれていたとしても、ネット回線切った端末で使用する分には問題ないのではないだろうか。
日本人はバイドゥという単語だけで忌避反応を示す人が多いからなあ。おれもだが。
OCRはAIに聞いてもAI使わない既存手法でいいって言うからなぁ
この手の仕組みのOCRって人間と同じ「思い込み」による読み取りミスしそうだな、まぁそれでも総合性能で普通のOCRに勝てれば良いのだろうけど
とりあえず別会社のLLMサービスに送りつけて解析させる位のリテラシーは求められる
BaiduがローカルOCRモデル「Unlimited OCR」をMITライセンスで公開。R-SWAによりKVキャッシュを一定に保ち、32Kトークン内で数十ページPDFを1回で処理。OmniDocBench v1.5で93.23%。
注目
画像謝罪文を大量に投げ込んで、関係者を震えさせましょう!のやつ。
ローカルに落とせばいくらでもフリーで出来るから、人気コメが何を言いたいのか分からんのよね。コレVLMに近いAIの話だよ?
Baiduかぁ・・・色々レビューを見て判断
昔スキャンした小説とかならアリかな?