テクノロジー

書籍のOCRにLLMを組み合わせることで精度を上げるだけでなく文書構造や図も表現した記録

1: nakex1 2026/05/11 18:01

処理時間が大幅に増えてしまうのは課題だが,魅力的ではある。

2: kyukyunyorituryo 2026/05/11 18:02

ライトノベルだとbunkOCRが良かったとか https://lithium03.info/ios/bunkoOCR.ja.html

3: nguyen-oi 2026/05/11 18:03

NDL OCRとLLMの組み合わせは鉄板になりそう。構造化まで自動でやれるのは自炊勢にはたまらんな

4: tu_no_tu 2026/05/11 18:27

特に元データが悪いものでなければ、OCR単体で95%くらい、LLM使うと98-99%くらいまでは上がるように思うので、何がこの悪い結果の原因だろう。

5: pendamadura 2026/05/11 18:38

それこそHTMLで出力したらいいと思うが

6: toyoshi 2026/05/11 22:42

id:tu_no_tu 再計測したところ空文字を誤ってカウントしており実質の認識率とズレがありました。99%いってました。ありがとうございました。

7: yarumato 2026/05/12 08:56

“ビジネス書1冊 (縦書き和文、120ページ分) PNG 120 枚。図表はほぼなく、文章メイン。「専用OCR」「ローカルLLM」「両者の併用」の3手法を実装し、文字精度・処理時間・Markdown構造化要素の数で比較した。”

8: secseek 2026/05/12 10:03

詳細な検証もすごいですが、指摘を受けてすぐ見直しているのもすごいです

9: misshiki 2026/05/12 16:45

縦書き和文120ページをOCR比較。NDL OCR Lite単独で99.49%・約5分、NDL+Qwen Hybridで約99.9%・約142分。Hybridは誤読補正に加え、見出し・表・図のMarkdown/Mermaid構造化が利点。