処理時間が大幅に増えてしまうのは課題だが,魅力的ではある。
ライトノベルだとbunkOCRが良かったとか https://lithium03.info/ios/bunkoOCR.ja.html
NDL OCRとLLMの組み合わせは鉄板になりそう。構造化まで自動でやれるのは自炊勢にはたまらんな
特に元データが悪いものでなければ、OCR単体で95%くらい、LLM使うと98-99%くらいまでは上がるように思うので、何がこの悪い結果の原因だろう。
それこそHTMLで出力したらいいと思うが
id:tu_no_tu 再計測したところ空文字を誤ってカウントしており実質の認識率とズレがありました。99%いってました。ありがとうございました。
“ビジネス書1冊 (縦書き和文、120ページ分) PNG 120 枚。図表はほぼなく、文章メイン。「専用OCR」「ローカルLLM」「両者の併用」の3手法を実装し、文字精度・処理時間・Markdown構造化要素の数で比較した。”
詳細な検証もすごいですが、指摘を受けてすぐ見直しているのもすごいです
縦書き和文120ページをOCR比較。NDL OCR Lite単独で99.49%・約5分、NDL+Qwen Hybridで約99.9%・約142分。Hybridは誤読補正に加え、見出し・表・図のMarkdown/Mermaid構造化が利点。
書籍のOCRにLLMを組み合わせることで精度を上げるだけでなく文書構造や図も表現した記録
処理時間が大幅に増えてしまうのは課題だが,魅力的ではある。
ライトノベルだとbunkOCRが良かったとか https://lithium03.info/ios/bunkoOCR.ja.html
NDL OCRとLLMの組み合わせは鉄板になりそう。構造化まで自動でやれるのは自炊勢にはたまらんな
特に元データが悪いものでなければ、OCR単体で95%くらい、LLM使うと98-99%くらいまでは上がるように思うので、何がこの悪い結果の原因だろう。
それこそHTMLで出力したらいいと思うが
id:tu_no_tu 再計測したところ空文字を誤ってカウントしており実質の認識率とズレがありました。99%いってました。ありがとうございました。
“ビジネス書1冊 (縦書き和文、120ページ分) PNG 120 枚。図表はほぼなく、文章メイン。「専用OCR」「ローカルLLM」「両者の併用」の3手法を実装し、文字精度・処理時間・Markdown構造化要素の数で比較した。”
詳細な検証もすごいですが、指摘を受けてすぐ見直しているのもすごいです
縦書き和文120ページをOCR比較。NDL OCR Lite単独で99.49%・約5分、NDL+Qwen Hybridで約99.9%・約142分。Hybridは誤読補正に加え、見出し・表・図のMarkdown/Mermaid構造化が利点。