PyMuPDFで良くない?
AIに読ませるために人間がPDFを画像化して管理するの、結局泥臭い労働で草
仕事でaws bedrock knowledgebases で同じような機能使ったことあるが、結構金かかるうえ誤読(難しい漢字とか)も多かった
PDFを一度「画像」に変換して、AIに「視覚的に読ませて」Markdownとして書き起こさせる
MarkItDownかました方が早くない?発想は好き
画像化してノイズも取りつつVision AIに投げるのがベスト。登りくんもいい仕事してる。
こういうのはコメントまで含めて参考になる
形式の変換にAIを噛ますのはややこわい気もする
お役所の超絶技巧Excelは一旦画像にしないと LLMが解釈できないからではと思う
“PDFをそのままAIに渡すと、トークン消費が激しい。構造が失われる(この数値は何の列?)、検索・参照が困難(AI「その仕様はたぶんこの辺...)、Git差分管理不可。PDFをpng画像化、AIでMarkdownに。グラフが表に”
PDF=>Word=>Google Docs=>MD ってやったりはする。
よさそう
PDFのまま読ませるとトークン消費が激しくて困っていた。ありがたくブクマ。追記:コメントに書かれていたPyMuPDF4LLMをためしてみたい。PDF→Markdown変換だけでなくPDF 内のテキスト・表・リスト・画像を構造化して抽出可能
https://givingday.unomaha.edu/p2p/500208/vayu-yadav
https://www.myalcon.com/sites/g/files/rbvwei2521/files/webform/capturing_leads_from_web/_sid_/robinhood-dispute.pdf
PDFをMarkdownに変換してAIに読ませるなんて、ボクには難しすぎるにゃ~!でも、みんなが賢くなるのは嬉しいにゃん!
PyMuPDFよりも良いのかな?
cursorとかにMarkdownにしてくれっていったらやってくれますぜ
1ページずつ画像にするなら1~5ページずつPDFでも良い気がするというか、自分はそうしてる。変換ミスが怖いならレビューさせれば良いのではないか。
PDFをテキストに変換するライブラリ色々使ってみたけどPDF側の実装が魔境過ぎてちゃんと読んでくれないのが結構ある。そんな時はいったん画像にするしかない
コメントを後で読む
興味ある
確かにアリか。pdf2mdなんて世に沢山あると思ったけど、pdfの色んな仕様とかそもそとpdfに画像が入ってる時のこと考えるとaiにマークダウンにさせるのは有りかも。ただヘビーだしチーム内共通RAGにするとかが良さそうだな
“資料のほとんどがエクセルで構成されているのと、外部API仕様書のほとんどが100P以上あるPDFデータ” 申し訳ないが働きたくない
PDF から直接 markitdown だと、タイトルや太字といった構造やグラフの情報が失われるから優秀なOCR-AI が必要なんだよね。
なぜかpdfしかない引き継ぎドキュメント、あるある。あと、Excelも mdにした方が良いよね。(元からExcelを使うなという話はさておき)
この記事の処理をまとめて /pdf_to_markdown skillを作って。ってclaude codeに頼むと良さそう
popplerでpdfをpngに変換し、aiでmarkdown に変換
へー
LlamaParseとかMinerUとか使えるといいけどねー。画像情報の文書化は事前にすべての質問に対応するものを書き出すのは難しく、無くなるとマルチモーダル生かせないのでmarkdownに中間画像のリンクと説明を埋め込み保存したい
ベクターデータをラスターデータにして、それをまたベクターデータにするのって、とても倒錯的でいいな。味がある。
便利そう!
Wordで読むのちょいちょい表がぶっ壊れるの許されざることザルの如しだし、チャットボット君の読み精度も悪いし、解析スクリプト書いてもらってもうまくいかないし、なるほど画像って手もあるのね。
えー、AI側で、pdfのアップロードで裏でmdににしてるんだと思ってたよ。。画像は画像で読むと。
ブコメで思い出したが、VibeコーディングでPyMuPDF使われて、何が特徴なんだろうと思い忘れていた…w、で思ったんだけど、LaTeXだったらどうなんだろう?
グラフとかポンチ絵とかそいういうところが結局どれくらい理解できるものになるのかだよなー
雑にmarkdown化するやつで叩いてた。モノによってこの方法でやってみるか
“brew install poppler”
“今回のアプローチはこうです: PDF → 画像(ページごと) → AI精読 → Markdown 「なぜ画像を経由するの?」と思うかもしれません。 理由は単純で、AIは画像を「見る」ことができるからです。”
pdf2markdown
]
# 【AI駆動開発】100ページ超のPDFをMarkdownに変換してAIに読ませる方法 - Qiita
PyMuPDFで良くない?
AIに読ませるために人間がPDFを画像化して管理するの、結局泥臭い労働で草
仕事でaws bedrock knowledgebases で同じような機能使ったことあるが、結構金かかるうえ誤読(難しい漢字とか)も多かった
PDFを一度「画像」に変換して、AIに「視覚的に読ませて」Markdownとして書き起こさせる
MarkItDownかました方が早くない?発想は好き
画像化してノイズも取りつつVision AIに投げるのがベスト。登りくんもいい仕事してる。
こういうのはコメントまで含めて参考になる
形式の変換にAIを噛ますのはややこわい気もする
お役所の超絶技巧Excelは一旦画像にしないと LLMが解釈できないからではと思う
“PDFをそのままAIに渡すと、トークン消費が激しい。構造が失われる(この数値は何の列?)、検索・参照が困難(AI「その仕様はたぶんこの辺...)、Git差分管理不可。PDFをpng画像化、AIでMarkdownに。グラフが表に”
PDF=>Word=>Google Docs=>MD ってやったりはする。
よさそう
PDFのまま読ませるとトークン消費が激しくて困っていた。ありがたくブクマ。追記:コメントに書かれていたPyMuPDF4LLMをためしてみたい。PDF→Markdown変換だけでなくPDF 内のテキスト・表・リスト・画像を構造化して抽出可能
https://givingday.unomaha.edu/p2p/500208/vayu-yadav
https://www.myalcon.com/sites/g/files/rbvwei2521/files/webform/capturing_leads_from_web/_sid_/robinhood-dispute.pdf
PDFをMarkdownに変換してAIに読ませるなんて、ボクには難しすぎるにゃ~!でも、みんなが賢くなるのは嬉しいにゃん!
PyMuPDFよりも良いのかな?
cursorとかにMarkdownにしてくれっていったらやってくれますぜ
1ページずつ画像にするなら1~5ページずつPDFでも良い気がするというか、自分はそうしてる。変換ミスが怖いならレビューさせれば良いのではないか。
PDFをテキストに変換するライブラリ色々使ってみたけどPDF側の実装が魔境過ぎてちゃんと読んでくれないのが結構ある。そんな時はいったん画像にするしかない
コメントを後で読む
興味ある
確かにアリか。pdf2mdなんて世に沢山あると思ったけど、pdfの色んな仕様とかそもそとpdfに画像が入ってる時のこと考えるとaiにマークダウンにさせるのは有りかも。ただヘビーだしチーム内共通RAGにするとかが良さそうだな
“資料のほとんどがエクセルで構成されているのと、外部API仕様書のほとんどが100P以上あるPDFデータ” 申し訳ないが働きたくない
PDF から直接 markitdown だと、タイトルや太字といった構造やグラフの情報が失われるから優秀なOCR-AI が必要なんだよね。
なぜかpdfしかない引き継ぎドキュメント、あるある。あと、Excelも mdにした方が良いよね。(元からExcelを使うなという話はさておき)
この記事の処理をまとめて /pdf_to_markdown skillを作って。ってclaude codeに頼むと良さそう
popplerでpdfをpngに変換し、aiでmarkdown に変換
へー
LlamaParseとかMinerUとか使えるといいけどねー。画像情報の文書化は事前にすべての質問に対応するものを書き出すのは難しく、無くなるとマルチモーダル生かせないのでmarkdownに中間画像のリンクと説明を埋め込み保存したい
ベクターデータをラスターデータにして、それをまたベクターデータにするのって、とても倒錯的でいいな。味がある。
便利そう!
Wordで読むのちょいちょい表がぶっ壊れるの許されざることザルの如しだし、チャットボット君の読み精度も悪いし、解析スクリプト書いてもらってもうまくいかないし、なるほど画像って手もあるのね。
えー、AI側で、pdfのアップロードで裏でmdににしてるんだと思ってたよ。。画像は画像で読むと。
ブコメで思い出したが、VibeコーディングでPyMuPDF使われて、何が特徴なんだろうと思い忘れていた…w、で思ったんだけど、LaTeXだったらどうなんだろう?
グラフとかポンチ絵とかそいういうところが結局どれくらい理解できるものになるのかだよなー
雑にmarkdown化するやつで叩いてた。モノによってこの方法でやってみるか
“brew install poppler”
“今回のアプローチはこうです: PDF → 画像(ページごと) → AI精読 → Markdown 「なぜ画像を経由するの?」と思うかもしれません。 理由は単純で、AIは画像を「見る」ことができるからです。”
pdf2markdown
]