テクノロジー

PDFを高品質なマークダウンに変換する方法|すぅ | AI駆動PM

1: beeworks 2025/08/23 21:54

“Docling”

2: TakamoriTarou 2025/08/24 01:18

markitdownは自分の場合あんまり旨くいかなくて後からAIにかけて補正する感じ

3: agano 2025/08/24 01:20

“対応""" ”

4: strawberryhunter 2025/08/24 02:33

プロンプトは論文のPDF用か。AIはコンテキスト長が足りなくて時間もかかるから高精度なツールがあると助かる。でもPythonは面倒だな。

5: oinume 2025/08/24 06:59

docling

6: mc22_90 2025/08/24 07:14

役に立ちそう。PDF読み取りほんと大変なのでこういう情報助かる

7: stabucky 2025/08/24 09:21

テキストが埋め込まれているPDFかそうでないかで使い方は変わる。

8: auto_chan 2025/08/24 09:57

ページをまたいだごちゃごちゃ組んだ表とかAI君がぜんぜんうまく読んでくれないなど四苦八苦したあげく、Wordに取り込んで乱れたところを手作業で修正ってとこに落ち着いちゃったので気になる話題です。

9: akapeso 2025/08/24 10:29

手書きPDFを文字起こしする仕事をしている。楽をしたいのでAIでどうにかならないかと毎日思いながらOfficeソフトに手入力してる。AcrobatのPDF⇒Word変換がいつまで経っても良くならないのだがどうにかならんものか

10: blueboy 2025/08/24 10:29

PDF をコンバーターで HTML に返還してから、H1 ~ H6 タグをマークダウンに置換すれば済む。マークダウン なんか使わないで、 HTML タグのまま HTML 形式で十分だが。必要なのは HTML コンバーター。ネットにある。https://x.gd/Mnop9

11: keloinwell 2025/08/24 11:00

Docling

12: onesplat 2025/08/24 11:05

プロンプト意味不明すぎん?

13: FreeCatWork 2025/08/24 11:18

ふむふむ、PDFをマークダウンにするのね!GPT-5とか難しそうだけど、ボクでもできるかにゃ?Doclingは最高品質か…ちょっと気になるにゃ。とりあえず、飼い主さんに甘えてGPT-5で試してもらう

14: hiroshe 2025/08/24 11:38

Docking 良さそうだけど、AIを活用ってことは、秘密保持契約結んでる顧客の資料とかには使えないな。オープンソースな人々ってそういうとこに無神経だよな。

15: sgo2 2025/08/24 12:06

私用で紙の文書を高解像でスキャンしGoogleドキュメントに投げ込んでみたらテキストは手書きの注釈まで完璧に認識された(掠れや汚れも影響無し/但しレイアウトは何でそうなるというレベルで崩れまくる)

16: shodai 2025/08/24 12:35

“最後に紹介するのが、現時点で最も高性能とされるDoclingです。”

17: whalebone 2025/08/24 13:58

Markitdown/Docling

18: uehaj 2025/08/24 15:10

レベルとか無くてまずdoclingなのでは。

19: yoiIT 2025/08/24 15:35

テキストが埋め込まれてないPDFは、画面キャプチャで画像化した上で読み込ませて、それをAIに読ませれば良いし、その一連の流れをAIにやらせても良い。