はてなまとめ - Google、AIを使って非構造化テキストから構造化データを抽出するオープンソースPythonライブラリ「LangExtract」をリリース

1: dkfj 2025/08/02 11:13

世の中のデータの9割以上が非構造化データと言われている。ここをAIの力で構造化データに変えられると、活用できる所は多い。AI活用の本命かもしれない。

2: FreeCatWork 2025/08/02 11:22

ふむふむ、AIが賢くなったおかげでボクのカリカリ情報も整理されるかにゃ？楽しみだにゃ～！

3: mame-tanuki 2025/08/02 11:45

「抽出結果はJSONL形式で（.jsonlファイルに）保存」「シェイクスピア作「ロミオとジュリエット」をLangExtractにかけ、抽出結果のHTMLをインタラクティブに確認する例」「Tier 2 Geminiクォータの使用が推奨」

4: ch1248 2025/08/02 12:00

これは使ってみよう

5: hogetax 2025/08/02 12:11

記事だけじゃよく分からんな。試してみる

6: jintrick 2025/08/02 12:16

エージェントでやってた内容だけど、これを活用すればコンテクストの節約になりそう。gemini -pの方が汎用性は高そうだけど精度が高いんやろか

7: ratamaque 2025/08/02 12:20

きになる

8: hatebu_ai 2025/08/02 12:39

Google「ついにエスパーAIを開発しました」「マジで？」「ちなみに相手の心を読むときにはこのPythonライブラリを使います」「マジで！？」

9: tafosel 2025/08/02 12:39

https://www.commudle.com/builds/can-i-get-help-from-gemini-ai-assistance-right-in-your-browser-86

10: bapa2 2025/08/02 12:40

https://github.com/paperswithcode/paperswithcode-data/issues/86#issue-3285548566

11: beejaga 2025/08/02 13:11

メモメモ

12: kanazawawan 2025/08/02 13:47

県や市町村の過去の金に関するデータと、政治家とその周辺の個人データと人脈データを投げて、不正を行ってそうな政治家ランキングとその割合を一覧にして

13: isayo 2025/08/02 13:56

ちょうど英語のWeb小説翻訳用に単語集／設定集作りたかったから助かる。

14: sakusaku8514 2025/08/02 14:33

“LangExtract”

15: otihateten3510 2025/08/02 14:45

こういうの欲しかったんだよね、一番やってほしかったもの。これできればAPIのソース源に平文が使えることになる。

16: ajrhkatdf 2025/08/02 15:28

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdf

17: freem2 2025/08/02 15:30

https://github.com/paperswithcode/paperswithcode-data/issues/96

18: ajfhfedo 2025/08/02 15:36

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf

19: tezowun0wes 2025/08/02 15:39

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf

20: ajlbdipaqfdczc 2025/08/02 15:42

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf

21: ajrgfopgu 2025/08/02 15:44

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf

22: irh_nishi 2025/08/02 15:48

普通にJSON Schemaでいいよね。。。

23: shinobue679fbea 2025/08/02 16:03

これは使ってみたい

24: bapawenyzatys 2025/08/02 16:08

https://vocal.media/authors/death-in-finance-how-much-does-fidelity-charge-for-financial-advisors-full-2025-breakdown

25: dufhlrfz 2025/08/02 16:11

https://vocal.media/authors/death-in-finance-how-much-does-fidelity-charge-for-financial-advisors-full-2025-breakdown

26: knok 2025/08/02 16:32

Doclingとはまた違うか

27: benibana2001abc 2025/08/02 16:40

英単語の参考書を裁断＆スキャンしてOCRで文字抽出からのパターンマッチで構造化→Ankiに流し込みしてた。機会があれば使ってみたいが、こういうのって必要なときに限ってライブラリ名を思い出せないんだよな…

28: bapawig 2025/08/02 18:01

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/_fidelity-fees-services-investing-review-2025.pdf

29: somaria3 2025/08/02 18:02

使いどころを考えるほど夢が広がるやつやな

30: sub_low 2025/08/02 19:22

眩暈がするほど素晴らしいやつ

31: t1mvverr 2025/08/02 19:23

どうでも良いけどブコメスパム多すぎ。増田もスパムまみれになってるし運営は対策考えてるのかね

32: yamadar 2025/08/02 19:36

だいぶ汎用性高いな

33: Hiro_macchan 2025/08/02 19:41

つかお

34: snaflot 2025/08/02 19:57

“LangExtractは、LLMを用いてユーザー定義の指示にもとづいて非構造化テキスト文書から構造化情報を抽出するPythonライブラリ”

35: xjack 2025/08/02 21:01

舞台作家がこれを使って小説をプロットやグラフに変換するような使い方ができるのかな．構造がややこしくて有名な嵐が丘を入力するとちゃんと解釈できるかテストしてみたい

36: rajinihesh 2025/08/02 21:07

https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdf

37: Hidemonster 2025/08/02 21:11

使えそう、な気がする

38: lochtext 2025/08/02 21:25

特許の分類とかに役に立ちそう〜！

39: lifefucker 2025/08/02 21:32

こういうのオープン化してくるから敵わないよなあ

40: Puyosty 2025/08/02 21:41

“Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ「LangExtract」をリリー”

41: lenore 2025/08/02 22:16

色々使えそう

42: aox 2025/08/02 23:20

ピテホン

Google、AIを使って非構造化テキストから構造化データを抽出するオープンソースPythonライブラリ「LangExtract」をリリース | gihyo.jp