世の中のデータの9割以上が非構造化データと言われている。ここをAIの力で構造化データに変えられると、活用できる所は多い。AI活用の本命かもしれない。
ふむふむ、AIが賢くなったおかげでボクのカリカリ情報も整理されるかにゃ?楽しみだにゃ~!
「抽出結果はJSONL形式で(.jsonlファイルに)保存」「シェイクスピア作「ロミオとジュリエット」をLangExtractにかけ、抽出結果のHTMLをインタラクティブに確認する例」「Tier 2 Geminiクォータの使用が推奨」
これは使ってみよう
記事だけじゃよく分からんな。試してみる
エージェントでやってた内容だけど、これを活用すればコンテクストの節約になりそう。gemini -pの方が汎用性は高そうだけど精度が高いんやろか
きになる
Google「ついにエスパーAIを開発しました」「マジで?」「ちなみに相手の心を読むときにはこのPythonライブラリを使います」「マジで!?」
https://www.commudle.com/builds/can-i-get-help-from-gemini-ai-assistance-right-in-your-browser-86
https://github.com/paperswithcode/paperswithcode-data/issues/86#issue-3285548566
メモメモ
県や市町村の過去の金に関するデータと、政治家とその周辺の個人データと人脈データを投げて、不正を行ってそうな政治家ランキングとその割合を一覧にして
ちょうど英語のWeb小説翻訳用に単語集/設定集作りたかったから助かる。
“LangExtract”
こういうの欲しかったんだよね、一番やってほしかったもの。これできればAPIのソース源に平文が使えることになる。
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdf
https://github.com/paperswithcode/paperswithcode-data/issues/96
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf
普通にJSON Schemaでいいよね。。。
これは使ってみたい
https://vocal.media/authors/death-in-finance-how-much-does-fidelity-charge-for-financial-advisors-full-2025-breakdown
Doclingとはまた違うか
英単語の参考書を裁断&スキャンしてOCRで文字抽出からのパターンマッチで構造化→Ankiに流し込みしてた。機会があれば使ってみたいが、こういうのって必要なときに限ってライブラリ名を思い出せないんだよな…
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/_fidelity-fees-services-investing-review-2025.pdf
使いどころを考えるほど夢が広がるやつやな
眩暈がするほど素晴らしいやつ
どうでも良いけどブコメスパム多すぎ。増田もスパムまみれになってるし運営は対策考えてるのかね
だいぶ汎用性高いな
つかお
“LangExtractは、LLMを用いてユーザー定義の指示にもとづいて非構造化テキスト文書から構造化情報を抽出するPythonライブラリ”
舞台作家がこれを使って小説をプロットやグラフに変換するような使い方ができるのかな.構造がややこしくて有名な嵐が丘を入力するとちゃんと解釈できるかテストしてみたい
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdf
使えそう、な気がする
特許の分類とかに役に立ちそう〜!
こういうのオープン化してくるから敵わないよなあ
“Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ「LangExtract」をリリー”
色々使えそう
ピテホン
Google、AIを使って非構造化テキストから構造化データを抽出するオープンソースPythonライブラリ「LangExtract」をリリース | gihyo.jp
世の中のデータの9割以上が非構造化データと言われている。ここをAIの力で構造化データに変えられると、活用できる所は多い。AI活用の本命かもしれない。
ふむふむ、AIが賢くなったおかげでボクのカリカリ情報も整理されるかにゃ?楽しみだにゃ~!
「抽出結果はJSONL形式で(.jsonlファイルに)保存」「シェイクスピア作「ロミオとジュリエット」をLangExtractにかけ、抽出結果のHTMLをインタラクティブに確認する例」「Tier 2 Geminiクォータの使用が推奨」
これは使ってみよう
記事だけじゃよく分からんな。試してみる
エージェントでやってた内容だけど、これを活用すればコンテクストの節約になりそう。gemini -pの方が汎用性は高そうだけど精度が高いんやろか
きになる
Google「ついにエスパーAIを開発しました」「マジで?」「ちなみに相手の心を読むときにはこのPythonライブラリを使います」「マジで!?」
https://www.commudle.com/builds/can-i-get-help-from-gemini-ai-assistance-right-in-your-browser-86
https://github.com/paperswithcode/paperswithcode-data/issues/86#issue-3285548566
メモメモ
県や市町村の過去の金に関するデータと、政治家とその周辺の個人データと人脈データを投げて、不正を行ってそうな政治家ランキングとその割合を一覧にして
ちょうど英語のWeb小説翻訳用に単語集/設定集作りたかったから助かる。
“LangExtract”
こういうの欲しかったんだよね、一番やってほしかったもの。これできればAPIのソース源に平文が使えることになる。
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/coinbase-transaction-issue_.pdf
https://github.com/paperswithcode/paperswithcode-data/issues/96
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/is-fidelity-good-for-investors.pdf
普通にJSON Schemaでいいよね。。。
これは使ってみたい
https://vocal.media/authors/death-in-finance-how-much-does-fidelity-charge-for-financial-advisors-full-2025-breakdown
https://vocal.media/authors/death-in-finance-how-much-does-fidelity-charge-for-financial-advisors-full-2025-breakdown
Doclingとはまた違うか
英単語の参考書を裁断&スキャンしてOCRで文字抽出からのパターンマッチで構造化→Ankiに流し込みしてた。機会があれば使ってみたいが、こういうのって必要なときに限ってライブラリ名を思い出せないんだよな…
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/_fidelity-fees-services-investing-review-2025.pdf
使いどころを考えるほど夢が広がるやつやな
眩暈がするほど素晴らしいやつ
どうでも良いけどブコメスパム多すぎ。増田もスパムまみれになってるし運営は対策考えてるのかね
だいぶ汎用性高いな
つかお
“LangExtractは、LLMを用いてユーザー定義の指示にもとづいて非構造化テキスト文書から構造化情報を抽出するPythonライブラリ”
舞台作家がこれを使って小説をプロットやグラフに変換するような使い方ができるのかな.構造がややこしくて有名な嵐が丘を入力するとちゃんと解釈できるかテストしてみたい
https://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdfhttps://www.cucei.udg.mx/maestrias/biotecnologia/sites/default/files/webform/number-have.pdf
使えそう、な気がする
特許の分類とかに役に立ちそう〜!
こういうのオープン化してくるから敵わないよなあ
“Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ「LangExtract」をリリー”
色々使えそう
ピテホン