LLMをガッツリ使いこなしている人だけが知っていること
2024/09/10 10:02
sds-page
素のLLMに対してプロンプトだけで何とかするってのは、過度な期待はできないけど何ができないかわかってる範囲でできる事をやらせるにはまだ使える
2024/09/10 10:06
TakamoriTarou
あんまり巨大な者くわせたことないので知らなかった。と言うかこれバグじゃねーのかな。 ↑はてのさん、最初期のバージョンは確かタイトルとブコメだけでコメント書いてた稀ガス
2024/09/10 10:08
en-en-ra
すごい…まるで人間みたいだ
2024/09/10 10:12
mujisoshina
ブクマカの中にもタイトルしか読まずにコメントを付けるAIが混ざっているのかもしれない。
2024/09/10 10:13
augsUK
出力が遅かったGPT-4はどうなのだろう?
2024/09/10 10:16
mobile_neko
せいぜい白書とかのPDFくらいしか食わせたことなかったから知らなかったな
2024/09/10 10:19
mayumayu_nimolove
claud sonnetは?食わせられないか。chatgptはもう界隈の人は使ってない気がする。
2024/09/10 10:22
dekaino
意識高い系の研究者が読む文献ってだいたい最初の方に結論とか要約があるんですよ。最後まで読まないと内容がわからないって娯楽小説の類ですか? だったらネタバレよくないなあってAIも気を利かせてるんですよ。
2024/09/10 10:22
tick2tack
コンテキストウィンドウというものがよくわからないので、増田の言う通りなのか増田も理解できてないのかが分からない
2024/09/10 10:24
nomitori
報告書とかは冒頭に概要があるから、実際それであんま困らないんよなぁ。特定部分を噛み砕いて欲しい時は、そう指示するとやってくれたりする。またはそこだけコピペしてお願いしてる。要約はGeminiの方がいい時もある
2024/09/10 10:33
hobbiel55
「例えば、DRMをクラックした本とかを読ませて」←そりゃあ、やってる人はあまりいないだろうなあ。
2024/09/10 10:36
naga_yamas
どちらかと言うと常識に近いからあまり書かれてない類のものだと思った。RAGがまともに読み込まれないのは黎明期から言われてはいる
2024/09/10 10:36
ka-ka_xyz
迂闊に外に出せない資料とかはローカルLLM + RAGで何とかするしかないだろね派。
2024/09/10 10:41
macro1597
needle in a haystackが得意なモデルとそうでないモデルがある
2024/09/10 10:46
verda
最初の方に結論書かれているようなドキュメントなら要約せずそれ読めばええしな
2024/09/10 10:47
yarumato
“GPT-4oに、本とかを読ませて「なんて書いてある?」を聞いてみると分かるが、後半については殆ど無視される。 巨大な入力コンテキストウィンドウ128Kトークンを持つという説明は殆ど嘘”
2024/09/10 10:49
debabocho
テキストの重み付けにクセがあるというか、先に重要なこと書くと教育されてる英語圏の人間との対話が多いので、結果的に長文読ませても終盤のテキストはフレーバー程度にしか加味しないみたいな挙動になってる?
2024/09/10 10:53
rt24
逆に人間味ある「渡されたものの前のほうだけ読んで適当に回答する」
2024/09/10 10:54
point2000
GoogleのGeminiは長文を読ませるとある程度後半の内容も答えてくれるけどあれも実は前半しか読んでないのかな
2024/09/10 10:58
hiroomi
全部読む読まないは相手の勝手。テストの組み方をどうするか。なのだろう。
2024/09/10 10:59
dexia2
ClaudeはJSONに変換したり、マークダウンを解釈する構文能力が弱いので、あまり使っている人はいなさそう。少なくとも自分は趣味の翻訳でしか使おうと思えなかった。
2024/09/10 11:00
x100jp
私はAIだった。
2024/09/10 11:05
nakamura-kenichi
×LLM○チャットAI。紛らわしい。
2024/09/10 11:05
nzjvugjjk
私もタイトル(入力)だけ読んでコメント(出力)することあります。長いの読んでられない。LLMもこんなマインドだと嫌だなぁ
2024/09/10 11:11
pekee-nuee-nuee
そんなでかいテキスト渡したことはあんまりないのだが、「なんて書いてある?」じゃなくて後ろの方にしか書いてないことを質問してはどうか。
2024/09/10 11:21
auto_chan
プログラムなど書かせてると最初に提示した条件を長い間会話してても律儀に守ってくれてる実感はある。GPT3のころは数回会話すると仕様がすっ飛んでパーになってたので。会話と一気読みで挙動異なるのか研究成果plz
2024/09/10 11:21
takamocchi
チャットAIを学者や識者として使おうとしちゃダメ。「これやっといて」って部下や後輩に渡せるレベルの仕事をさせて、自分の作業効率底上げする事に使っている人が「ガッツリ使いこなしている人」。
2024/09/10 11:27
mutinomuti
関係ないけど100個箇条書きしてと言っても3個とか5個で辞めようとするの人間味あると思っている(´・_・`)なので途中でやめるなとか他にありますかとか言い続けたりパワハラみたいなことしていた
2024/09/10 11:27
maxk1
長文増田はオチまで読まれない法則
2024/09/10 11:28
arsweraz
生成AI、段々限界が見えつつあって、市場も少しずつ懐疑的になりつつあるフェーズのように見える。何かしらのブレイクスルーがないとバブル弾けちゃうかも。
2024/09/10 11:29
mr_mayama
Claudeのプロジェクトに読ませるドキュメントも似たようなもんだった。返って結果が悪くなったり。前処理って難しい
2024/09/10 11:31
pwatermark
GPT4o限定の話をLLMで一括りにするなや
2024/09/10 11:48
zonke
入力コンテキストが嘘 ってなんだよ
2024/09/10 11:58
tu_no_tu
LLMを使いこなしている人は、長文理解では、geminiやclaudeの方が明確に優れている事を知っている。 長文の処理にChatGPTを使わない。
2024/09/10 11:59
snneko
論文とか入力すると上手いこと要約してくれるし、拾われてないところもプロンプト明示すれば説明してくれるから、使い方を工夫する必要があるかな、くらいの感想
2024/09/10 12:01
hatebu_admin
試しに末尾に重要なことが書いてるやつを食わせてやると末尾のことは知らんがなってなるってこと?
2024/09/10 12:04
sanzi24
読んだ。まじか。
2024/09/10 12:05
shoh8
RAGを頑張る。入力データは巨大にするなら前処理する。とかまだまだ楽をするには人の手がかかる部分はある印象
2024/09/10 12:11
tet00
GoogleのNotebookLMは長文もしっかり読むし書いてないことは書いてないと答えるので重宝している。/id:cinq_na 「128k」はトークン数です。GPT-4oだと日本語1文字はおよそ0.8トークンなので、文庫本1冊くらいは読める計算。
2024/09/10 12:35
cvtbgspuda
勉強になった
2024/09/10 12:35
uotocs
"渡されたものの前のほうだけ読んで適当に回答する"人間っぽ〜〜〜
2024/09/10 12:36
udofukui
OCRさせようとすると同じ現象起こる
2024/09/10 12:46
tanzmuzik
LLM出始めの頃にChatGPTを触ってみて嘘松だなと思ってすぐに使うのやめたけど、最近Claude使ってみて能力の差に驚いた。
2024/09/10 13:12
otakumesi
Decoder-onlyモデルには比較的そういう弱点があるとはよく言われていた気がする(なので、LLM以前は要約モデルにはEncoder-Decoderモデルが選ばれてきたイメージ)
2024/09/10 13:17
kurakichi1881
自分はOCRした教科書を読み込ませて、その教科書の情報からのみ回答させるようにシステムプロンプトを組んで、使うときは教科書のわかりにくい部分をコピペして質問って形で使ってるけど今んとこ満足
2024/09/10 13:32
namisk
大量データ渡せるけど確認サボる(内容が反映されない)って結構聞くよね。目星をつけて絞り込んで渡す必要があるとか、人間と一緒だね
2024/09/10 13:34
jintrick
ガッツリ使いこなしてないね
2024/09/10 13:35
medakamaster
長文読解をさせたい人はClaude の有料版を使うといいみたいですよ。
2024/09/10 13:35
eroyama
確かに3行しか読まないブクマカの挙動に近い。4行目に大事なことが書いてあるからあと1行頑張って読んで欲しい / いまのチャットAIもプロンプトをガッツリ作りこめば人間を余裕で超える
2024/09/10 13:39
cinq_na
128Kって1文字3バイトなら4万字ちょい、軽い本でも10万字程なんで、そりゃ後半無視されるよね。
2024/09/10 13:54
yorkfield
128kは大した量じゃないし入力した本が128kトークン以上あっただけでは? /"128Kって1文字3バイトなら4万字ちょい"→単位はバイトじゃなくてトークンなのでこれは間違い。日本語だと1トークンは1~2文字程度になる。
2024/09/10 13:56
rax_2
4oは省力化してるモデルでなかったっけ?前のモデルより信用していない。無料枠に戻したから別にいいが…。
2024/09/10 14:00
otoan52
特定の部分を「注目させる」という操作を行わないとそうなる。とりあえず全部放り込んで、注目をコントロールして処理するというのができるようになった。文章全体にざっくりした処理をかけるときは入力を減らす
2024/09/10 14:06
yas-mal
こういうの、再現手順を書いて欲しいかな。「青空文庫の何々をどういう形式でアップロードして、何々について聞いたら…」ぐらいの。
2024/09/10 14:12
heppokopg2013
geminiは結構長いトークンでもいける。
2024/09/10 14:22
misshiki
“例えば、DRMをクラックした本とかを読ませて「なんて書いてある?」みたいなことを聞いてみると分かるのだが、後半については殆ど無視される。”
2024/09/10 14:38
wktk_msum
やっぱGemini、Claudeも試さんなと。自分は小分け入力で対処してたが、一気にイケるならそっちのが断然いいし
2024/09/10 14:47
nemoba
元々、会話が進むと前提(コンテキスト)が抜けてく問題があって、まんまそれでしょ。スケールアップバブル中だから言いにくいだけで、弾けたらすぐ誰か言い出すよ。
2024/09/10 14:51
shidho
基本、やる気があるふりをしているが能力のないアルバイトだと思って接しているとだいたいそれに近い動きをする。使いようと言われても正直時給は払いたくない雰囲気がする。
2024/09/10 14:54
ys0000
人と同じで、最初に結論が書いてあるという前提で、サマリーのところだけから回答しようとするのかな。精読せよって指示出すと変わるのかしら?
2024/09/10 15:04
shields-pikes
いろんなモデルを使ってみよう。長文理解ならGemini、日本語出力能力の高さならClaudeがおすすめ。用途によっては、RAGの方が上手くいく場合もあるぞ。
2024/09/10 15:04
fashi
でっかいプログラムソース食わせて解析させると後ろのほうにあるリソースはないことになるね
2024/09/10 15:41
honma200
無機質に出来事しか書いてない資料だと辛いかもね
2024/09/10 16:01
firststar_hateno
GPT-4oも読書感想文は苦手なのですわね。
2024/09/10 16:21
collectedseptember
へー、親近感湧いたわ
2024/09/10 16:25
urtz
“GPT-4oの(公称)入力コンテキスト(長)は殆ど嘘だということ。”
2024/09/10 16:42
maid_h
"DRMをクラックした本とかを読ませて" なんで犯罪告白しとるんや。
2024/09/10 16:43
khtno73
ゲームのFAQファイルにして食わせてギルドのdiscordでチャットボット運用してみたけど、たしかにわりと適当なんよな。そんなもんのためにRAGやりたくねえというか文書適当に食わせて済ませたいけどなかなかそうはいかな
2024/09/10 17:10
zoidstown
“出力を高速化するために「渡されたものの前のほうだけ読んで適当に回答する」ということをやってくる。でもこれについて問題視している人をほとんど見たことがない”
2024/09/10 17:14
arajin
“出力を高速化するために「渡されたものの前のほうだけ読んで適当に回答する」ということをやってくる。”
2024/09/10 17:23
kibitaki
DRMをクラックした本なんか与えたから、AIじゃなくたって「あいつこんなん食わせたんですよぉ」と泣きたくなるだろう。”須磨、明石まで”をされたんだろ。仕方ない。
2024/09/10 17:38
pankochang
ブクマカは最後まで読んだ上で斜め上の変なブコメしだすやん
2024/09/10 17:54
kazuph1986
多分人間が作成した学習データもそうだから。最初だけ読んで批判することって人間だととっても多いものね。
2024/09/10 17:54
swiped
claudeすごいよぉ…
2024/09/10 17:57
businessart
LLMをガッツリ使いこなしてる人間はそんなことはあらかじめわかってる。3000トークンくらいに切るか、長文ならragを使わなきゃいけないことも知ってるんだよ。
2024/09/10 18:03
knok
今のChatGPTはさておき、そういう「長文に書いてある途中を読み飛ばさないか」を評価するベンチマークはあるし、研究対象だよ
2024/09/10 18:33
zZwIwl
色々な意味で人間らしい気もする。たまに間違ったり嘘ついたり最初しか読まなかったり。なので今のところ、優秀だけどたまにうっかりする部下や先生といった印象。
2024/09/10 19:35
tettekete37564
そういう使い方してないんで、、としか。
2024/09/10 19:44
sase
ブコメ参考
2024/09/10 19:58
akakikureha
確かに体感だけどRAGでもコンテキスト1万文字超えると精度悪くなる気がするわ
2024/09/10 20:15
otihateten3510
俺らみたいだな
2024/09/10 20:21
tenjinjin
えれれむって言われても分かるとかじゃないのか
2024/09/10 20:44
R1na
時代はとっくにクロード。そんなことも知らないの????
2024/09/10 20:54
stabucky
たしかに、GPT4oならば「坊っちゃん」が丸ごと読める、というところまでは知っているが、実際読ませてないなあ。
2024/09/10 20:56
sek_165
長いコンテキストから必要な情報を取得するタスクをNeedle in a Haystack(干し草の中の針)というよ。難しいタスクだよ。
2024/09/10 21:08
number917
人間のアウトプットから学習してるから、行動原理がとことん人間と同じだもんな。前半部分カバーできてれば一応分かってる風の文章になるw
2024/09/10 21:28
Hidemonster
とにかく出力を適正に評価できるかどうかが重要であり、評価するにはそれなりの知識と経験含めた能力が必要
2024/09/10 21:36
ya--mada
マジで省エネしててムカつくんだChatGPT-4o。しつこく何度もインタラクション繰り返してやり直しを繰り返しても最初のテキトーな回答に戻る。
2024/09/10 21:42
paradoxparanoic
LLMの性能って測りようがないもんな。中身抜かれてっても気づかないかも
2024/09/10 22:13
ryoma_robo
“LLM Needle in a hay stack” で検索するとそういうテストしてる人がいるよ。あなたの観測範囲にいないだけ。
2024/09/10 22:18
queeuq
人間に対して同じことをしても、ほとんど前半の内容になる気がするが?
2024/09/10 22:24
nobori_lupin
文章内の検索はしてくれても、物語を理解して続きを書かせるのは無理という認識。
2024/09/10 22:47
peketamin
保持しておいてくれないよね。長いテキストから誤字脱字を探してもらおうとしたらだいぶ前の方だけしかやってくれなかった。
2024/09/10 23:10
fujisong
論文を要約させたら前半のみの要約だったので、これで終わり?って聞いたら、もちろん続きがあります。って、続きを要約し始めた。こいつすっとぼけやがってー、と微笑ましかったな
2024/09/10 23:26
doko
それについては、MSのガモウさんが解説してるとおりだよね。プロンプトでうまいこと段階的・分割的にあれしたら多少変わるんでない。LLMで問われるのは常に人間の方だよ
2024/09/10 23:27
Youmanson
通しの構造を俯瞰で見通して回答をくれているのを理想として使用していても、後半の処理が適当になるのは自分だけじゃなかったのか。現状のものだとしても困った仕様だなぁ。
2024/09/11 00:29
nnnmmmlll
ネタバレに配慮してるのか
2024/09/11 01:30
yoshi-na
いや普通によく見る指摘だが?なんならGPT4o出てすぐくらいに比較されてただろ
2024/09/11 06:27
InvisibleStar
意識高い系向け文献を読み込ませて要約させたことあるが、序論で書かれてる研究の背景が9割な要約になってこの研究の肝はそこじゃねえ!ってなった。勝手にネタバレ回避とか本当にしてたら余計な機能に他ならないし
2024/09/11 08:45
repon
はてのさん、キレッキレだなw