“「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想はとても面白く、発展の余地があるように感じます。” 確かにな
やってにる
チャンクチャンクブギーな胸騒ぎ
“この手法のキモは、変換器です。「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想”
インタープリタ遅いからあらかじめバイトコードにしとこうぜ、的な話。この技術の先に、機械語相当の「LLM内部のメモリ状態のダンプ」みたいのが出てきたりするだろうか?あたかも思考過程のセーブとロードのような。
なんか昔ながらの自然言語処理の技術も活かせるようになってきたな🤔
人間にとってわかりやすくてもLLMにとっては冗長ってとこで、あれ、情報が正しく伝わってないのでは?とも思ったけど人間同士でもそんなの日常茶飯事だなと思い直した。
MCPとは違うの?
“「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想”
ちょっと試しに実装してみなきゃ
“RAGの回答を爆速にする手法。外部からの関連文書を、そのままLLMに渡すと入力が長く回答も遅い。関連文書をベクトル化して、ベクトル形式のままLLMに注入すると30倍高速化。だが複雑。より単純な類似手法xRAGもある”
おもろ
実際、Claude Codeとかでコンテキストを保存する場合に「人間に配慮せずAIが自分で分かる様にしてくれ」とか指示すると(自然言語ではあるけど)かなり圧縮されたりするし、こういう方向性はどんどん進むと思いますね
埋め込みに使うLLMと回答に使うLLMは通常違うので、ベクトルをそのまま渡すには埋め込みモデルと回答モデルが同じである必要がある。回答に使うLLMは埋め込みLLMより通常はでかいので同じモデルを使うと非効率。
デフラグ?
“最初からベクトルで渡してあげることで高速化できるよね、というイメージです。その「テキストをベクトルにする変換器」の作成が大変です”
“「REFRAG」という手法では、検索した関連文書をベクトル化して、ベクトル形式のままLLMに注入します。こうすることで、「LLMから回答が来るまでの時間」を最大で約30倍高速化できます。”
RAGを30倍速くするMetaの新技術「REFRAG」
“「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想はとても面白く、発展の余地があるように感じます。” 確かにな
やってにる
チャンクチャンクブギーな胸騒ぎ
“この手法のキモは、変換器です。「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想”
インタープリタ遅いからあらかじめバイトコードにしとこうぜ、的な話。この技術の先に、機械語相当の「LLM内部のメモリ状態のダンプ」みたいのが出てきたりするだろうか?あたかも思考過程のセーブとロードのような。
なんか昔ながらの自然言語処理の技術も活かせるようになってきたな🤔
人間にとってわかりやすくてもLLMにとっては冗長ってとこで、あれ、情報が正しく伝わってないのでは?とも思ったけど人間同士でもそんなの日常茶飯事だなと思い直した。
MCPとは違うの?
“「人間にとって分かりやすい文章は、LLMにとっては冗長なので、もっと圧縮してLLMに渡すべき」という発想”
ちょっと試しに実装してみなきゃ
“RAGの回答を爆速にする手法。外部からの関連文書を、そのままLLMに渡すと入力が長く回答も遅い。関連文書をベクトル化して、ベクトル形式のままLLMに注入すると30倍高速化。だが複雑。より単純な類似手法xRAGもある”
おもろ
実際、Claude Codeとかでコンテキストを保存する場合に「人間に配慮せずAIが自分で分かる様にしてくれ」とか指示すると(自然言語ではあるけど)かなり圧縮されたりするし、こういう方向性はどんどん進むと思いますね
埋め込みに使うLLMと回答に使うLLMは通常違うので、ベクトルをそのまま渡すには埋め込みモデルと回答モデルが同じである必要がある。回答に使うLLMは埋め込みLLMより通常はでかいので同じモデルを使うと非効率。
デフラグ?
“最初からベクトルで渡してあげることで高速化できるよね、というイメージです。その「テキストをベクトルにする変換器」の作成が大変です”
“「REFRAG」という手法では、検索した関連文書をベクトル化して、ベクトル形式のままLLMに注入します。こうすることで、「LLMから回答が来るまでの時間」を最大で約30倍高速化できます。”