1.4兆語を瞬時に叩くアルゴリズムも凄いが、ベンチマーク汚染を暴きに行く姿勢が実にパンクで好き
数値が微妙に異なる例があったけどそれを数値の近いものほど類似度も合わせられると面白そう
やっぱりRAGよりも検索の方が筋がいいよね
テキストマイニングが変わるかもね。
SoftMatcha 2は1.4兆語コーパスから類似語を0.3秒未満で検索。softmin、逐次的枝刈り、2段階ページングで高速化し、ベンチマーク汚染では類似汚染18件・数値替え11件も検出。
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
1.4兆語を瞬時に叩くアルゴリズムも凄いが、ベンチマーク汚染を暴きに行く姿勢が実にパンクで好き
数値が微妙に異なる例があったけどそれを数値の近いものほど類似度も合わせられると面白そう
やっぱりRAGよりも検索の方が筋がいいよね
テキストマイニングが変わるかもね。
SoftMatcha 2は1.4兆語コーパスから類似語を0.3秒未満で検索。softmin、逐次的枝刈り、2段階ページングで高速化し、ベンチマーク汚染では類似汚染18件・数値替え11件も検出。