テクノロジー

SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索

1: nguyen-oi 2026/05/06 08:03

1.4兆語を瞬時に叩くアルゴリズムも凄いが、ベンチマーク汚染を暴きに行く姿勢が実にパンクで好き

2: knok 2026/05/06 15:31

数値が微妙に異なる例があったけどそれを数値の近いものほど類似度も合わせられると面白そう

3: fhvbwx 2026/05/06 15:37

やっぱりRAGよりも検索の方が筋がいいよね

4: zgmf-x20a 2026/05/06 15:46

テキストマイニングが変わるかもね。

5: misshiki 2026/05/11 17:45

SoftMatcha 2は1.4兆語コーパスから類似語を0.3秒未満で検索。softmin、逐次的枝刈り、2段階ページングで高速化し、ベンチマーク汚染では類似汚染18件・数値替え11件も検出。