






















要約:テスト時の計算は広く大規模な推論モデルだけが利益を得ると信じられています。私たちはそれが小規模な埋め込みモデルにも役立つことを示しました。現代の埋め込みモデルはLLMのバックボーンから派生しているため、フリーズされたエンコーダは再訓練なしで追加の推論計算から利益を得るべきです。エージェントプログラム-サーチループはフリーズされたエンコーダAPIを探索し、144の候補プログラムから十二つのパレート最適プログラムを生成し、単一パスベースラインに対してコスト比率が$c=1.2$から$14.7$までの範囲をカバーします。サーチは独立してRocchio疑似関連フィードバック、ColBERTスタイルのMaxSimを文粒度で、逆位相融合、Fisher線形判別を再発見し、すべてのトレーニング可能なパラメータや外部モデルなしで行われました。各フロンティアプログラムは、法的、金融、長文、一般のドメインをカバーする14のMMTEB検索タスク全体において、フリーズされたベースラインよりもnDCG@10を向上させます。プログラムは変更なしで未知のエンコーダファミリーと19の除外された検索タスクに転移し、68%のモデル-タスクペアは少なくとも1つのフロンティアプログラムがコサインベースラインよりも改善することを認めます。
| コメント: | 16ページ、4図 |
| 分野: | 機械学習 (cs.LG); 計算と言語 (cs.CL); 情報検索 (cs.IR) |
| 引用: | arXiv:2605.11374 [cs.LG] |
| (または arXiv:2605.11374v3 [cs.LG]) このバージョン用) | |
| https://doi.org/10.48550/arXiv.2605.11374 arXiv発行のDOI via DataCite |
このコンテンツは慣性聚合(RSSリーダー)によって自動集約されています。参考としてご覧ください。 原文出典 — 著作権は原著者に帰属します。