






















要約:数ステップ生成モデルの整列は難しいものである。なぜなら、既存の整列フレームワークは通常、制約的な仮定に依存するからである:手がかりの良い確率分布、特定のODE/SDEソルバー、または特定のモデルファミリー。私たちはFAV、サンプルベースの変分推論による数ステップ生成モデルの整列、を導入する。これは、生成器と参照分布へのサンプルアクセスのみを必要とする一般的な整列フレームワークである。私たちは整列を、報酬を傾けた分布からのサンプリングとして表現し、参照分布にアンカーを置く。私たちはStein変分勾配降下をサンプルベースの変分推論スキームとして利用し、固定点回帰を通じてその粒子更新を生成器パラメータに移行させる。私たちはFAVを2つのドメインで評価する:ロボティクス操作と画像生成器の整列。ロボティクス操作のための生成政策整列において、FAVは56のオフラインおよび30のオフラインからオンラインRLタスクにおいて現行の政策抽出ベースラインを優勝する。画像生成器の整列において、FAVはGAN、ドリフトモデル、一貫性モデル、フローマップを含む多様な数ステップバックボーンを微調整し、ImageNet-$256$から1024$^2$のテキストから画像の合成にスケールアップする。コードは利用可能である。このURL。
| コメント: | レビュー中 |
| 主題: | 機械学習 (cs.LG);人工知能 (cs.AI) |
| 引用: | arXiv:2605.26552 [cs.LG] |
| (または arXiv:2605.26552v1 [cs.LG]) このバージョン用) | |
| https://doi.org/10.48550/arXiv.2605.26552 arXiv発行のDOI via DataCite(登録保留) |
送信者: Jaewoo Lee [メールを表示]
[v1]
火, 26 5月 2026 05:02:49 UTC (18,419 KB)
このコンテンツは慣性聚合(RSSリーダー)によって自動集約されています。参考としてご覧ください。 原文出典 — 著作権は原著者に帰属します。