






















摘要:對齊多步生成模型是挑戰性的,因為現有的對齊框架通常依賴於限制性假設:一個易處理的似然性、一個特定的常微分方程/隨機微分方程求解器,或是一個特定的模型家族。我們介紹 FAV,基於樣本的變分推理進行多步生成模型對齊,是一個通用對齊框架,只需要對生成器和參考分佈進行樣本訪問。我們將對齊視為從一個以參考分佈為基準的獎勵偏斜分佈中進行抽樣。我們利用 Stein 變分梯度下降作為基於樣本的變分推理方案,並通過固定點回歸將其粒子更新分攤到生成器參數中。我們在兩個領域上評估 FAV:機器人操作和圖像生成器對齊。在機器人操作生成策略對齊方面,FAV 在 56 個離線和 30 個離線到線上 RL 任務上優於當前的策略提取基線。對於圖像生成器對齊,FAV 微調多樣化的多步主幹,包括 GAN、漂移模型、一致性模型和流圖,規模從 ImageNet-$256$ 到 1024$^2$ 文本到圖像合成。程式碼可在此 https URL。
| 評論: | 審核中 |
| 主題: | 機器學習 (cs.LG); 人工智慧 (cs.AI) |
| 引用格式: | arXiv:2605.26552 [cs.LG] |
| (或 arXiv:2605.26552v1 [cs.LG]) for this version) | |
| https://doi.org/10.48550/arXiv.2605.26552 arXiv發行的DOI透過DataCite(待登記) |
From: Jaewoo Lee [查看郵件]
[v1]
周二,2026年5月26日 05:02:49 UTC (18,419 KB)
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。