











摘要:基於Token的變換器世界模型在視覺強化學習中展現出強大的性能,但通常在長視野展開中存在時間不一致性,包括物體重複、消失和轉變。一個關鍵原因是大多數現有方法將下一幀預測純粹視為Token生成問題,而沒有考慮Token在時間上的持久性。我們介紹了可識別Token對應(ITC),這是一個針對基於Token的變換器世界模型的解碼步驟,將下一幀預測制定為一個具有潛在Token對應變量的結構化分配問題:每個下一幀的Token都是由複製前一幀的Token或生成一個新Token來解釋。ITC不變更變換器架構和訓練程序,並可以加在現有主幹上。我們的實驗在4個挑戰基準測試中顯示出最先進的性能。所提出的方法在Craftax-classic基準測試中達到72.5%的回報和35.6%的得分,顯著超過了之前的最佳結果67.4%和27.9%。我們釋放了我们的源代码在此 https URL。
| 主題: | 機器學習 (cs.LG);人工智慧 (cs.AI);電腦視覺與模式識別 (cs.CV) |
| 引用格式: | arXiv:2605.16457 [cs.LG] |
| (或 arXiv:2605.16457v3 [cs.LG] 對此版本) | |
| https://doi.org/10.48550/arXiv.2605.16457 arXiv發行的DOI透過DataCite |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。