






















摘要:近年來的視覺語言模型(VLMs)中的思考-回答方法,例如Qwen3-VL-Thinking,透過在最終答案前利用中間思考步驟來提升推理性能,但其計算成本變得相當龐大,特別是對於較大的VLMs。為了將這種能力精煉到緊湊的思考-回答VLMs中,一個主要目標是提升學習模型在其推理軌跡中利用視覺證據的能力,因為思考-回答軌跡會受到視覺遺忘問題的困擾。為此,我們介紹了一個新的思考-回答精煉框架,鼓勵學習模型在其思考中依賴視覺資訊,方法是遮罩學習模型的顯著推理前綴。為了彌補這些被遮罩的文本提示,在精煉過程中,我們鼓勵學習模型更多地依賴視覺證據作為替代信息來源。我們的遮罩策略包括:1) 依token的顯著推理前綴遮罩,它會針對每個下一token預測選擇性地遮罩高影響力的推理前綴;2) 自適度的遮罩預算排程,它根據精煉難度(由教師-學習模型分佈之間的差異度衡量)逐步增加遮罩規模。在精煉階段,學習模型受到我們的顯著推理前綴遮罩的指導,該遮罩會阻擋未來的token和顯著的推理提示,取代了自回歸語言模型中使用的標準因果遮罩。實驗結果顯示,我們的方法在多模態推理基準測試中優於近年來的開源VLMs、VLM精煉和自精煉方法,而進一步的分析確認了學習模型思考過程中視覺利用的提升。
| 評論: | 預印本 |
| 主題: | 電腦視覺與模式識別 (cs.CV); 藝術智慧 (cs.AI); 計算與語言 (cs.CL) |
| 引用格式: | arXiv:2605.11651 [cs.CV] |
| (或 arXiv:2605.11651v4 [cs.CV]) for this version) | |
| https://doi.org/10.48550/arXiv.2605.11651 arXiv發行的DOI透過DataCite |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。