






















摘要:近世诸视觉语言模型(VLMs)之思答法,如Qwen3-VL-Thinking,借中道思虑之阶,以增推理之效,然其计算之费甚巨,尤以大模型为甚。欲精此能于微模型,首务乃增学子善用视觉明证于其思虑之迹,盖思答之迹常患目忘。为此,吾等创一新思答精炼之框架,劝学子以视觉明证为锚,掩其显要之思前缀。以补掩蔽之文辞,学子当更恃视觉明证为信息之别源。吾等掩蔽之策有三:一曰逐符显要思前缀掩蔽,择要掩高影响之思前缀于每下一符之预测;二曰自调掩蔽预算调度,渐增掩蔽之度,以师徒分布之差为度。精炼之阶,学子受吾等显要思前缀掩蔽之导,此掩蔽既阻未来之符,复阻显要之思明,代标准之因果掩蔽,用于自回归之文语模型。实验之果示,吾等之法胜近世开源VLMs、VLM精炼及自精炼之法于多模推理之标,而更析之则证学子思虑之迹中视觉利用之增。
| 评注: | 预印本 |
| 主题: | 计算机视觉与模式识别(cs.CV);人工智能(cs.AI);计算语言学(cs.CL) |
| 引用格式: | arXiv:2605.11651 [cs.CV] |
| (或 arXiv:2605.11651v4 [cs.CV])为此版本) | |
| https://doi.org/10.48550/arXiv.2605.11651 arXiv所颁DOI经由DataCite |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。