惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

WordPress大学
WordPress大学
Microsoft Security Blog
Microsoft Security Blog
Security Archives - TechRepublic
Security Archives - TechRepublic
V
Visual Studio Blog
宝玉的分享
宝玉的分享
IT之家
IT之家
人人都是产品经理
人人都是产品经理
T
The Blog of Author Tim Ferriss
I
InfoQ
B
Blog RSS Feed
T
Threatpost
博客园_首页
M
MIT News - Artificial intelligence
Spread Privacy
Spread Privacy
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Know Your Adversary
Know Your Adversary
U
Unit 42
Engineering at Meta
Engineering at Meta
C
Cyber Attacks, Cyber Crime and Cyber Security
月光博客
月光博客
Scott Helme
Scott Helme
T
Tor Project blog
有赞技术团队
有赞技术团队
AWS News Blog
AWS News Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Last Week in AI
Last Week in AI
S
Schneier on Security
Vercel News
Vercel News
博客园 - Franky
C
Cybersecurity and Infrastructure Security Agency CISA
L
LINUX DO - 热门话题
NISL@THU
NISL@THU
L
LangChain Blog
爱范儿
爱范儿
Google DeepMind News
Google DeepMind News
The GitHub Blog
The GitHub Blog
雷峰网
雷峰网
Latest news
Latest news
C
CXSECURITY Database RSS Feed - CXSecurity.com
Hugging Face - Blog
Hugging Face - Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
G
GRAHAM CLULEY
S
Security Affairs
A
About on SuperTechFans
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
大猫的无限游戏
大猫的无限游戏
W
WeLiveSecurity
Cisco Talos Blog
Cisco Talos Blog
罗磊的独立博客

迷途小书童的Note

微软开源了一个帮 Agent 打磨技能的工具,思路很野 - 迷途小书童的Note X上如何下载视频? - 迷途小书童的Note 装完Hermes之后,我被这5个东西救了 - 迷途小书童的Note 从此写代码,只需要在旁边看着 小模型大野心 跑大模型,最贵的不是 GPU,是这个东西 vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍! 大模型跑在端侧,到底有多难?我们踩过的那些坑 AI 生成的前端界面,为什么总是不够好看? 一个让你像聊天一样做PPT的AI工具 上下文工程:会话与记忆 颠覆视频创作!一键替换3D角色,你还不来试试? AI证件照,一键搞定! 26.2k,收下这个FastAPI全栈模板! Star马上破万,这款AI知识库你一定要看看! 超级Prompt! 不懂编程也没关系,Cursor AI帮你轻松写代码! 推理能力超博士,OpenAI发布最强模型o1 U2-Net:图像分割中的背景移除技术
阿里通义VimRAG:让AI同时”读文档、看图片、看视频”
迷途小书童 · 2026-05-03 · via 迷途小书童的Note

传统AI知识库只能查文字,VimRAG让AI学会了”图文视频一起看”。


先讲一个真实场景

假设你是一家制造企业的工程师,公司知识库里有:

  • 10万份含图表的PDF技术文档
  • 5万张CAD设计图纸和产线照片
  • 上千条时长30到60分钟的操作培训视频

现在你问AI一个问题:

“去年Q3产品的设计变化了哪些方面?会议录像里是怎么讨论这个设计的?”

要回答这个问题,AI需要:

  1. 从PDF文字中找到会议纪要
  2. 从CAD图纸的标注层看出设计变更
  3. 从视频第47分钟的对白中找到力学测试的解释

三种模态、隐式关联、跨模态推理——传统RAG系统直接崩溃。

这就是阿里通义团队发布VimRAG要解决的问题。


传统RAG出了什么问题?

什么是RAG?

RAG(检索增强生成)的原理很简单:AI回答问题之前,先从知识库里检索相关资料,再基于资料生成答案。

就像律师办案前先查法条和判例,而不是凭感觉瞎说。

传统RAG的致命缺陷:状态盲区

传统RAG的工作方式是”线性拼接”——每次检索的结果按时间顺序排成一长串,全塞给AI。

当知识库只有文字时,这没问题。但当知识库变成图文视频混合体时,麻烦就来了:

一次检索可能返回”一段文字 + 三张图 + 两个视频片段”。随着推理步数增加:

问题
具体表现
信息密度急剧下降
视频占了大量Token,但关键信息可能就一句话
模态关联丢失
AI忘了自己查过什么模态,各模态间如何印证
重复检索死循环
不知道下一步该深挖视频还是回头查文本

核心矛盾在于:视觉数据在语义上是”信息稀疏”的(一个视频片段可能就一个关键信息点),但在Token计数上是”高度密集”的。这个矛盾在多步推理中被指数级放大。


VimRAG的解法:把推理过程变成一张”地图”

核心思想

传统RAG把推理过程记成”流水账”——第1步查了什么、第2步查了什么……线性排列。

VimRAG的做法完全不同:把推理过程建模成一张动态地图(技术上叫”有向无环图”)。

打个比方:

传统RAG就像在一条直线上走路,走过的路全记着,越走越累。 VimRAG就像在画一张思维导图,哪条路走通了高亮保留,哪条是死胡同直接标记丢弃。

三大核心模块

VimRAG由三个创新模块组成,分别解决三个关键问题:


模块一:多模态记忆图——从流水账到思维导图

VimRAG构建一张从用户问题出发、动态生长的推理图。每个节点记录四个信息:

信息
作用
父节点索引
这条线索从哪里来
子查询
这一步具体查了什么
文本摘要
查到的关键信息总结
视觉记忆
保留的图片/视频关键帧

AI在每一步可以做三种动作:

  • 探索性检索:生成新分支,试探一个新方向
  • 感知与记忆:把检索结果提炼为摘要和关键视觉信息
  • 输出答案:证据充分时,综合图中信息给出最终回答

关键优势在于分支试错机制:走不通的路自动标记为死胡同,走通的路高亮为关键链路。AI能清晰区分”探索性搜索”和”结论性验证”,彻底告别重复查询的无效循环。


模块二:图调制视觉记忆编码——给重要节点分配更多”注意力”

视觉数据占Token多但信息少,怎么办?VimRAG的策略是:根据节点在图中的位置,决定给它分配多少视觉Token。

节点类型
Token分配策略
主干路径上的关键节点
保留高分辨率视觉Token
已被剪枝的边缘分支
降级为文字摘要或直接丢弃

这就像人类处理资料的方式:核心文件保留原稿仔细看,次要材料只看摘要。

实验发现,仅保留与查询语义相关的视觉Token,约2700个Token就能达到最佳效果——远少于保留全部视觉信息所需的Token量。


模块三:图引导策略优化(GGPO)——精确奖惩每一步

传统强化学习的训练方式很粗暴:最终答案对了,整条推理路径都给奖励;答案错了,整条路径都惩罚。

但VimRAG团队发现一个关键问题:在正确的推理路径中,约80%的步骤实际包含噪声信息,本不应该获得正向奖励。

GGPO的做法是:利用推理图的拓扑结构,精确追溯每一步的实际贡献。

  • 正样本中:剪掉”没贡献的死胡同”,不给它们奖励
  • 负样本中:保护”检索动作有效但最终没答对的节点”,不惩罚它们

效果是训练更稳定、收敛更快、推理更高效。


实验结果:效果如何?

评测设置

为了贴近真实场景,VimRAG采用了一个极其严苛的评测方式:

不是给每种数据类型单独建库,而是把文本、图片、视频全部混合进一个统一的语料库。

模型需要在这个”大杂烩”中精准找到正确信息——任何单一模态的检索失误都会导致全局推理失败。

核心数据

指标
VimRAG
ReAct基线
提升
平均准确率
50.1%
43.6%
+6.5个百分点

在文本、图片、视频三个类别的检索性能上,VimRAG均显著优于基线方案。

消融实验:每个模块都不可少

去掉哪个模块
后果
去掉多模态记忆图
准确率下降约8个百分点,重复检索率显著上升
去掉图调制视觉编码
Token消耗增加约5倍,长视频准确率下降12个百分点
去掉GGPO
训练不收敛,熵曲线持续震荡

每个模块都有不可替代的作用。


一个具体案例:AI如何跨模态找答案

问题:”Dr. Smith的微积分第4章里,拉格朗日乘数法的完整解题过程和数学证明是什么?”

传统RAG的困境:要么把整个课程视频OCR成文字(丢失公式和板书的空间结构),要么分别检索文本库、图片库、视频库后强行拼接(跨模态关联断裂)。

VimRAG的推理路径

步骤
动作
结果
第1步
试探性检索Chapter 3
发现讲的是”单变量极值”,与目标无关,标记为死胡同
第2步
利用图中节点关系,定位Chapter 4的Section 4.3
确认这是”约束优化”的核心章节
第3步
提取拉格朗日公式(文本)
获得数学定义
第4步
关联板书截图(图像)
保留公式的视觉布局
第5步
定位Example 4.3.2的推导视频(视频)
提取关键帧
最终
沿关键路径综合三种证据
输出完整答案

分支试错避免无效检索,拓扑定位直达目标,跨模态印证实现多源证据融合。


工程落地:不只是论文

VimRAG不是一个实验室里的玩具,而是一套完整的工程工具链:

组件
功能
VRAG分支
图片类富文本的精细化理解
VimRAG分支
文本、图片、视频全模态统一检索与推理
VRAG-RL模块
强化学习训练模块
FAISS向量库
亿级数据毫秒级检索,提供RESTful API

VimRAG的核心机制正逐步集成至阿里云百炼知识库,支持文本、表格、图片、音视频等多模态检索生成能力,开箱即用。


这件事为什么重要?

1. RAG从”能查文字”进化到”能查一切”

以前的RAG只能处理文本,VimRAG让AI真正具备了”图文视频一起看”的能力。

对于那些知识库里充满图表、图纸、视频的企业来说,这是质的飞跃。

2. “记忆”比”智能”更关键

VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于”不够聪明”,而在于”记不住”。

结构化的记忆管理(用图替代线性历史),比单纯提升模型参数更有效。

3. 从”回答问题”到”推理求解”

传统RAG是”查到就回答”,VimRAG是”探索、试错、印证、综合”。

这更接近人类处理复杂问题的方式:不是一次检索就出结果,而是多次探索、不断修正。


参考链接

资源
地址
论文
https://arxiv.org/abs/2602.12735v1
GitHub
https://github.com/Alibaba-NLP/VRAG
HuggingFace
https://huggingface.co/collections/Alibaba-NLP/vrag
阿里云百炼知识库
https://bailian.console.aliyun.com
ModelScope合集
https://modelscope.cn/collections/iic/VRAG

一句话总结:

当企业知识库从纯文字进化为图文视频混合体时,传统RAG力不从心。VimRAG用一张动态推理图,让AI学会了像人一样”多看、多想、多印证” — 这可能是多模态RAG走向生产落地的关键一步。