慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
Kimi 的一體化,Manus 的分層
阮一峰 · 2026-01-29 · via 阮一峰的网络日志

一、

前天,Kimi 突然發佈了旗艦模型 K2.5,事先沒有一點風聲。

在國內,Kimi 是比較低調的公司,關注度相對不高。但是,它的產品並不弱。

半年前,K2 模型一鳴驚人,得到了很高的評價,公認屬於全球第一梯隊。所以,新版本 K2.5 出來以後,立刻上了新聞,在黑客新聞、推特等平臺都是熱門話題。

著名開發者 Simon Willion 當天就寫了詳細介紹

但是,這一次真正有趣的地方,不是模型本身,而是 Kimi 做了另一件事。

二、

這次的 K2.5 很強,各方面比 K2 都有進步。官方給出的評測跑分,基本都是全球前三位,甚至第一名(見發佈說明)。

根據 LMArena(現改名為 arena.ai)的榜單,Kimi K2.5 的編碼能力,是所有開源模型的第一,在總榜上僅次於 Claude 和 Gemini(下圖)。

但是,最大的亮點其實不是模型,而是 Kimi 同時發佈了一個基於這個模型的 Agent(智能體)。

也就是說,這次其實同時發佈了兩樣東西:K2.5 模型和 K2.5 Agent。K2.5 是底層模型,K2.5 Agent 則是面向最終用戶的一個網絡應用。

我的印象中,這好像是第一次,大模型公司這麼幹。以前發佈的都是模型本身,沒見過誰把模型和 Agent 綁在一起發佈的。

這麼說吧,Kimi 走上了一體化的道路。

三、

大家知道,大模型是底層的處理引擎,Agent 是面向用戶的上層應用。

它們的關係無非就是兩種:分層開發和一體化。前者是大模型跟 agent 分開,各自開發;後者是做成一個整體一起開發。

前不久,被 Meta 公司高價收購的 Manus,就是分層開發的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude,它自己在其上開發一個獨立的智能體,最終被收購。

它的成功鼓舞了許多人投入智能體的開發。因為模型的投入太大,不是誰都能搞的,而智能體的投入比較少,再小的開發者都能搞。

Kimi 這一次的嘗試,則是朝著另一個方向邁出了一大步,把大模型和 Agent 合在了一起。畢竟,大模型公司自己來做這件事更方便,更有利於擴大市場份額、爭取用戶。

很難說,這兩種做法哪一種更好。就像手機一樣,蘋果和安卓的外部應用,可以更好地滿足用戶需求,而自帶的內置應用則能充分跟操作系統融合,用起來更順滑。

四、

模型的測試已經很多了,下面我就來測一下,這次發佈的 K2.5 Agent。

看得出來,Kimi 對 Agent 很重視,傾注了很大心血,發佈說明的大部分篇幅介紹的都是 Agent 的功能。

其中有幾個功能是比較常規的:

(1)Kimi Office Agent:專家級的 Word、Excel、PowerPoint 文件生成。

(2)Kimi Code:對標 Claude Code 的命令行工具,專門用於代碼生成。

(3)長程操作:一次性完成最多1500步的操作,這顯然在對標以多步驟操作聞名的 Manus。

我比較在意的是下面兩個全新的功能,都是第一次看到,其他公司好像沒有提過。

(4)視覺編程:通過模型的視覺能力,理解圖片和視頻,進而用於編程。只要上傳設計稿和網頁視頻,就能把網頁生成出來。

(5)蜂群功能(agent swarm):遇到複雜任務時,Agent 內部會自動調用最多100個 Agent,組成一個集群,併發執行任務,比如併發下載、併發生成等。

礙於篇幅,我就簡單說一下,我的"視覺編程"測試結果。

五、

首先,打開 Kimi 官網,K2.5 已經上線了,能夠直接使用(下圖)。

注意,模型要切換到"智能體模式" K2.5 Agent。

我的第一個測試是動效生成,即上傳一段動畫效果的視頻,讓它來生成。下面是原始動畫,是用 Lottie 庫做的。

上傳後,在網頁輸入提示詞:

視頻裡面的動畫效果,一模一樣地在網頁上還原出來

模型很快推斷出,這是橘貓玩球的動畫。然後,居然把動畫每一幀都截圖了,進行還原。

最終,它使用 Python 生成了 SVG 動畫文件。

尾巴、眼球、小球滾動的動畫效果,都正確還原出來了。可惜的是,主體的小貓是由多個 SVG 形狀拼接而成,沒法做到很像。

大家可以去這個網址,查看最終效果和網頁代碼。

六、

第二個測試是上傳一段網站視頻,讓模型生成網站。

我在 B 站上,隨便找了一個設計師網站的視頻

大家可以去訪問這個網站,看看原始網頁的效果。

我把視頻上傳到模型,然後要求"把視頻裡面的網站還原出來"。

生成的結果(下圖)完全超出了我的預期,還原度非常高,幾乎可以直接上線。

大家可以去這個網址,查看生成的結果。

七、

經過簡單測試,我的評價是,Kimi K2.5 Agent 的"視覺編程"不是噱頭,確實有視覺理解能力,完全能夠生成可用的結果。

目前看上去,Kimi 這次"模型 + Agent"的一體化嘗試是成功的。一方面,強大的 Agent 發揮出了底層模型的能力,方便了用戶使用;另一方面,模型通過 Agent 擴展了各種用例,可以吸引更多的用戶,有利於自身的推廣。

最後,在當下國際競爭的格局之中,一體化還有一個額外的優勢。

Manus 依賴的是美國模型,最終不得不選擇在海外註冊公司,而 Kimi 的底層模型是自研的,而且開源,完全不存在卡脖子的風險。

(完)