慣性聚合 関心のあるブログ、ニュース、テクノロジーを効率的に追跡
原文を読む 慣性聚合で開く

おすすめ購読元

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
キミの一貫性、マヌスの階層
阮一峰 · 2026-01-29 · via 阮一峰的网络日志

一、

前日、キミは突然旗艦モデルK2.5を発表し、事前に全くの風声もなかった。

国内では、キミは比較的控えめな会社であり、注目度も相応に低い。しかし、その製品は決して弱くない。

半年前、K2モデルは驚異的なパフォーマンスを披露し、高い評価を得て、世界的に第一陣と認められている。それゆえ、新モデルのK2.5が登場した後、すぐにニュースになり、ハッカーニュース、ツイッターなどのプラットフォームで人気のトピックとなった。

有名な開発者、サイモン・ウィリアムズはその日、詳細な紹介を書いた。

しかし、今回本当に面白いのは、モデルそのものではなく、キミが別のことをしたからだ。

二、

今回のK2.5は非常に強力で、K2よりも各方面で進歩しています。公式が提供する評価スコアは、基本的に世界トップ3で、時には1位です(リリースノート参照)。

LMArena(現在はarena.aiに改名)のランキングによると、Kimi K2.5のエンコード能力はオープンソースモデルの中で最も高く、総合ランキングではClaudeとGeminiに次ぐ2位です(下図)。

しかし、最大の注目点はモデルではなく、Kimiが同時にこのモデルに基づくAgent(エージェント)を発表したことです。

つまり、今回発表されたのは実質的に二つのもの:K2.5モデルとK2.5Agentです。。K2.5 は下層モデルであり、K2.5 Agent は最終ユーザー向けのネットワークアプリケーションです。

私の印象では、これが初めて大規模モデル会社がこんなことをするようだ。以前はモデルそのものが公開されていたが、モデルと Agent を一緒にリリースした例は見たことがありませんでした。

そう言えば、Kimi は統合化された道を歩んでいます。

三、

皆さんも知っているように、大規模モデルは下層の処理エンジンであり、Agent はユーザー向けの上層アプリケーションです。

それらの関係は主に二種類です:階層開発と統合。前者は大規模モデルと Agent が分かれており、それぞれ独立して開発されます。後者は一つの統合された全体として一緒に開発されます。

最近、Meta 社が高額で買収した Manus は、階層開発の最良の例です。

Manus が使用するモデルは Anthropic 社の Claude で、それ自体が独立した知的体を開発し、最終的に買収されました。

その成功は多くの人を知的体の開発に鼓舞させました。なぜなら、モデルの開発には多大な投資が必要で、誰にでも簡単にできるわけではなく、知的体の開発には比較的少ない投資で、小さな開発者でも手が届くからです。

Kimi の今回の試みは、別の方向へ一大步を踏み出し、大規模モデルと Agent を組み合わせました。結局、大規模モデル会社が自らこの仕事をやる方が便利で、市場シェアの拡大やユーザーの獲得に有利です。

どちらのやり方が良いかは難しいと言えます。スマートフォンのように、Apple や Android の外部アプリはユーザーのニーズをよりよく満たすことができますが、標準装備のアプリはオペレーティングシステムと密接に統合されており、使い勝手がスムーズです。

四、

モデルのテストは既に多く行われていますが、ここで今回発表された K2.5 Agent をテストしてみます。

から分かるように、KimiはAgentを非常に重視しており、多くの心血を注いでいます。のリリースノートの大部分はAgentの機能を紹介しています。

中にはいくつかの一般的な機能があります:

(1)Kimi Office Agent:専門家級のWord、Excel、PowerPointファイルの生成。

(2)Kimi Code:Claude Codeを対象としたコマンドラインツールで、コード生成専用。

(3)長期的な操作:最大1500ステップの操作を一度に完了できるようになり、これは明らかに多段階操作で知られるManusと比較されている。

私が特に注目しているのは、以下の2つの全く新しい機能で、これまで他社では言及されていなかった。

(4)視覚プログラミング:モデルの視覚能力を通じて、画像や動画を理解し、それをプログラミングに活用する。デザイン画とウェブビデオをアップロードするだけで、ウェブサイトを生成できる。

(5)蜂群機能(agent swarm):複雑なタスクに直面した際、Agentは内部で最大100個のAgentを自動的に呼び出し、それらをクラスタとして組み合わせ、並列でタスクを実行する。例えば、並列ダウンロードや並列生成など。

長さの都合上、簡単に私の「視覚プログラミング」のテスト結果について触れるだけだ。

五、

まず、Kimiの公式ウェブサイトを開きます。K2.5はすでに公開されており、直接使用できます(下図)。

注意点として、モデルは「エージェントモード」のK2.5 Agentに切り替える必要があります。

最初のテストは動きの生成で、アニメーション効果の動画をアップロードし、それを生成させます。以下は元のアニメーションで、Lottieライブラリを使用して作成されています。

アップロード後、ウェブページでヒントを入力します:

動画内のアニメーション効果を、ウェブページ上で完全に再現してください

モデルはすぐに、これは橘猫がボールを遊ぶアニメーションであると推測しました。そして、驚いたことに、アニメーションの各フレームをキャプチャし、再現しました。

最終的には、Pythonを使用してSVGアニメーションファイルを生成しました。

しっぽ、目、小さな球が転がるアニメーション効果は、正確に再現されています。残念ながら、メインの小猫は複数のSVG形状で組み合わせられており、とても似せることができません。

皆さんはこのURLにアクセスして、最終的な効果とウェブページのコードを確認できます。

六、

次のテストは、ウェブサイトの動画をアップロードし、モデルがウェブサイトを生成するものです。

私はBilibiliで、ランダムに選んだデザイナーのウェブサイトの動画を見つけました。

皆さんはこのサイトを訪れて、元のウェブページの効果を見てください。

私はビデオをモデルにアップロードし、「ビデオの中のウェブサイトを復元する」と要求しました。

生成された結果(下図)は私の期待をはるかに超え、非常に高い復元度があり、ほぼ直接公開できるレベルです。

皆さんはこのウェブサイトで生成された結果を確認できます。

七、

簡単なテストを経て、私の評価は、Kimi K2.5 Agent の「視覚的プログラミング」はおもちゃではなく、実際に視覚理解能力があり、利用可能な結果を生成できるということです。

現在のところ、Kimi の今回の「モデル + Agent」の統合試みは成功しているようです。一方で、強力な Agent が基盤モデルの能力を引き出し、ユーザーが使いやすくなっています。他方、モデルは Agent を通じてさまざまなユースケースを拡張し、より多くのユーザーを引き付け、自身の普及に有利です。

最後に、現在の国際競争の構図の中で、統合にはさらなる利点がある。

Manus はアメリカのモデルに依存しており、結局は海外で会社を登録しなければならなかったが、Kimi の下位モデルは自社開発で、オープンソースで、完全に「技術的依存」のリスクがない。

(完)