キミの一貫性、マヌスの階層

一、

前日、キミは突然旗艦モデルK2.5を発表し、事前に全くの風声もなかった。

国内では、キミは比較的控えめな会社であり、注目度も相応に低い。しかし、その製品は決して弱くない。

半年前、K2モデルは驚異的なパフォーマンスを披露し、高い評価を得て、世界的に第一陣と認められている。それゆえ、新モデルのK2.5が登場した後、すぐにニュースになり、ハッカーニュース、ツイッターなどのプラットフォームで人気のトピックとなった。

有名な開発者、サイモン・ウィリアムズはその日、詳細な紹介を書いた。

しかし、今回本当に面白いのは、モデルそのものではなく、キミが別のことをしたからだ。

二、

今回のK2.5は非常に強力で、K2よりも各方面で進歩しています。公式が提供する評価スコアは、基本的に世界トップ3で、時には1位です（リリースノート参照）。

LMArena（現在はarena.aiに改名）のランキングによると、Kimi K2.5のエンコード能力はオープンソースモデルの中で最も高く、総合ランキングではClaudeとGeminiに次ぐ2位です（下図）。

しかし、最大の注目点はモデルではなく、Kimiが同時にこのモデルに基づくAgent（エージェント）を発表したことです。

つまり、今回発表されたのは実質的に二つのもの：K2.5モデルとK2.5Agentです。。K2.5 は下層モデルであり、K2.5 Agent は最終ユーザー向けのネットワークアプリケーションです。

私の印象では、これが初めて大規模モデル会社がこんなことをするようだ。以前はモデルそのものが公開されていたが、モデルと Agent を一緒にリリースした例は見たことがありませんでした。

そう言えば、Kimi は統合化された道を歩んでいます。

三、

皆さんも知っているように、大規模モデルは下層の処理エンジンであり、Agent はユーザー向けの上層アプリケーションです。

それらの関係は主に二種類です：階層開発と統合。前者は大規模モデルと Agent が分かれており、それぞれ独立して開発されます。後者は一つの統合された全体として一緒に開発されます。

最近、Meta 社が高額で買収した Manus は、階層開発の最良の例です。

Manus が使用するモデルは Anthropic 社の Claude で、それ自体が独立した知的体を開発し、最終的に買収されました。

その成功は多くの人を知的体の開発に鼓舞させました。なぜなら、モデルの開発には多大な投資が必要で、誰にでも簡単にできるわけではなく、知的体の開発には比較的少ない投資で、小さな開発者でも手が届くからです。

Kimi の今回の試みは、別の方向へ一大步を踏み出し、大規模モデルと Agent を組み合わせました。結局、大規模モデル会社が自らこの仕事をやる方が便利で、市場シェアの拡大やユーザーの獲得に有利です。

どちらのやり方が良いかは難しいと言えます。スマートフォンのように、Apple や Android の外部アプリはユーザーのニーズをよりよく満たすことができますが、標準装備のアプリはオペレーティングシステムと密接に統合されており、使い勝手がスムーズです。

四、

モデルのテストは既に多く行われていますが、ここで今回発表された K2.5 Agent をテストしてみます。

から分かるように、KimiはAgentを非常に重視しており、多くの心血を注いでいます。のリリースノートの大部分はAgentの機能を紹介しています。

中にはいくつかの一般的な機能があります：

（1）Kimi Office Agent：専門家級のWord、Excel、PowerPointファイルの生成。

（2）Kimi Code：Claude Codeを対象としたコマンドラインツールで、コード生成専用。

（3）長期的な操作：最大1500ステップの操作を一度に完了できるようになり、これは明らかに多段階操作で知られるManusと比較されている。

私が特に注目しているのは、以下の2つの全く新しい機能で、これまで他社では言及されていなかった。

（4）視覚プログラミング：モデルの視覚能力を通じて、画像や動画を理解し、それをプログラミングに活用する。デザイン画とウェブビデオをアップロードするだけで、ウェブサイトを生成できる。

（5）蜂群機能（agent swarm）：複雑なタスクに直面した際、Agentは内部で最大100個のAgentを自動的に呼び出し、それらをクラスタとして組み合わせ、並列でタスクを実行する。例えば、並列ダウンロードや並列生成など。

長さの都合上、簡単に私の「視覚プログラミング」のテスト結果について触れるだけだ。

五、

まず、Kimiの公式ウェブサイトを開きます。K2.5はすでに公開されており、直接使用できます（下図）。

注意点として、モデルは「エージェントモード」のK2.5 Agentに切り替える必要があります。

最初のテストは動きの生成で、アニメーション効果の動画をアップロードし、それを生成させます。以下は元のアニメーションで、Lottieライブラリを使用して作成されています。

アップロード後、ウェブページでヒントを入力します：

動画内のアニメーション効果を、ウェブページ上で完全に再現してください

モデルはすぐに、これは橘猫がボールを遊ぶアニメーションであると推測しました。そして、驚いたことに、アニメーションの各フレームをキャプチャし、再現しました。

最終的には、Pythonを使用してSVGアニメーションファイルを生成しました。

しっぽ、目、小さな球が転がるアニメーション効果は、正確に再現されています。残念ながら、メインの小猫は複数のSVG形状で組み合わせられており、とても似せることができません。

皆さんはこのURLにアクセスして、最終的な効果とウェブページのコードを確認できます。

六、

次のテストは、ウェブサイトの動画をアップロードし、モデルがウェブサイトを生成するものです。

私はBilibiliで、ランダムに選んだデザイナーのウェブサイトの動画を見つけました。

皆さんはこのサイトを訪れて、元のウェブページの効果を見てください。

私はビデオをモデルにアップロードし、「ビデオの中のウェブサイトを復元する」と要求しました。

生成された結果（下図）は私の期待をはるかに超え、非常に高い復元度があり、ほぼ直接公開できるレベルです。

皆さんはこのウェブサイトで生成された結果を確認できます。

七、

簡単なテストを経て、私の評価は、Kimi K2.5 Agent の「視覚的プログラミング」はおもちゃではなく、実際に視覚理解能力があり、利用可能な結果を生成できるということです。

現在のところ、Kimi の今回の「モデル + Agent」の統合試みは成功しているようです。一方で、強力な Agent が基盤モデルの能力を引き出し、ユーザーが使いやすくなっています。他方、モデルは Agent を通じてさまざまなユースケースを拡張し、より多くのユーザーを引き付け、自身の普及に有利です。

最後に、現在の国際競争の構図の中で、統合にはさらなる利点がある。

Manus はアメリカのモデルに依存しており、結局は海外で会社を登録しなければならなかったが、Kimi の下位モデルは自社開発で、オープンソースで、完全に「技術的依存」のリスクがない。

（完）

おすすめ購読元

阮一峰的网络日志

一、

二、

三、

四、

五、

六、

七、