一、
前日、キミは突然旗艦モデルK2.5を発表し、事前に全くの風声もなかった。

国内では、キミは比較的控えめな会社であり、注目度も相応に低い。しかし、その製品は決して弱くない。
半年前、K2モデルは驚異的なパフォーマンスを披露し、高い評価を得て、世界的に第一陣と認められている。それゆえ、新モデルのK2.5が登場した後、すぐにニュースになり、ハッカーニュース、ツイッターなどのプラットフォームで人気のトピックとなった。
有名な開発者、サイモン・ウィリアムズはその日、詳細な紹介を書いた。

しかし、今回本当に面白いのは、モデルそのものではなく、キミが別のことをしたからだ。
二、
今回のK2.5は非常に強力で、K2よりも各方面で進歩しています。公式が提供する評価スコアは、基本的に世界トップ3で、時には1位です(リリースノート参照)。
LMArena(現在はarena.aiに改名)のランキングによると、Kimi K2.5のエンコード能力はオープンソースモデルの中で最も高く、総合ランキングではClaudeとGeminiに次ぐ2位です(下図)。

しかし、最大の注目点はモデルではなく、Kimiが同時にこのモデルに基づくAgent(エージェント)を発表したことです。
つまり、今回発表されたのは実質的に二つのもの:K2.5モデルとK2.5Agentです。。K2.5 は下層モデルであり、K2.5 Agent は最終ユーザー向けのネットワークアプリケーションです。

私の印象では、これが初めて大規模モデル会社がこんなことをするようだ。以前はモデルそのものが公開されていたが、モデルと Agent を一緒にリリースした例は見たことがありませんでした。
そう言えば、Kimi は統合化された道を歩んでいます。
三、
皆さんも知っているように、大規模モデルは下層の処理エンジンであり、Agent はユーザー向けの上層アプリケーションです。
それらの関係は主に二種類です:階層開発と統合。前者は大規模モデルと Agent が分かれており、それぞれ独立して開発されます。後者は一つの統合された全体として一緒に開発されます。
最近、Meta 社が高額で買収した Manus は、階層開発の最良の例です。

Manus が使用するモデルは Anthropic 社の Claude で、それ自体が独立した知的体を開発し、最終的に買収されました。
その成功は多くの人を知的体の開発に鼓舞させました。なぜなら、モデルの開発には多大な投資が必要で、誰にでも簡単にできるわけではなく、知的体の開発には比較的少ない投資で、小さな開発者でも手が届くからです。
Kimi の今回の試みは、別の方向へ一大步を踏み出し、大規模モデルと Agent を組み合わせました。結局、大規模モデル会社が自らこの仕事をやる方が便利で、市場シェアの拡大やユーザーの獲得に有利です。
どちらのやり方が良いかは難しいと言えます。スマートフォンのように、Apple や Android の外部アプリはユーザーのニーズをよりよく満たすことができますが、標準装備のアプリはオペレーティングシステムと密接に統合されており、使い勝手がスムーズです。
四、
モデルのテストは既に多く行われていますが、ここで今回発表された K2.5 Agent をテストしてみます。
から分かるように、KimiはAgentを非常に重視しており、多くの心血を注いでいます。のリリースノートの大部分はAgentの機能を紹介しています。
中にはいくつかの一般的な機能があります:
(1)Kimi Office Agent:専門家級のWord、Excel、PowerPointファイルの生成。
(2)Kimi Code:Claude Codeを対象としたコマンドラインツールで、コード生成専用。
(3)長期的な操作:最大1500ステップの操作を一度に完了できるようになり、これは明らかに多段階操作で知られるManusと比較されている。
私が特に注目しているのは、以下の2つの全く新しい機能で、これまで他社では言及されていなかった。
(4)視覚プログラミング:モデルの視覚能力を通じて、画像や動画を理解し、それをプログラミングに活用する。デザイン画とウェブビデオをアップロードするだけで、ウェブサイトを生成できる。
(5)蜂群機能(agent swarm):複雑なタスクに直面した際、Agentは内部で最大100個のAgentを自動的に呼び出し、それらをクラスタとして組み合わせ、並列でタスクを実行する。例えば、並列ダウンロードや並列生成など。
長さの都合上、簡単に私の「視覚プログラミング」のテスト結果について触れるだけだ。
五、
まず、Kimiの公式ウェブサイトを開きます。K2.5はすでに公開されており、直接使用できます(下図)。

注意点として、モデルは「エージェントモード」のK2.5 Agentに切り替える必要があります。

最初のテストは動きの生成で、アニメーション効果の動画をアップロードし、それを生成させます。以下は元のアニメーションで、Lottieライブラリを使用して作成されています。

アップロード後、ウェブページでヒントを入力します:
動画内のアニメーション効果を、ウェブページ上で完全に再現してください
モデルはすぐに、これは橘猫がボールを遊ぶアニメーションであると推測しました。そして、驚いたことに、アニメーションの各フレームをキャプチャし、再現しました。

最終的には、Pythonを使用してSVGアニメーションファイルを生成しました。

しっぽ、目、小さな球が転がるアニメーション効果は、正確に再現されています。残念ながら、メインの小猫は複数のSVG形状で組み合わせられており、とても似せることができません。
皆さんはこのURLにアクセスして、最終的な効果とウェブページのコードを確認できます。
六、
次のテストは、ウェブサイトの動画をアップロードし、モデルがウェブサイトを生成するものです。
私はBilibiliで、ランダムに選んだデザイナーのウェブサイトの動画を見つけました。
皆さんはこのサイトを訪れて、元のウェブページの効果を見てください。

私はビデオをモデルにアップロードし、「ビデオの中のウェブサイトを復元する」と要求しました。
生成された結果(下図)は私の期待をはるかに超え、非常に高い復元度があり、ほぼ直接公開できるレベルです。


皆さんはこのウェブサイトで生成された結果を確認できます。
七、
簡単なテストを経て、私の評価は、Kimi K2.5 Agent の「視覚的プログラミング」はおもちゃではなく、実際に視覚理解能力があり、利用可能な結果を生成できるということです。
現在のところ、Kimi の今回の「モデル + Agent」の統合試みは成功しているようです。一方で、強力な Agent が基盤モデルの能力を引き出し、ユーザーが使いやすくなっています。他方、モデルは Agent を通じてさまざまなユースケースを拡張し、より多くのユーザーを引き付け、自身の普及に有利です。
最後に、現在の国際競争の構図の中で、統合にはさらなる利点がある。
Manus はアメリカのモデルに依存しており、結局は海外で会社を登録しなければならなかったが、Kimi の下位モデルは自社開発で、オープンソースで、完全に「技術的依存」のリスクがない。
(完)












