Kimi의 통합화, Manus의 계층화

제1조,

어제, Kimi가 갑자기 최신 모델 K2.5를 발표했는데, 사전에 아무런 소문도 없었습니다.

중국 내에서 Kimi는 비교적 조용한 회사로, 주목도가 상대적으로 낮습니다. 하지만 그들의 제품은 부족하지 않습니다.

6개월 전, K2 모델이 큰 화제를 모으며 높은 평가를 받았고, 전 세계 최상위권으로 인정받았습니다. 따라서 새로운 버전인 K2.5가 출시되자마자 뉴스에 소개되었고, 해커 뉴스, 트위터 등 다양한 플랫폼에서 인기 주제가 되었습니다.

유명 개발자 Simon Willion은 당일 바로 상세한 소개를 작성했습니다.

하지만 이번에는 진정으로 흥미로운 점은 모델 자체가 아니라, Kimi가 또 다른 일을 했기 때문입니다.

제2조,

이번 K2.5가 매우 강력하며, 모든 면에서 K2보다 발전했습니다. 공식에서 제공하는 평가 점수는 대부분 전 세계 상위 3위 내에 있으며, 심지어 1위(참조 출시 설명).

LMArena(현재 arena.ai로 변경)의 목록에 따르면, Kimi K2.5의 인코딩 능력은 모든 오픈 소스 모델 중 최고이며, 총 목록에서는 Claude와 Gemini 다음으로 2위(아래 그림).

그러나 가장 큰 특징은 실제로 모델이 아니라, Kimi가 이 모델을 기반으로 한 Agent(지능체)를 동시에 출시했습니다.

즉, 이번에 실제로는 두 가지를 동시에 출시했습니다: K2.5 모델과 K2.5 Agent입니다. K2.5은 하드웨어 모델이며, K2.5 Agent는 최종 사용자를 대상으로 한 네트워크 애플리케이션입니다.

제가 기억하는 바로는, 이번이 처음으로 대형 모델 회사가 이렇게 했다는 것입니다. 이전에는 모델 자체만 출시했었는데, 모델과 Agent를 함께 출시한 경우는 본 적이 없었습니다.

그렇다고 해서, Kimi는 통합화된 길을 걷고 있습니다.

세 번째,

대부분의 사람들은 대형 모델이 하드웨어 처리 엔진이며, Agent는 사용자를 대상으로 한 상위 애플리케이션이라는 것을 알고 있습니다.

그들의 관계는 대체로 두 가지입니다: 계층화 개발과 통합화 .前者는 대형 모델과 Agent가 분리되어 각각 개발되는 것이며, 후자는 하나의 통합된 형태로 함께 개발되는 것입니다.

간혹 전에 Meta 회사에 높은 가격으로 인수된 Manus는 계층화 개발의 가장 좋은 예시입니다.

Manus는 Anthropic 회사의 Claude 모델을 사용했으며, 자신이 독립적인 지능체를 개발하여 최종적으로 인수되었습니다.

그 성공은 많은 사람들이 지능체 개발에 뛰어들도록 격려했습니다. 모델 개발에는 막대한 투자가 필요하여 누구나 할 수 있는 것이 아니지만, 지능체 개발에는 투자 비용이 적어 작은 개발자들도 할 수 있습니다.

Kimi의 이번 시도는 다른 방향으로 큰 발을 내디뎠으며, 큰 모델과 Agent를 결합했습니다. 결국 큰 모델 회사가 직접 이 일을 하면 더 편리하며 시장 점유율을 확대하고 사용자를 유치하는 데 유리합니다.

이 두 가지 방법 중 어느 것이 더 좋다고 단정하기는 어렵습니다. 스마트폰처럼, 애플과 안드로이드 외부 앱은 사용자 요구를 더 잘 충족시키지만, 내장 앱은 운영체제와 원활하게 통합되어 사용하기 더 부드럽습니다.

네,

모델 테스트는 이미 많이 진행되었으며, 이번에 발표된 K2.5 Agent를 테스트해보겠습니다.

Kimi가 Agent을 매우 중요하게 생각하고 많은 노력을 기울였다는 것을 알 수 있습니다. 발표 자료 의 대부분은 Agent의 기능을 소개하고 있습니다.

그 중 몇 가지 기능은 비교적 일반적입니다:

(1) Kimi Office Agent : 전문가 수준의 Word, Excel, PowerPoint 파일 생성.

(2) Kimi Code : Claude Code와 동일한 명령줄 도구로, 코드 생성을 전문적으로 사용합니다.

(3) 장기 작업：최대 1500단계의 작업을 한 번에 완료할 수 있으며, 이는 명백히 다단계 작업으로 유명한 Manus와 대비됩니다.

저는 다음 두 가지 새로운 기능에 더 신경 써요. 처음 보는 기능이고, 다른 회사에서는 언급한 적이 없어요.

(4) 시각적 프로그래밍：모델의 시각적 능력을 통해 이미지와 비디오를 이해하고, 이를 프로그래밍에 활용합니다. 디자인 스케치와 웹 비디오를 업로드하면 웹페이지를 생성할 수 있습니다.

(5) 무리 기능 (agent swarm)：복잡한 작업을 만났을 때, Agent 내부에서 최대 100개의 Agent를 자동으로 호출하여 클러스터를 구성하고, 병렬로 작업을 실행합니다. 예를 들어, 병렬 다운로드나 병렬 생성 등이 있습니다.

글자 수 제한으로 인해, 제 "시각적 프로그래밍" 테스트 결과는 간단히 말씀드리겠습니다.

五、

먼저, Kimi 공식 웹사이트를 엽니다. K2.5는 이미 온라인 상태이며 바로 사용할 수 있습니다 (아래 그림).

참고로, 모델을 "지능형 에이전트 모드" K2.5 Agent로 전환해야 합니다.

제 첫 번째 테스트는 애니메이션 생성으로, 애니메이션 영상을 업로드하여 생성하도록 합니다. 아래는 원본 애니메이션으로, Lottie 라이브러리를 사용하여 만들었습니다.

업로드 후, 웹사이트에 프롬프트를 입력합니다:

영상 속 애니메이션 효과를 웹사이트에 정확히 재현해주세요

모델은 빠르게 추론하여 이것이 오렌지 고양이가 공을 놀리는 애니메이션이라고 인식했습니다. 그런데 놀랍게도 애니메이션의 각 프레임을 캡처하여 재현했습니다.

마지막으로, Python을 사용하여 SVG 애니메이션 파일을 생성했습니다.

꼬리, 눈동자, 작은 공이 굴리는 애니메이션 효과는 모두 정확하게 재현되었습니다. 아쉬운 점은 주체인 작은 고양이가 여러 개의 SVG 형태로 이어붙여져 있어서 정말 비슷하게 만들 수 없다는 것입니다.

모두가 갈 수 있습니다이 웹사이트 주소최종 결과와 웹 페이지 코드를 확인하세요.

6.

두 번째 테스트는 웹사이트 비디오를 업로드하여 모델이 웹사이트를 생성하도록 하는 것입니다.

나는 Bilibili에서 아무렇게나 찾았어디자이너 웹사이트의 비디오。

모두가 방문할 수 있습니다.이 웹사이트원본 웹페이지의 효과를 확인해 보세요.

나는 비디오를 모델에 업로드한 후 "비디오 안의 웹사이트를 복원하라"라고 요청했습니다.

생성된 결과(아래 그림)는 제 예상을 완전히 초과했으며, 복원도가 매우 높아 거의 직접 출시할 수 있습니다.

모두가 이 웹사이트 에서 생성된 결과를 확인할 수 있습니다.

7.

간단한 테스트를 통해 제 평가는 Kimi K2.5 Agent의 "시각적 프로그래밍"이 허세가 아니라 실제 시각적 이해 능력이 있으며, 사용 가능한 결과를 생성할 수 있다는 것입니다.

현재로서는 Kimi의 이번 "모델 + Agent"의 통합 시도가 성공적이라 보입니다. 한편으로는 강력한 Agent가 하위 모델의 능력을 발휘하여 사용자에게 편리함을 제공했으며, 다른 한편으로는 모델이 Agent를 통해 다양한 사용 사례를 확장하여 더 많은 사용자를 유치하고 자신의 홍보에 유리합니다.

마지막으로, 현재 국제 경쟁 구도 속에서 통합은 또 다른 추가적인 이점이 있습니다.

Manus는 미국 모델에 의존하기 때문에 결국 해외에 회사를 등록해야 했으며, Kimi의 하드웨어 모델은 자체 개발되었고 오픈 소스이며, 완전히 '목장'의 위험이 없습니다.

（완）

추천 피드

阮一峰的网络日志

제1조,

제2조,

세 번째,

네,

五、

6.

7.