🦙 被遗忘的先驱：Chatbot Arena 最早登顶的四款开源模型传奇

它们曾短暂地站在 AI 之巅，但几乎无人知晓。本文讲述 Vicuna、Guanaco、WizardLM 的崛起与沉寂。

写在前面

2026年5月，当 Claude Opus 4.6 和 GPT-5.5 为"地表最强AI"的头衔争得不可开交时，很少有人还记得：

三年前，登上 Chatbot Arena 王座的不是这些科技巨头，而是一群大学研究生用 $300 训练出来的开源模型。

它们的名字是：Vicuna-13B、Guanaco-33B、Vicuna-33B、WizardLM-70B。

在 GPT-4 还没有加入投票的 Arena 早期，这四个"小人物"轮流坐庄，书写了开源 AI 最浪漫的一段历史。

一、Vicuna-13B：$300 训练出的"ChatGPT 杀手"

🎯 身份档案

项目	信息
全名	Vicuna-13B
诞生日期	2023年3月30日
创建者	LMSYS Org（UC Berkeley + CMU + Stanford + UCSD）
核心成员	Wei-Lin Chiang（江威林）、Lianmin Zheng（郑廉明）、Ying Sheng 等
参数量	130亿（13B）
基础模型	Meta LLaMA-13B
训练数据	约 70,000 条 ShareGPT 用户对话
训练成本	约 $300（8块 A100 GPU，约1天）
训练数据来源	ShareGPT.com（用户分享的 ChatGPT 对话记录）

📖 诞生故事

2023年2月，Meta 发布了 LLaMA 模型。一个月后，Stanford 用 LLaMA-7B 微调出了 Alpaca，证明小模型也能对话。

UC Berkeley 的博士生 Wei-Lin Chiang（江威林） 和 Lianmin Zheng（郑廉明） 看到了更大的可能性：

"ChatGPT 很强，但它是黑箱。我们能不能用开源模型复现它的对话能力？"

他们的思路极其简洁：

去 ShareGPT.com 爬取了约 7万条 用户与 ChatGPT 的真实对话
清洗数据：去除低质量内容、分割过长对话
基于 LLaMA-13B 做指令微调（SFT）
用 SkyPilot（他们自己开发的云计算工具）在 8 块 A100 上训练

只花了 $300 和一天时间。

🏆 统治时刻

2023年3月30日，Vicuna-13B 发布。团队用 GPT-4 做"裁判"，对 Vicuna、ChatGPT、Bard、Alpaca、LLaMA 的回答进行盲评：

模型	相对 ChatGPT 的质量
Vicuna-13B	92%
Bard	88%
Alpaca-13B	68%
LLaMA-13B	45%

一个 $300 的开源模型，达到了 ChatGPT 92% 的质量！ 这在当时引起了轰动。Vicuna 的博客在几个月内获得 500+ 引用 和 数百万次 HuggingFace 下载。

Vicuna-13B 的成功直接催生了 Chatbot Arena。团队最初只是想给 Vicuna 做一个 Demo 网站，让人们对比不同模型的回答。后来他们灵机一动：

"如果把模型名字隐藏，让人们盲投呢？"

这就是 Chatbot Arena 的起源。

2023年5月3日，Arena 上线。在 GPT-4 加入投票之前，Vicuna-13B 以 Elo 1169 分登顶第一——尽管它的对手主要是开源模型。

🔮 后续发展

时间	版本	变化
2023年3月	Vicuna-13B v0	首版发布，基于 LLaMA
2023年4月	Vicuna-13B v1.1	重构分词器，改用 EOS 作为分隔符
2023年7月	Vicuna-33B	参数翻倍，登顶 Arena（7月）
2023年8月	Vicuna-7B/13B/33B v1.5	基于 LLaMA 2 重新训练，训练数据增至 125K 条
2023年8月	Vicuna-13B v1.5-16K	16K 上下文长度版本

📍 现状（2026年）

模型本身：Vicuna 早已退出了 Arena 排行榜（Elo ~1054，排在第200名开外）
但它创建的组织 LMSYS 已成为 AI 行业最权威的评测机构
Chatbot Arena（现名 Arena）于 2025年4月独立为公司，2026年1月以 $17亿估值 完成 A 轮融资
核心成员 Wei-Lin Chiang 和 Lianmin Zheng 后来开发了 SGLang（高效 LLM 推理框架），成为行业基础设施
FastChat（Vicuna 的底层框架）至今仍是许多开源聊天项目的基石

一句话评价：Vicuna 可能是 AI 历史上"性价比最高"的模型。$300 的训练成本催生了一个 $17亿的公司。

二、Guanaco-33B：一张 GPU，12小时，99%的 ChatGPT

🎯 身份档案

项目	信息
全名	Guanaco-33B
诞生日期	2023年5月23日
创建者	University of Washington（华盛顿大学）
核心作者	Tim Dettmers（博士生）、Artidoro Pagnoni、Ari Holtzman、Luke Zettlemoyer
参数量	330亿（33B）（还有 7B/13B/65B 版本）
基础模型	Meta LLaMA-33B
训练数据	OpenAssistant OASST1 数据集（约 9,000 条人工标注对话）
训练方法	QLoRA（4位量化 + 低秩适配）
训练成本	单张消费级 GPU，< 12小时
最大成就	65B 版本达到 ChatGPT 99.3% 的性能

📖 诞生故事

如果说 Vicuna 的故事是"用 ChatGPT 的数据训练开源模型"，那 Guanaco 的故事就是：

"能不能用更少的数据、更便宜的硬件，达到同样的效果？"

华盛顿大学的博士生 Tim Dettmers 是量化领域的顶尖专家。他开发了 bitsandbytes 库——几乎是所有 LLM 量化的基础工具。2023年春天，他提出了一个革命性的想法：

"如果把模型量化到 4 位，然后用 LoRA 做微调，能不能在消费级 GPU 上训练 65B 参数的模型？"

答案是：可以。

QLoRA 的三大创新：

4-bit NormalFloat (NF4)：针对正态分布权重优化的 4 位数据类型
双重量化 (Double Quantization)：把量化常数本身也量化，进一步节省内存
分页优化器 (Paged Optimizers)：处理内存峰值

结果是惊人的：

模型	训练硬件	训练时间	Vicuna 基准得分
Guanaco-7B	5GB 显存	数小时	超过 Alpaca-13B 20+ 百分点
Guanaco-33B	单张消费级 GPU	< 12小时	ChatGPT 的 97.8%
Guanaco-65B	单张专业 GPU (48GB)	24小时	ChatGPT 的 99.3%

论文在 arxiv 上发布后立即引爆社区。NeurIPS 2023 收录，目前被引超 650 次。

🏆 统治时刻

2023年6月，Guanaco-33B 在 Chatbot Arena 以 Elo 1065 击败 Vicuna-13B（Elo 1061），登顶第一。

但它的统治极其短暂——大约只维持了一个月。2023年7月，参数更多的 Vicuna-33B 发布，重新夺回王座。

🦙 为什么叫"Guanaco"？

Guanaco（原驼）是南美洲的一种野生动物，是羊驼（Llama）的近亲。这个命名完美呼应了它的基础模型 LLaMA（大羊驼）。整个 2023 年上半年，AI 社区的模型几乎都以动物命名：Alpaca（羊驼）、Vicuna（小羊驼）、Koala（考拉）、Guanaco（原驼）……

🔮 后续发展

时间	事件
2023年5月	QLoRA 论文 + Guanaco 发布
2023年6月	Guanaco-33B 短暂登顶 Arena
2023年下半年	QLoRA 方法被广泛采用，成为开源社区微调 LLM 的标准工具
2024年起	Tim Dettmers 继续在量化领域深耕，bitsandbytes 成为 Hugging Face 集成的核心组件

📍 现状（2026年）

Guanaco 模型本身：早已退出历史舞台，Arena 上不再出现
但 QLoRA 的影响是永恒的：它彻底改变了开源社区微调大模型的方式
今天几乎所有开源模型的微调都使用了 QLoRA 或其变体
Tim Dettmers 的 bitsandbytes 库仍然是 AI 基础设施的重要组成部分
华盛顿大学自然语言处理实验室（Luke Zettlemoyer 教授领导）继续是 NLP 研究重镇

一句话评价：Guanaco 模型虽已消失，但 QLoRA 方法永远改变了 AI。它让"任何人都能训练大模型"从口号变成了现实。

三、Vicuna-33B：升级版羊驼的短暂王朝

🎯 身份档案

项目	信息
全名	Vicuna-33B
诞生日期	2023年6月
创建者	LMSYS Org
参数量	330亿（33B）
基础模型	Meta LLaMA-33B
训练数据	ShareGPT 对话数据（与 Vicuna-13B 同源）

📖 诞生故事

Vicuna-33B 的故事很简单：把原来 13B 的配方放大到 33B。

同样的 ShareGPT 数据，同样的微调方法，只是基础模型从 LLaMA-13B 换成了 LLaMA-33B。参数量的提升直接带来了更好的对话质量和推理能力。

2023年6月22日，LMSYS 在博客中宣布了 Vicuna-33B 的加入，并同时引入了 MT-Bench——一个包含 80 道高质量多轮问题的评估基准。

🏆 统治时刻

2023年7月，Vicuna-33B 以 Elo 1096 在 Arena 登顶，击败了 Guanaco-33B。这标志着开源模型之间"参数量军备竞赛"的开始。

但 Vicuna-33B 的统治同样不长。2023年10月，微软的 WizardLM-70B 以 700亿参数的体量碾压了一切。

🔮 后续发展

2023年8月，LMSYS 发布了基于 LLaMA 2 的 Vicuna v1.5 系列（7B/13B/33B）
其中 Vicuna-13B-v1.5-16K 支持了 16K 上下文长度，在当时是最长上下文之一
Vicuna 系列模型在 HuggingFace 上的总下载量超过 数千万次
许多下游项目（如 StableVicuna、各种中文微调版本）都建立在 Vicuna 之上

📍 现状

与 Vicuna-13B 相同，已被新一代模型完全超越。但作为 Vicuna 家族的一员，它的历史地位已经通过 LMSYS → Chatbot Arena → Arena（$17亿估值）这条链路得到了验证。

四、WizardLM-70B：微软的"魔法师"与消失之谜

🎯 身份档案

项目	信息
全名	WizardLM-70B V1.0
诞生日期	2023年8月
创建者	Microsoft（微软）
核心作者	Can Xu 等
参数量	700亿（70B）
基础模型	Meta LLaMA-70B
核心技术	Evol-Instruct（进化指令）
衍生产品	WizardCoder、WizardMath

📖 诞生故事

WizardLM 背后的核心创新不是模型本身，而是 Evol-Instruct（进化指令） 技术。

传统的指令微调使用固定数据集。Evol-Instruct 的思路不同：

"让 LLM 自己生成越来越复杂的指令，然后用这些指令来训练自己。"

具体来说：

从一条简单的指令开始（如"写一首诗"）
用 GPT-4 把它"进化"成更复杂的版本（如"用五步抑扬格写一首关于量子物理的十四行诗"）
生成回答
用这些进化的（指令，回答）对来微调模型

这就像一个自动课程设计器，不断给 AI 出更难的题。

🏆 统治时刻

2023年10月，WizardLM-70B 在 Chatbot Arena 登顶，击败 Vicuna-33B。这是微软首次在 Arena 称王。

70B 的参数量在当时是开源模型的天花板。WizardLM-70B 的表现甚至让很多人质疑：

"这真的是开源模型吗？微软为什么要免费放出来？"

🧙 衍生家族

WizardLM 的 Evol-Instruct 技术催生了多个强大的衍生模型：

模型	基础	成就
WizardCoder-33B-V1.1	DeepSeek-Coder-33B	HumanEval 79.9 pass@1，超越 ChatGPT-3.5
WizardCoder-Python-34B	CodeLlama-34B	超越 GPT-4（2023/03版本）在 HumanEval
WizardMath-70B	LLaMA-2-70B	数学推理能力接近 GPT-4 水平

❓ 消失之谜：WizardLM-2 的诡异结局

2024年4月15日，微软发布了 WizardLM-2 系列：

WizardLM-2-7B
WizardLM-2-8x22B（基于 Mixtral 8x22B）
WizardLM-2-70B（即将发布）

社区测试显示 WizardLM-2-8x22B 性能极强，在许多任务上接近甚至超过 GPT-4。

然而，诡异的事情发生了：

发布仅一天后，所有 WizardLM-2 模型从 HuggingFace 被撤下
团队的 GitHub 仓库被清空
团队的 HuggingFace 页面消失
团队成员的 微软个人主页也被删除
官方声明："需要完成毒性测试（Toxicity Testing），1-2天后回来"

然后……再也没有回来。

社区的反应（来自 Reddit）：

"他们不只是删了模型。他们删了所有 WizardLM 版本、所有数据集、团队 GitHub、团队 HuggingFace、团队成员的微软页面。就像这个团队从来没存在过一样。"

"最可能的解释是：WizardLM-2 太强了，强到威胁到了 OpenAI 的商业利益，而微软是 OpenAI 最大的投资者。"

"微软让 Phi 系列继续存在，因为 Phi 不会威胁 GPT-4。但 WizardLM-2 如果基于 Llama 3 继续发展，可能会做出真正与 GPT-4 竞争的开源模型——微软不会让这种事发生。"

虽然有人备份了 WizardLM-2-7B 和 8x22B，但那个传说中比 GPT-4 还强的 70B 版本，永远消失在了微软的服务器里。

📍 现状（2026年）

WizardLM 项目：已死亡。团队被微软内部解散或重组
Evol-Instruct 技术：被社区广泛继承，许多后续模型（如 Orca、Phi）都受到启发
WizardCoder/WizardMath：仍在 HuggingFace 上有第三方备份，但不再更新
微软后来转向了 Phi 系列（小而精的模型），放弃了在开源大模型上与 GPT 竞争

一句话评价：WizardLM 是被商业利益扼杀的开源英雄。它的死证明了：在 AI 战争中，模型不是战死的，是被自己人杀死的。

五、它们的历史遗产

对比总结

模型	统治时间	训练成本	参数量	核心贡献	现状
Vicuna-13B	~1个月	$300	13B	催生了 Chatbot Arena	模型退役，Arena 独立成 $17亿公司
Guanaco-33B	~1个月	~$100	33B	QLoRA 方法革命	模型退役，QLoRA 成为行业标准
Vicuna-33B	~3个月	~$600	33B	开源参数竞赛	模型退役，FastChat 框架仍在使用
WizardLM-70B	~2个月	数千$	70B	Evol-Instruct 技术	项目被微软杀死，技术被社区继承

它们改变了什么？

"开源能追赶闭源" 的信念——Vicuna 和 Guanaco 证明了这一点
"微调不需要百万美元" ——QLoRA 让普通研究者也能训练大模型
"模型评价应该由用户决定" ——Arena 从 Vicuna 的 Demo 诞生
"大公司会扼杀威胁自己的开源项目" ——WizardLM-2 的消失

它们的精神继承者

2023年的先驱	2026年的继承者
Vicuna →	Chatbot Arena（$17亿估值）
Guanaco/QLoRA →	所有现代微调方法
WizardLM/Evol-Instruct →	DeepSeek-R1（自我进化推理）
开源模型的集体精神 →	Kimi K2.6、GLM-5.1、MiMo-V2.5

结语

2023年春夏，一群没有商业利益驱动的学生和研究者，用 $300 和几张消费级 GPU，短暂地登上了 AI 世界的王座。

他们不是 OpenAI，不是 Google，不是 Anthropic。

他们只是相信：AI 应该是开源的、可复现的、属于每个人的。

Vicuna、Guanaco、WizardLM——这些名字可能永远不会出现在科技头条上。但当你打开 Chatbot Arena 投下一票时，当你在 HuggingFace 上看到 QLoRA 微调按钮时，当你看到 DeepSeek-R1 用自我进化技术接近闭源模型时——

它们的精神仍然活着。

参考资料：LMSYS Blog、HuggingFace、arxiv (QLoRA 论文)、Reddit r/LocalLLaMA、latent.space 播客、aiwiki.ai、the-decoder.com
撰写日期：2026年5月19日

推荐订阅源

DEV Community

写在前面

一、Vicuna-13B：$300 训练出的"ChatGPT 杀手"

🎯 身份档案

📖 诞生故事

🏆 统治时刻

🔮 后续发展

📍 现状（2026年）

二、Guanaco-33B：一张 GPU，12小时，99%的 ChatGPT

🎯 身份档案

📖 诞生故事

🏆 统治时刻

🦙 为什么叫"Guanaco"？

🔮 后续发展

📍 现状（2026年）

三、Vicuna-33B：升级版羊驼的短暂王朝

🎯 身份档案

📖 诞生故事

🏆 统治时刻

🔮 后续发展

📍 现状

四、WizardLM-70B：微软的"魔法师"与消失之谜

🎯 身份档案

📖 诞生故事

🏆 统治时刻

🧙 衍生家族

❓ 消失之谜：WizardLM-2 的诡异结局

📍 现状（2026年）

五、它们的历史遗产

对比总结

它们改变了什么？

它们的精神继承者

结语