补充 benchlm.ai 网站缺失的 2022年及更早的历史记录
数据来源:LMSYS Blog、Wikipedia、History.com、llm-timeline.com、toloka.ai、多方交叉验证
⚠️ 关键说明
Chatbot Arena(竞技场)于 2023年5月 才上线,所以它从 2023年5月开始记录王座更替。在这之前,没有统一的 Elo 投票排名系统。以下是 2022年及更早的"事实上的最强AI模型"历史,根据当时各模型的能力表现和行业公认度整理。
📜 完整时间线
🏛️ 前传时代(2017-2021)
| 时间 | 事件 | "事实上的王者" |
|---|---|---|
| 2017年6月 | Google 发表 "Attention Is All You Need",Transformer 架构诞生 | — (奠基时代) |
| 2018年6月 | OpenAI 发布 GPT-1(1.17亿参数) | GPT-1 |
| 2018年10月 | Google 发布 BERT(3.4亿参数),刷新11项 NLP 纪录 | BERT 成为 NLP 新标准 |
| 2019年2月 | OpenAI 发布 GPT-2(15亿参数),因"太危险"一度拒绝公开 | GPT-2 |
| 2019年10月 | Google 发布 T5(110亿参数)、XLNet 等 | BERT/GPT-2 并行时代 |
| 2020年6月 | OpenAI 发布 GPT-3(1750亿参数),质的飞跃 | 🏆 GPT-3 绝对统治 |
| 2020年-2021年 | Google 发布 Switch Transformer(1.6万亿参数)、PaLM(5400亿参数) | 🏆 GPT-3 仍为公认最强对话模型 |
| 2021年 | 中国:百度 ERNIE 3.0、阿里 M6、华为 PanGu-α 发布 | 🏆 GPT-3 继续统治 |
🔥 ChatGPT 革命(2022)
| 时间 | 事件 | "事实上的王者" |
|---|---|---|
| 2022年初 | Google 发布 LaMDA、Meta 发布 OPT-175B | 🏆 GPT-3(通过 API 服务) |
| 2022年10月 | Meta 发布 LLaMA(未公开,后泄露) | 🏆 GPT-3 |
| 2022年11月30日 | 🔥 ChatGPT(GPT-3.5)发布,5天100万用户,2个月1亿用户 | 🏆🏆🏆 GPT-3.5 / ChatGPT 碾压一切 |
| 2022年12月 | 全民 AI 热潮爆发,ChatGPT 被称为"史上增长最快消费级应用" | 🏆 ChatGPT(GPT-3.5) |
💡 2022年11月 ChatGPT 的发布是 AI 历史的分水岭。在此之前 GPT-3 是"圈内人的工具",ChatGPT 让 AI 走向了大众。
🏟️ Arena 竞技场时代(2023年5月起)
| 时间 | 👑 新王者 | 击败前王者 | 备注 |
|---|---|---|---|
| 2023年5月 | Vicuna-13B (LMSYS) | — | Arena 首次上线,开源模型首次有排名 |
| 2023年6月 | Guanaco-33B (UW) | Vicuna-13B | 开源社区内部竞争 |
| 2023年7月 | Vicuna-33B (LMSYS) | Guanaco-33B | |
| 2023年10月 | WizardLM-70B (Microsoft) | Vicuna-33B | 微软首次登顶 |
| 2023年12月 | GPT-4-0314 (OpenAI) 🔥 | WizardLM-70B | OpenAI 首次登顶 Arena,开启 GPT-4 王朝 |
| 2024年2月 | GPT-4-0125-preview (OpenAI) | GPT-4-0314 | GPT-4 自我升级 |
| 2024年3月 | GPT-4-1106-preview (OpenAI) | GPT-4-0125-preview | |
| 2024年4月 | Claude 3 Opus (Anthropic) 🎉 | GPT-4-1106-preview | Anthropic 首次称王! |
| 2024年5月 | GPT-4-Turbo (OpenAI) | Claude 3 Opus | OpenAI 夺回 |
| 2024年6月 | GPT-4o (OpenAI) | GPT-4-Turbo | 多模态时代开启 |
| 2024年9月 | ChatGPT-4o-latest (OpenAI) | GPT-4o | |
| 2024年10月 | o1-preview (OpenAI) 🧠 | ChatGPT-4o-latest | 推理模型首次登顶! |
| 2025年1月 | o1 (OpenAI) | o1-preview | |
| 2025年2月 | DeepSeek-R1 (DeepSeek) 🇨🇳 | o1 | 中国模型首次称王!开源模型首次称王! |
| 2025年3月 | Grok-3 (xAI) | DeepSeek-R1 | xAI 首次登顶 |
| 2025年4月 | ChatGPT-4o-latest (OpenAI) | Grok-3 | OpenAI 再次夺回 |
| 2025年5月 | o3 (OpenAI) | ChatGPT-4o-latest | |
| 2025年7月 | Gemini 2.5 Pro (Google) 🌟 | o3 | Google 首次登顶!统治5个月(最长王朝) |
| 2025年12月 | Gemini 3 Pro (Google) | Gemini 2.5 Pro | Google 自我升级 |
| 2026年2月 | Claude Opus 4.6 Thinking (Anthropic) 🎉 | Gemini 3 Pro | Anthropic 再次称王! |
| 2026年3月 | Claude Opus 4.6 (Anthropic) | Claude Opus 4.6 Thinking | 内部交替 |
| 2026年4月 | Claude Opus 4.6 Thinking (Anthropic) | Claude Opus 4.6 | 回到 Thinking 版本 |
📊 王朝统计(完整版)
| 厂商 | 统治时长 | 占比 | 登顶次数 |
|---|---|---|---|
| OpenAI | ~16个月 | 34% | 8次 |
| ~7个月 | 15% | 2次 | |
| Anthropic | ~6个月 | 13% | 3次 |
| LMSYS | ~4个月 | 9% | 2次 |
| 微软 | ~2个月 | 4% | 1次 |
| UW | ~1个月 | 2% | 1次 |
| DeepSeek | ~1个月 | 2% | 1次 |
| xAI | ~1个月 | 2% | 1次 |
| GPT-3/ChatGPT(2022-23 Arena前) | ~18个月 | — | 事实统治 |
🗺️ 关键里程碑总结
2017 ──── Transformer 诞生(Google)
│
2018 ──── GPT-1(OpenAI)/ BERT(Google)
│
2019 ──── GPT-2(OpenAI)
│
2020 ──── GPT-3(OpenAI)══════════════╗
│ ║
2021 ──── GPT-3 继续统治 ║ ← OpenAI 绝对垄断期
│ ║
2022/11 ─ ChatGPT/GPT-3.5 发布 ════════╝
│ ↑ 史上增长最快的应用
2023/03 ─ GPT-4 发布
│
2023/05 ─ Chatbot Arena 上线 ════════════ 正式排名时代开始
│
2023/12 ─ GPT-4 首次 Arena 登顶
│
2024/04 ─ Claude 3 Opus 首次击败 GPT-4 ← Anthropic 首次称王
│
2024/10 ─ o1 推理模型登顶 ← 推理时代开始
│
2025/02 ─ DeepSeek-R1 称王 ← 🇨🇳 中国/开源首次登顶
│
2025/07 ─ Gemini 2.5 Pro 称王 ← Google 首次登顶,统治最长
│
2026/02 ─ Claude Opus 4.6 Thinking 称王 ← 当前王者
│
2026/05 ─ 现在(你在这里)
整理于 2026年5月19日























