惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

SecWiki News
SecWiki News
I
InfoQ
The Cloudflare Blog
人人都是产品经理
人人都是产品经理
博客园 - Franky
T
Tailwind CSS Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
博客园_首页
罗磊的独立博客
V
V2EX
李成银的技术随笔
大猫的无限游戏
大猫的无限游戏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
True Tiger Recordings
Vercel News
Vercel News
Cyberwarzone
Cyberwarzone
Cisco Talos Blog
Cisco Talos Blog
F
Fox-IT International blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
M
Microsoft Research Blog - Microsoft Research
Know Your Adversary
Know Your Adversary
爱范儿
爱范儿
The Register - Security
The Register - Security
G
Google Developers Blog
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
S
Securelist
博客园 - 三生石上(FineUI控件)
Jina AI
Jina AI
T
Threat Research - Cisco Blogs
T
The Exploit Database - CXSecurity.com
S
SegmentFault 最新的问题
博客园 - 叶小钗
F
Fortinet All Blogs
Apple Machine Learning Research
Apple Machine Learning Research
宝玉的分享
宝玉的分享
博客园 - 聂微东
T
Threatpost
博客园 - 【当耐特】
D
Docker
P
Privacy & Cybersecurity Law Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
G
GRAHAM CLULEY
V
Visual Studio Blog
C
Cisco Blogs
IT之家
IT之家
S
Security Archives - TechRepublic
Latest news
Latest news
阮一峰的网络日志
阮一峰的网络日志

XINDOO

关于内卷,几个值得深想的洞察 当创作被 Skill 化:我用 AI 写了一部 320 章的长篇网文 AI第一剑,先斩程序员 AI 也会偷懒?这个 PUA 工具专治“摸鱼式编程” Gstack 深度解析:YC CEO 开源的 AI 工程团队 GitHub Trending霸榜!深度解析AI Coding辅助神器 Superpowers 深度探讨:从 OpenClaw 爆火,看 AI Agent 的真相与程序员的未来 我复刻了NotebookLM的信息图功能 我用AI写了部小说,这里是整个过程 [翻译]我在谷歌14年学到的21堂课 2万字吊打40万字:为什么我的“牛马Agent”比“数字分身”更聪明? 最近AI领域爆火的 Agent Skills 是什么? 从计算机科学的视角来看拖延症 一周改6个库后我悟了:AI时代,程序员正在退化成“甲方” 使用n8n做一个自动同步更新的Github项目问答机器人 Agent设计模式——第 20 章:优先级排序 Agent设计模式——第 1 章:提示词链 Agent设计模式——附录 D - 使用 AgentSpace 构建 Agent Agent设计模式——第 19 章:评估和监控 Agent设计模式——第 10 章:模型上下文协议 (MCP) Agent设计模式——第 21 章:探索和发现 Agent设计模式——智能体设计模式 Agent设计模式——第 11 章:目标设定和监控 Agent设计模式——第 9 章:学习和适应 Agent设计模式——第 16 章:资源感知优化 Agent设计模式——附录 G - 编码 Agent Agent设计模式——第 13 章:人机协同 Agent设计模式——第 17 章:推理技术 Agent设计模式——附录 F - 深入剖析:Agent 推理引擎的内部运作机制 Agent设计模式——章节目录 Agent设计模式—— Agent设计模式——术语表 Agent设计模式——第 7 章:多 Agent 协作 Agent设计模式——附录 E - 命令行界面中的 AI Agent Agent设计模式——附录 C - Agentic 框架快速概览 Agent设计模式——第 3 章:并行化 Agent设计模式——术语表 Agent设计模式——**常见问题解答:Agentic 设计模式** Agent设计模式——第 14 章:知识检索(RAG) Agent设计模式——第 18 章:Guardrails/安全模式 Agent设计模式——第 15 章:Agent 间通信(A2A) Agent设计模式——第 8 章:内存管理 Agent设计模式——第 12 章:异常处理和恢复 Agent设计模式——第 4 章:反思 Agent设计模式——附录 B - AI Agentic 交互:从图形界面到现实世界环境 Agent设计模式——第 5 章:工具使用(函数调用) Agent设计模式——结论 Agent设计模式——第 6 章:规划 Agent设计模式——第 2 章:路由 从经验主义到贝叶斯理论:如何排查线上问题 我用AI为自己造了一把安全的开发者“瑞士军刀”” 从LLM和MCP的协同过程看如何做优化 打通Dify与AI工具生态:将Workflow转为MCP工具的实践 一文了解知识库背后的技术RAG AI应用的五个级别:从入门到专家的进阶之路 一文入门AI圈最近爆火的MCP协议 HTTP/3:性能改进(第 2 部分) 为什么AI智能体需要工作流 如何用GPT-4o解读视频 json命令行处理神器jq介绍 OpenAI的结构化浅析 从大模型的原理到提示词优化 从经济学原理看团队分工合作 [翻译]关于人工智能的30个思考 从马斯洛需求层次理论谈职场激励 知识与智慧 如何使用大语言模型绘制专业图表 两个开源项目打造自己的大模型聚合平台 我让gpt4o给我推荐了一千多次书 得到了这些数据 用Langchain创建一个可以总结网页内容的Agent 推荐一个好用的命令行工具ShellGPT 关于ffmpeg height not divisible by 2的错误 使用Certbot解决https证书自动更新的问题 Spring Cache简明教程 软件开发中的抓大放小vs极致细节思维 OpenAI Assistants-API简明教程 OpenAI的多函数调用(Multiple Function Calling)简介 如何使用ffmpeg制作透明背景的视频 spring-kafka中ContainerProperties.AckMode详解 如何在地图上寻找最密集点的位置? IO密集型服务提升性能的三种方法 职场中的基本归因错误和自利归因 使用javax.validation.constraints校验参数合法性 Java Optional:让你的代码更优雅 ChatGPT函数调用初体验:让ChatGPT具备抓取网页文本的能力 如何使用ChatGPT提升自己的“码”力? 使用ffmpeg拼接两张图片 ThreadPoolExecutor——高效处理并发任务的必备良器 从CPU的视角看 多线程代码为什么那么难写! 使用ffmpeg缩小视频体积的几种方式 Linux parallel 命令使用手册 为什么说过早优化是万恶之源? Linux xargs命令介绍 深入理解Spring的事件通知机制 Java高并发之CyclicBarrier简介 聊一聊过度设计! 详解Redisson分布式限流的实现原理 Java中使用HashMap时指定初始化容量性能一定会更好吗? 如何用ffmpeg截取视频片段&截取时间不准确的坑 XINDOO的2022年年终总结
deepseek-r1祛魅:从过度热捧到理性认知⁠
2025-02-23 · via XINDOO


  最近deepseek-r1异常火爆,各大公众号纷纷推出deepseek相关文章,内容涵盖从原理介绍到部署教程,从模型评测到实践应用,分析文章层出不穷。deepseek甚至破圈进入其他领域,我在短视频中就看到外交部部长王毅提到了deepseek。从商业产品的视角来看,各大云厂商竞相提供完整版API,各大AI应用服务商也在积极布局,争相推出基于deepseek-r1的产品和服务,就连浓眉大眼的文心一言也接入了deepseek-r1。这种火爆程度丝毫不亚于ChatGPT刚刚诞生之时。
  这些现象不禁让人产生疑问:deepseek-r1是否代表着人工智能领域的一次革命性突破?它是否真的是一个全新的物种,具备超越以往AI模型的能力?它能否做到GPT做不到的事情?是否意味着我们不再需要精心编写提示词?然而,在这耀眼的光环背后,答案其实很简单:这些都不是,说白了,从应用的视角来看,它过火了,它只是一个处于第一梯队的大语言模型(还是不是第一),接下来让我们通过这篇文章一起给他去去魅。 希望大家通过阅读这篇文章后,能够理性看待deepseek-r1,充分发挥它的真正价值。
  在深入了解这些现象之前,我们需要先厘清一些对Deepseek-r1的常见误解。这些误区不仅影响了人们对这一模型的认知,也可能导致在实际应用中产生不切实际的期待。让我们通过分析这些误区,来更准确地理解Deepseek-r1的真实能力和局限性。

五个常见误区

误区1:deepseek-r1远超其他模型

  首先来看第一个误区,虽然deepseek-r1在多个评测榜单上表现出色,但它并非远超其他模型,甚至在有些领域还弱于其他模型。不同的模型有不同的优势和劣势,适用于不同的应用场景。例如,claude-sonnet-3.5模型,目前依旧是编码最强的非推理模型,其编码能力也在deepseek-r1之上。而deepseek-r1的优势主要体现在性价比和中文理解上(下文详解)。
  我们先来看两个榜单,首先就是livebench上的评测结果,在榜单中可以明显看出deepseek-r1在代码、数学、数据分析上有明显领先。
在这里插入图片描述
  在lmarena的leaderboard上,deepseek-r1明显是第一梯度,但还不是最强。而且和后面的一些模型模型在比分上也没有明显的差距。
在这里插入图片描述

注:LiveBench通过标准测试集进行客观评测,反映出模型的客观能力水平。而lmarena则基于全球用户的实际对话进行评测,反映出的是用户对模型的主观评价。客观评价和主观评价略有差异,属于正常现象。

误区2:deepseek-r1是一个全新物种

  在学习大模型使用时,我们都会接触到一个重要概念:思维链(COT),即让模型通过分步骤的方式来思考问题。以数学问题为例,模型会先理解问题内容,然后列出解题步骤,最后逐步得出答案。在使用传统大语言模型(如gpt-4o)时,用户需要主动指示模型使用思维链,有时甚至需要详细说明思考过程。而deepseek-r1的独特之处在于,它在训练阶段就被优化为自主使用思维链来解决问题,即便用户不特别要求,它也会自发采用这种方法。这种内置的思维链能力确实提升了它处理复杂问题的表现,但本质上这仍是对现有技术的优化,而非革命性突破。
  这种优化主要体现在训练方式和架构设计上。模型在训练阶段接受了大量思维链示例,从而培养出自然运用逐步推理的能力。虽然这提升了模型的推理能力和实用性,但本质上仍是在现有大语言模型框架内的改进。简而言之,deepseek-r1只是一个特别擅长使用思维链的大语言模型。

误区3:不再需要提示词

  我也看到一些博主发表过类似"不需要提示词"的文章。然而实际上,deepseek-r1的本质仍是基于Transformer架构的大语言模型,其核心功能是计算下一个token的概率分布。因此,提示词依然会显著影响其内容生成的质量,所以之前大家了解到的各种提示词技巧依旧适用。好的提示词能够引导模型产出更准确、更符合预期的内容。尽管deepseek-r1在部分场景下对提示词的要求可能相对宽松(具体案例将在下文优点部分详述),但这并不代表我们可以完全忽视提示词的设计。

  这里再次推荐下我之前写的一篇文章《从大模型的原理到提示词优化》,可以从原理的视角了解如何写好提示词。

误区4:各种蒸馏版本和满血版的关系

  由于DeepSeek突然爆火而遭受攻击,官网持续无法访问,这种情况反而促进了本地化部署方案的流行。目前最常用的本地部署方案是借助Ollama,但由于过于火爆,Ollama的服务器也一度因流量过载而陷入瘫痪。
在这里插入图片描述

  Ollama官网上提供了从1.5b到671b多个版本的模型,其中只有671b被大家称为满血版,其他都是残血版,其效果大打折扣。 大家都以为残血版是deepseek-r1蒸馏出来的,实际上这些版本都是使用deepseek-r1的数据,做过微调的其他开源模型。 比如大家最常部署的deepseek-r1:7b(大部分人能部署的最大版本),其实就是qwen2.5,同样是qwen2.5的还有14b和32b,像8b和70b基座模型是llama3模型。
  没想到吧,你以为它们都是deepseek-r1的亲儿子,但其实都是收养过来的。 总结起来其实都是已有开源模型,借助deepseek-r1的数据,通过微调使其学会深度思考,从而提升其性能,但模型的性能终究受限于基础模型的原生性能——比如一个7B参数的模型,再怎么优化也很难强于更大参数规模的模型。

误区5:deepseek-r1能完全取代人类工作

  这个误区本质上是由deepseek-r1的过度过火导致的。从前面的分析可以看出,deepseek-r1相比现有的头部模型,能力并没有质的提升,但大家对它的反应却异常强烈。
  回顾ChatGPT刚诞生时,也曾引发类似的反应(认为AI将完全取代人类工作),但两年多过去后,大家的态度已经趋于理性。这次的情况与ChatGPT初期很相似,只是影响范围更广——ChatGPT最初主要影响技术圈,而deepseek-r1确实实现了"破圈"。在我春节回家时,甚至连从事土木、机械等专业的亲友都在谈论deepseek。简而言之,现在关于人类工作被完全取代的说法,其实就是2022年ChatGPT引发的"AI取代论"在非技术圈的重演。

deepseek-r1的优缺点

  通过前面的分析,我们已经厘清了一些关于deepseek-r1的常见误区。接下来,让我们深入探讨它的实际优缺点,通过具体的数据和案例来展示这个模型在实际应用中的表现。这样的分析将帮助我们更好地理解它的实际应用价值和局限性。

优点

价格便宜且极具性价比

  这个我们直接看下图表就知道了,下图是各家代表性模型性能和价格的分布图,图中横轴代表每百万token的价格(美元),纵轴表示智能程度。 可以看到,deepseek-r1明显位于左上角区域,其智能程度超过o1-mini,但价格却不到后者的四分之一。值得注意的是,其实o3-mini同样具有很高的性价比。

在这里插入图片描述

提示词要求弱化

  在实际使用过程中,我发现deepseek-r1对于提示词的要求有明显的降低,比如在写作任务中,只需要简单地描述需求,它就能理解任务意图并生成高质量的内容。例如,当要求写一篇产品介绍文章时,不需要详细说明文章结构、语气和风格,只需给出产品名称和核心功能,deepseek-r1就能生成符合预期的内容。这种降低提示词要求的特性大大提升了使用效率,特别适合AI新手。 长时间使用后,你就会发现很多时候,它推理过程中的内容,其实就是你原本应该给大语言模型的提示词。

  让我们通过一个简单的案例来对比 deepseek-r1 和 gpt-4o 的表现差异——让两个模型分别生成一段自我介绍。
在这里插入图片描述

  我只使用了一个简单的提示"生成一段自我介绍",没有提供任何额外信息或要求,但能明显看出 deepseek-r1 生成的内容更加正式、实用。这得益于它的反思机制——在反思过程中,它能准确推测用户意图并给出相应方案。相比之下,其他非推理模型往往需要更详细的提示才能生成符合要求的内容。

在编码、数学、数据分析上有明显优势

  这里很难通过具体的案例来给大家展现了,我们还是直接看下livebench.ai的客观评测结果:
在这里插入图片描述
  deepseek-r1在总榜单上位列第三(仅次于o3-mini-high和o1),同时在数学、数据分析和编码能力的分榜上分别排名第一、第二和第四,显然属于世界顶尖水平。

文学素养很高

  我之前使用相同的提示词对比了deepseek-r1、o3-mini-medium(OpenAI最强模型)和gemini-2.0-flash-thinking(谷歌最强模型)的文学素养。相较之下,deepseek-r1生成的结果直接惊艳到我了,下面让我们直接看看对比结果:
在这里插入图片描述

  尽管我个人文学素养有限,特别是对屈原作品也并不熟知,但从 deepseek-r1 能够巧妙地融入屈原的诗句这一点来看,它在文学创作方面确实展现出了独特的优势。
  这里再贴一个,大家自行感受下孰优孰劣。

在这里插入图片描述

缺点

响应速度慢

  这种速度问题体现在两个方面。首先,推理过程耗时较长。从上文的几个示例可以看出,即使是生成简短的内容,deepseek-r1也需要额外花费十几秒来进行推理,有些复杂的推理过程,耗费时间可能超过1分钟。
  其次,与其他大语言模型相比,deepseek-r1的内容生成速度明显较慢。让我们来看一下各大头部模型token生成速度的分布图:

在这里插入图片描述

  依旧是各家的代表模型,上图横轴代表生成速度,纵轴代表智能程度,可以看出在头部模型中,deepseek家族的两个模型生成速度基本上处于垫底的水平,每秒仅可生成30tokens左右,而同级别的o1-mini生成速度是其5倍。
  这种速度问题限制了deepseek-r1的应用场景,特别是在需要快速响应的场景中,它就不可能是最好的选择了。 额外说一点,其实从性能、价格、速度这三个维度综合来看,我觉得gemini-2.0-flash其实是最好的选择,重点是个人开发者还可以白嫖。

不支持多模态

  作为一个纯语言模型,deepseek-r1目前仍然缺乏处理图像内容的能力,而其他家的模型早已都支持了多模态。虽然deepseek官方已开源了Janus,但尚未应用在其AI产品上。不过我预计今年一定会实现,届时当deepseek-r1及后续更强大的模型接入多模态功能后,其应用场景将大幅拓展。

  最后让我们总结一下deepseek-r1的主要优缺点:

优点 缺点
极高的性价比,价格远低于同等性能的其他模型 响应速度较慢,包括推理过程和内容生成速度
对提示词要求低,易于使用,特别适合AI新手 缺乏多模态功能,目前仅支持文本处理
在编码、数学和数据分析领域表现出色
具有较高的文学素养,能生成优质的文学内容

  总的来说,deepseek-r1的主要局限在于响应速度慢以及缺乏多模态功能。不过对大多数用户而言,多模态功能也不是刚需,那就只有速度慢一点了,期待官方之后能提升下生成速度。

结语

  春节期间最热门的两个话题分别是 deepseek 和《哪吒2》。它们的爆火不仅源于卓越的品质,更因为它们都展现了中国在各自领域从追赶者到引领者的转变,这让国人倍感振奋。然而,在这份振奋之余,我们仍需保持理性,避免盲目追捧或过度解读。
  实际上,deepseek-r1的爆火更像是技术演进与市场情绪共振的产物——它既非横空出世,也非颠覆性创新,而是在大模型竞赛中的一次精准超车。其核心竞争力体现在工程化落地的精准定位上:通过优化思维链机制降低使用门槛,借助性价比优势进入企业服务市场,并凭借中文领域的深耕建立差异化优势。这些策略让它在头部模型的激烈竞争中开辟了突破口,但本质上仍是现有技术框架下的效率革新。
  对于开发者而言,与其追逐短期热度,不如冷静评估三个关键维度:当业务需要低成本的中文内容生成、弱提示依赖的交互设计或高性价比的代码辅助时,deepseek-r1是理想选择;但在实时交互场景、多模态处理需求或超高精度推理任务方面,当前版本仍有明显局限。这种工具属性的区分,正印证了人工智能发展的基本规律——没有全能冠军,只有场景专家。
  这场热潮背后反映出更深层的趋势:随着技术迭代进入平台期,市场对垂直领域优化和成本控制能力的重视已超越了对参数规模的盲目追求。deepseek-r1的成功表明,当基础能力达到一定水平后,工程实现的艺术可能比学术指标的突破更具商业价值。但历史经验提醒我们,任何技术热潮都将经历"期望膨胀-泡沫破灭-理性爬升"的周期,保持清醒的产品思维,才是穿越技术炒作周期的关键。

参考资料

1.Lmarena leaderboard
2.Livebench
3.极客时间《DeepSeek-R1 前沿入门课》
4.AI models analysis AI Model & API Providers Analysis | Artificial Analysis