惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Troy Hunt's Blog
GbyAI
GbyAI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
月光博客
月光博客
Engineering at Meta
Engineering at Meta
The Register - Security
The Register - Security
阮一峰的网络日志
阮一峰的网络日志
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
F
Fortinet All Blogs
博客园 - 司徒正美
博客园 - 聂微东
T
Tailwind CSS Blog
MyScale Blog
MyScale Blog
Microsoft Security Blog
Microsoft Security Blog
Jina AI
Jina AI
A
About on SuperTechFans
Y
Y Combinator Blog
N
Netflix TechBlog - Medium
V
V2EX
I
InfoQ
WordPress大学
WordPress大学
小众软件
小众软件
The Cloudflare Blog
Recent Announcements
Recent Announcements
U
Unit 42
The Last Watchdog
The Last Watchdog
P
Palo Alto Networks Blog
Vercel News
Vercel News
罗磊的独立博客
H
Hackread – Cybersecurity News, Data Breaches, AI and More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
M
MIT News - Artificial intelligence
Project Zero
Project Zero
美团技术团队
L
LangChain Blog
S
Security @ Cisco Blogs
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Last Week in AI
Last Week in AI
W
WeLiveSecurity
S
Securelist
H
Hacker News: Front Page
K
Kaspersky official blog
Martin Fowler
Martin Fowler
Know Your Adversary
Know Your Adversary
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
J
Java Code Geeks
P
Proofpoint News Feed
有赞技术团队
有赞技术团队
Google Online Security Blog
Google Online Security Blog
D
DataBreaches.Net

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
(3)思维链 - 少数派
2024-09-24 · via 少数派

思维生成包含一系列技术,可促使 LLM 在解决问题时阐明其推理过程。常见的方式包括思维链(Chain-of-Thought,CoT)

近期,OpenAI推出了新模型o1-preview和o1-mini。我觉得本质上就是一个提示词前置的过程,将思维链内置到模型内。这本身应该是模型工程化的一个发展方向。通过思维链分解大模型的思考行为,从而可以使用强化学习进行路径优化。

当然,新模型目前也带来了巨大的额外token消耗。

Chain-of-Thought (CoT) Prompting

适用场景:数学、符号推理
不适用场景:文本处理、普通对话回答问题

思维链(CoT)提示(​Wei, Jason, et al., 2022))是指利用提示词鼓励 LLM 在给出最终答案前表达其思考过程。研究表明​CoT 能帮助 LLM 解决涉及数学和符号推理的任务,至于其它任务,CoT 的效果并不显著甚至可能有损模型性能(​Sprague, et al., 2024)。

这种“思考”并不是真的思考,只是一种辅助它增强回答效果的手段。模型也并不是真的具有智能,本质上依然是给予更多信息来增加模型回答成功的概率。

零样本场景

最常见的CoT形式,通过给予大模型一个诱导性短语。如“让我们一步步思考”,“以循序渐进的方式解决这个问题”,“让我们一步步来判断答案是否正确”这类提示词通常与具体使用场景无关,是一句“万能咒语”。

后退提示:Step-Back Prompting​(Zhang, et al., 2023)

类似于第一性原理,后退提示是让大模型先提取高层次的概念,然后再利用这些概念来指导推理路径。通常分为两步

  1. 抽象(Abstraction)
    在面对问题的时候,先提问“解决这个任务涉及哪些原理定律?”让模型给出所需用的原理。
  2. 推理(Reasoning)
    在上一步的基础上,再让模型回答问题。
    模板如下:
Here is a question or task: {{Question}}

Let's think step-by-step to answer this:

Step 1) Abstract the key concepts and principles relevant to this question:

Step 2) Use the abstractions to reason through the question:

Final Answer:
Step-Back Prompting​示例

整个操作等价于把所需知识+问题一并给大模型,让它来进行回答,我不觉得这属于什么推理能力,只是通过第一阶段诱导激活大模型的部分知识,并尽量排除不相关细节干扰,试图增加答案回答的准确度。原论文对于error cases的分析也证明了这一点,错误与提示词和前一阶段的原理通常无关,问题仍出现在大模型的推理阶段。


​Analogical Prompting​(Yasunaga et al., 2023)

自动生成CoT示例,适用场景:数学推理、代码生成

与SG-ICL类似,在零样本场景下希望能够自动生成示例变成少样本场景。这种自动生成的示例的稳定性并不能保证。该方法在数学推理以及代码生成任务中已被证明有效。模板如下:

# Problem: [x]
## Instructions
## Relevant problems: Recall three relevant and distinct problems. For each problem, describe it and explain the solution.
## Solve the initial problem:
Analogical Prompting​示例


Thread-of-Thought (ThoT) Prompting (Zhou et al., 2023)

适用场景:问题回答、配合RAG的答案检索、尤其是在大型复杂语境

思维线索(ThoT)以思维链提示为基础,改进了诱导方式,这种方法尤其适用于较长的问答设置,以及使用检索增强(RAG)生成大语境时。与 "让我们一步一步地思考 "相比,"思维导线 "的提示词是"Walk me through this context in manageable parts step by step, summarizing and analyzing as we go."( 让我一步一步地了解这个上下文,边总结和分析)。
说白了就是让模型总结上下文,排除无关干扰(总结),然后提高准确率。模板如下

{{Task}}
"Walk me through this context in manageable parts step by step, summarizing and analyzing as we go."

表格式思维链(Jin and Lu, 2023)

​表格式思维链​Tabular Chain-of-Thought (Tab-CoT)与ThoT类似,只是在推理步骤中使用了不同的格式。具体来说,它指示模型以结构化的格式(通常使用 markdown 表格)提供推理。这种结构化方法有助于提高模型输出的清晰度和条理性,使推理过程更容易理解。模板如下

Problem:[x]
|step|event|result|


少样本场景

​Contrastive CoT Prompting (Chia et al., 2023)

适用场景:数学推理、事实问答

将正确示例以及错误示例同时放置于提示词中给到大模型​,尝试向大模型表明应该如何推理/不要怎样推理。

Contrastive CoT Prompting

Uncertainty-Routed CoT Prompting (Google, 2023)

 不确定性导向思维链提示
适用场景:选择题

投票机制,​采样多个思维链推理路径进行推理,并设置一个投票阈值。统计每个选项的投票数,如果多数票比例低于阈值则重新生成答案,反之则是最终答案。

将传统的投票算法应用到大模型推理中,有点类似于agent的reflection机制。但是相当于n倍的token消耗,目前没有实际工程意义。


​Complexity-based Prompting (Fu et al., 2022)

提出了一个复杂度(Complexity)的概念,简单的理解为推理步骤越多往往意味着更高的答案质量。同时在两个方面得以应用:

  1. 在少样本选取的时候,选择复杂样例作为提示词
  2. 在推理阶段,采用类似上一个算法的投票选举,但是会设置一个推理长度阈值,超过阈值的推理过程才会被纳入投票环节。

参考文献

  1. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
  2. Sprague, Z., Yin, F., Rodriguez, J. D., Jiang, D., Wadhwa, M., Singhal, P., Zhao, X., Ye, X., Mahowald, K., & Durrett, G. (2024). To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning. arXiv.https://arxiv.org/abs/2409.12183
  3. Zheng, H. S., Mishra, S., Chen, X., Cheng, H. T., Chi, E. H., Le, Q. V., & Zhou, D. (2023). Take a step back: Evoking reasoning via abstraction in large language models. arXiv preprint arXiv:2310.06117.
  4. Yasunaga, M., Chen, X., Li, Y., Pasupat, P., Leskovec, J., Liang, P., ... & Zhou, D. (2023). Large language models as analogical reasoners. arXiv preprint arXiv:2310.01714.
  5. Zhou, Y., Geng, X., Shen, T., Tao, C., Long, G., Lou, J. G., & Shen, J. (2023). Thread of thought unraveling chaotic contexts. arXiv preprint arXiv:2311.08734.
  6. Jin, Z., & Lu, W. (2023). Tab-cot: Zero-shot tabular chain of thought. arXiv preprint arXiv:2305.17812.
  7. Chia, Y. K., Chen, G., Tuan, L. A., Poria, S., & Bing, L. (2023). Contrastive chain-of-thought prompting. arXiv preprint arXiv:2311.09277.
  8. Google. 2023. (2023). Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805.
  9. Fu, Y., Peng, H., Sabharwal, A., Clark, P., & Khot, T. (2022, October). Complexity-based prompting for multi-step reasoning. In The Eleventh International Conference on Learning Representations.