惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

云风的 BLOG
云风的 BLOG
TaoSecurity Blog
TaoSecurity Blog
V
Visual Studio Blog
The GitHub Blog
The GitHub Blog
Apple Machine Learning Research
Apple Machine Learning Research
Vercel News
Vercel News
The Register - Security
The Register - Security
月光博客
月光博客
M
MIT News - Artificial intelligence
B
Blog RSS Feed
博客园 - 叶小钗
Last Week in AI
Last Week in AI
Application and Cybersecurity Blog
Application and Cybersecurity Blog
T
The Blog of Author Tim Ferriss
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Microsoft Azure Blog
Microsoft Azure Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
C
Check Point Blog
Attack and Defense Labs
Attack and Defense Labs
The Cloudflare Blog
Cloudbric
Cloudbric
O
OpenAI News
Security Archives - TechRepublic
Security Archives - TechRepublic
Help Net Security
Help Net Security
Google DeepMind News
Google DeepMind News
Stack Overflow Blog
Stack Overflow Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
V
V2EX
大猫的无限游戏
大猫的无限游戏
www.infosecurity-magazine.com
www.infosecurity-magazine.com
V2EX - 技术
V2EX - 技术
Google Online Security Blog
Google Online Security Blog
博客园 - Franky
雷峰网
雷峰网
J
Java Code Geeks
L
LINUX DO - 最新话题
T
Tenable Blog
爱范儿
爱范儿
Engineering at Meta
Engineering at Meta
T
Tailwind CSS Blog
Spread Privacy
Spread Privacy
H
Heimdal Security Blog
S
Schneier on Security
量子位
N
Netflix TechBlog - Medium
G
Google Developers Blog
T
The Exploit Database - CXSecurity.com
Cyberwarzone
Cyberwarzone
F
Full Disclosure
S
Securelist

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
提示词技术详解(1)——Prompt的结构&少样本学习 - 少数派
2024-08-30 · via 少数派

提示词(Prompt)是指它通过向模型输入特定的指令或问题,来增强模型的表现,而无需对模型结构本身进行调整。这一概念随着大型语言模型的发展而流行,并催生了一个新兴的领域——提示词工程(Prompt Engineering)。这一领域目前还处于早期探索阶段,依赖于实践和试错来发现有效的提示词策略,属于经验科学的一种。

经验科学:在研究方法上,以归纳法为主,带有较多盲目性的观测和实验。一般科学的早期阶段属经验科学,化学尤甚。在恩格斯《自然辩证法》中,专指十八世纪以前搜集材料阶段的科学。(百度百科)

我对提示词的看法:

  • 提示词的确有用
  • 提示词本质上是一种“引导”,引导大模型说出他本来会的内容。因为它本身不会对模型性能进行任何修改。所以本质上来讲不应该叫“性能提升”,而是提升其“回答质量”。
  • Prompt调优的效果因模型而异(甚至因版本而异),需要大量的实验。意味着同一套Prompt在迁移到其他模型的时候并不能保证它的效果。
  • 提示词的脆弱性: 由于自然语言的复杂性,提示词往往是离散的,难以精确优化。这种脆弱性意味着很难为提示词找到一个明确的最佳结构,通常需要通过大量实验和迭代来探索。
  • 不要指望一个方法一劳永逸。网上的各种Prompt教程/大模型使用教程鱼龙混杂,很多都缺乏基本的科学素质,即“开局一张嘴,内容全靠编。”,缺乏科学得证明“A方法就是比B方法好”。适合他的不代表适合你,他的最优解更不可能是你的最优解。理性看待,多做尝试。适合自己的才是好的。
  • 推荐一下DSPy。这是我觉得为数不多“科学”的Prompt调优方式,还有xAI的PromptIDE看着也不错。

为什么要写这个系列?

作为一个一直在关注工程实现而没有深入研究提示词的产品经理,前一段时间的产品空窗期我重新研究了一下提示词。然后深感提示词领域的混乱。我意识到提示词领域存在许多混乱,各种术语和框架层出不穷,我相信许多人可能也有同样的困惑。因此,我希望通过一系列文章来整理和分享我的知识体系,希望能对大家有所帮助。

这个系列会引用很多论文,主要是两个原因,首先,部分章节会介绍一些专业知识(例如聚类算法),引用原论文可以提供权威参考;其次,许多结论源自论文,引用论文既是对原作者工作的尊重,也为我的论点提供了依据。我将努力确保每个观点都有充分的论据支持。

曾经有一个问题是AI产品经理到底要不要看论文,我的看法是不用看,但了解总是有益的。学术论文的方法相比网上的文章往往具备以下特征:

  • 专业性(论文由科研工作者撰写,其研究方法和结论通常在相关数据集上经过验证)
  • 严谨性(相比网上的文章,学术论文的研究和论证过程更为严谨。)

但是它对普通人不易读,所以做出一些解读还是很有必要的,提取一些关键点进行分析。

整个系列的行文结构参考今年6月份出的技术报告(Schulhoff, Sander, et al., 2024)。做了一些补充并加入了一些自己的理解。这篇论文很好,它对很多混乱概念进行了梳理并重新定义。比如说Few Shot,在深度学习中通常是指少样本学习(Few-Shot Learning)。Prompt工程中是指Few-Shot Prompting。两者最大的差别就在于前者是会对模型进行永久性修改(比如模型的参数)而后者仅限于在一次对话中,重启上下文后即会失效,对模型本身不会造成任何影响。

文章内容还会参考网上的一些资料,由于参考过多无法一一引用。在此向所有研究Prompt领域的工作者致敬🫡,你们是大模型时代的先驱者。

适用读者范围

下面几种人都可以在文章中各取所需

  • AI产品经理
  • 对提示词感兴趣的普通人,希望能够提升大模型的回答质量。或者构建属于自己的大模型。会讲解一些普通人通用的简单的设计技巧。

[[正文开始]]

提示词的组成

一个完整的提示词通常可以由指令、示例、输出格式、风格、角色约定几部分组成,它们并不需要同时存在,也并非所有场景都必须使用它们。

指令

指令即用户直接下达给大模型的命令。通常分为显式指令以及隐式指令两种。

显式指令:直接提出问题

告诉我历史上是谁统一了六国?

模型回答:

秦始皇。

隐式指令:给大模型一些示例,让其自动判断该输出什么。隐式指令更像“找规律”,让模型来自动判断如何输出。例如下面是一个将英语翻译成西班牙语的场景

用户输入:

Night:Noche
Morning:

模型回答:

Morning:Mañana

示例(Examples)

通常会使用*-Shot来表示,即提供给大模型的完成任务的示例,帮助其更好理解你的任务。上面的示例就属于一个One-Shot场景(即提供一个事例)。当场景足够简单、事例充分的情况下,大模型不需要你为他提供明确的指令,就可以得到你想要的答案。(参考上面的隐式指令场景)。*-Shot通常分为如下几种情况:

  • Many-Shot:多实例上下文学习,指提供多个(没有具体的标准)示例来辅助大模型理解
  • Few-Shot:提供少量示例,比如1-3个辅助大模型理解。
  • Zero-Shot:不提供示例,让模型直接回答问题。

这一部分也通常称为ICL(In-Context Learning)上下文学习

通常来讲Zero-Shot场景是对模型性能要求最高的,也是各家大模型的优化重点。GPT4相比GPT3.5很明显的能力提升就在于它在Zero-Shot场景下的性能,这往往也代表着其语义理解能力更强。

输出格式约定

这一部分通常是指定模型的输出格式,例如

...,请以MarkDown的形式输出回答。

这么想的话你倒是可以拿大模型做为一个格式刷:)

风格约定

风格即指定大模型的输出风格,是一种非常常用的模型输出优化方式。

请以通俗易懂,略带风趣的方式来解释地球为什么围绕太阳旋转。

模型回答:

让我们来聊聊太阳和地球这对宇宙中的好基友。想象一下,你手里拿着一个网球,然后你用绳子把它系住,开始旋转。网球因为绳子的牵引,不得不跟着你转圈圈。这其实和地球围绕太阳转是一个道理。

角色约定

为大模型设置一个角色,这点与上一部分的风格约定通常都被用来改善模型输出的风格。

你是一个经验丰富的家庭教师,正在教一个二年级的小学生。请解释一下地球为什么围绕太阳旋转。

模型回答:

好的,想象一下你在公园里玩陀螺。你用绳子把陀螺绕起来,然后快速一拉,陀螺就会在地面上旋转起来,对吧?地球围绕太阳转的原理和这个有点像。首先,地球和太阳都非常非常重,太阳比地球重好多好多。很久以前,当太阳系形成的时候,地球和其他行星都是围绕着太阳旋转的。这就像你把陀螺的绳子一拉,它就开始转起来一样.....

少样本提示(Few-Shot Prompting)

大模型的记忆是有限的,它的记忆容量被称为上下文窗口(Context Window),决定了模型能够捕捉信息的范围。例如,GPT-4 Turbo拥有128k个Token的上下文窗口,相当于超过300页的文本,这使得它能够生成更符合对话语境的回复。而上下文学习(In-Context Learning,ICL)是指一种不需要对模型进行训练,在Prompt中通过给予示例以及说明来让模型提高模型的预测性能。但是这种性能提升其实并非“学习到的”,更像是一种激活。激活模型原有的记忆。

少样本提示(Few-Shot Prompting)参考上面的*-Shot介绍。尤其需要注意这里和深度学习中的Few-Shot Learning存在本质区别,FSP并不会对模型参数进行调整,它的提升仅限于当前的上下文窗口中。

通用的示例设计/选取原则

为大模型提供或构建示例的方式对其性能有显著影响。不当的示例可能会导致模型产生严重的误解。以下是六个关键因素。

  • 示例数量
    通常我们直觉上认为给大模型更多的示例,可以让其性能更好。但是考虑到客观条件,一方面大模型受到上下文长度限制。另一方面,不好的示例会成为噪音,从而将会降低大模型的性能。此外,在部分场景下过多的示例对性能提升并无帮助(Zhao et al., 2024)
  • 示例顺序
    顺序可能会影响模型的表现,在某些极端场景下,不同的顺序甚至会使模型回答准确率从低于50%到90%+不等(Lu et al. , 2024)。这个地方可以使用人工排列组合,也可以采用下一小节样本自动构建技术中的一些方法。注意:该顺序也可能是不具有泛用能力的,迁移到另一个大模型可能会导致性能下降。
  • 标签的分布
    标签(label)类似于传统的机器学习中的概念。当我们训练机器学习模型时,我们通常会给模型提供很多示例,每个示例都有一个标签,告诉模型这个示例属于哪个类别。如果我们提供给大模型的示例中,某个类别的样本数量很多,而另一个类别的样本数量很少,那么大模型的回答将会更偏向于第一个类别。所以在进行示例采样时应该综合考虑。
  • 标签的准确性
    这点的影响目前还不确定,但是可以确定的点在于较大的模型通常更擅长处理不正确或不相关的标签。能不错还是不要错。
  • 示例格式
    示例的格式会对模型的回答质量造成影响,常用的格式例如“Q:{input},A:{label}"并没有所谓的“最佳格式”,需要去根据具体场景进行实验。
  • 示例相似性
    提供的示例的相似性也会对模型回答质量造成影响,但是具体的影响目前也不确定。有的场景下选择更多相似的示例可能会提升回答质量,而有的场景下多样化的示例则表现更好。一般来讲认为多样化的示例会使得模型表现更好。

样本自动构建技术(普通用户可以跳过)

目前,手动构建样本的方法还处于相对原始的阶段,类似于“刀耕火种”,主要依赖于人的主观判断。为了提高样本的质量,可以参考前面提到的几个关键因素,并进行多次测试以优化样本。此外,目前也有一些研究致力于开发自动化构建Few-Shot样本的技术。

如果我们有一个示例库,并希望从中动态构建有效的提示词(Prompt),这是一个非常实际且常见的应用场景。例如,在法律文书编写领域,我们需要为大模型提供与当前案件相似的文书示例,以辅助模型进行更准确的分析。这要求我们能够从示例库中智能地选择和构建相关的样本,以提高模型的理解和预测能力。

这里介绍几个常用的样本自动构建技术。

  • K-NN(K-近邻算法)
    非常经典的聚类算法,每次在特征空间中选取k个与输入样本最接近的训练样本。但其对计算资源的消耗以及时间需求都很高,如果在提升生成阶段使用将会一定程度影响使用体验。
  • Vote-K (Su et al., 2022)
    在第一阶段通过嵌入模型(SBert)来构建一个有向图。其中每个节点都指向其k最近邻。然后从一组选定的样本开始计算评分。在第二阶段对第一阶段对结果进行人工标注,在进行Prompt Retrieval时计算所有标注样本和测试样本的余弦相似度即可。
  • SG-ICL(Kim et al., 2022)
    自生成上下文学习 (Self-Generated In-Context Learning,SG-ICL)利用大模型本身来自动生成示例,效果嘛....不好说。考虑到大模型对指令的理解偏差,可能会进一步放大误差。让我想到了前段时间Nature发的那篇论文,利用AI生成的数据继续训练大模型会导致模型的迅速退化(Shumailov et al., 2024)

其他还有基于Q-Learning、基于对比学习以及基于主动学习的样本构建技术。这些方法目前研究性仍然不足,暂不列举出来。

简单总结一下,Few-Shot是一种常见的提示词调优技术。一般来说,示例选取最好保持多样化,同时应该具有较强的随机性(顺序,内容...)以避免大模型发现了“规律”从而影响回答质量。

参考文献

Schulhoff, Sander, et al. "The Prompt Report: A Systematic Survey of Prompting Techniques." arXiv preprint arXiv:2406.06608 (2024).https://arxiv.org/abs/2406.06608

Zhao, Hao, et al. "Is In-Context Learning Sufficient for Instruction Following in LLMs?." arXiv preprint arXiv:2405.19874 (2024).https://arxiv.org/abs/2405.19874

Lu, Yao, et al. "Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity." arXiv preprint arXiv:2104.08786 (2021).https://arxiv.org/abs/2104.08786

Su, Hongjin, et al. "Selective annotation makes language models better few-shot learners." arXiv preprint arXiv:2209.01975 (2022).https://arxiv.org/abs/2209.01975

Kim, Hyuhng Joon, et al. "Self-generated in-context learning: Leveraging auto-regressive language models as a demonstration generator." arXiv preprint arXiv:2206.08082 (2022).https://arxiv.org/abs/2206.08082

Shumailov, Ilia, et al. "AI models collapse when trained on recursively generated data." Nature 631.8022 (2024): 755-759.https://www.nature.com/articles/s41586-024-07566-y