惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
博客园_首页
H
Hackread – Cybersecurity News, Data Breaches, AI and More
T
ThreatConnect
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 聂微东
H
Help Net Security
T
Threat Research - Cisco Blogs
Blog — PlanetScale
Blog — PlanetScale
A
Arctic Wolf
G
Google Developers Blog
量子位
U
Unit 42
I
InfoQ
V
V2EX
F
Fox-IT International blog
P
Privacy & Cybersecurity Law Blog
V
Visual Studio Blog
J
Java Code Geeks
大猫的无限游戏
大猫的无限游戏
C
CERT Recently Published Vulnerability Notes
博客园 - 三生石上(FineUI控件)
T
The Exploit Database - CXSecurity.com
T
Tailwind CSS Blog
SecWiki News
SecWiki News
Know Your Adversary
Know Your Adversary
MyScale Blog
MyScale Blog
宝玉的分享
宝玉的分享
The Hacker News
The Hacker News
Project Zero
Project Zero
Application and Cybersecurity Blog
Application and Cybersecurity Blog
月光博客
月光博客
Recent Commits to openclaw:main
Recent Commits to openclaw:main
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
G
GRAHAM CLULEY
C
Cisco Blogs
I
Intezer
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
Recorded Future
Recorded Future
T
Tenable Blog
W
WeLiveSecurity
腾讯CDC
Stack Overflow Blog
Stack Overflow Blog
T
The Blog of Author Tim Ferriss
www.infosecurity-magazine.com
www.infosecurity-magazine.com
D
Docker
C
Cybersecurity and Infrastructure Security Agency CISA
PCI Perspectives
PCI Perspectives

News Hacker | 极客洞察

🤨 Claude Code 动态工作流:多代理并行与 token 争议 《Permanent Upper Crow》:礼帽、债务与资本主义讽刺 美国量子计算豪赌遭质疑:合法性、补贴与泡沫 Claude Opus 4.8:小幅升级,honesty 与 adaptive thinking 争议 20年聊天记录分析:社交圈收缩、旧友怀旧与隐私争议 纽约对第二套房征税:超富税还是住房政策? Zendesk 涨价4倍逼客户48小时重建,评论聚焦PE、AI自建与SaaS护城河 Continue? Y/N:AI agent 权限疲劳游戏与全放行争议 FPGA上的神经形态 Ising 机:被质疑是 buzzword 拼盘 Google AI Mode逼人迁移,DuckDuckGo涨28%但基数极小 OpenWrt 室内 Wi‑Fi 漫游:802.11r/k/v 与兼容坑 Meshtastic、MeshCore、Reticulum:离网 mesh 的价值与极限 五个 frontier LLM 对 1k 真实 fact-check claim 67% 分歧,No Abstain 争议大 Apple/Google 把 push 通知变成营销与控制战场 YouTube自动标记AI视频:误判、AI slop与过滤争议 EU罚Temu 2亿欧元:非法商品、CE标与跨境直邮争议 Ruby/Java/TypeScript 做 DOCX 插件:MCPB 打包、GraalVM 原生编译与 Ruby 争议 📉 UC STEM 教员要恢复 SAT:新生数学基础严重下滑 Gemini、Gopher、Finger:HTTPS之外的轻量网与反adtech讨论 AMD 对 Vivado Linux 免费版改收费引发众怒 Claude Code显现PMF,但盈利与开源竞争仍存疑 Temu 因危险商品与合规失责被欧盟罚 2 亿欧元 Hallucinate:MIT 开源的匿名多人在线 Rave 压力破坏海马体记忆整合与推理,教育体系却爱加压 SimCity 3000 4K版:经典等距城建与现代写实之争 企业 AI 账单爆表:tokenmaxxing 与高层乱推 CIA官员家藏4000万美元金条,FBI介入疑涉黑金 Rapira:苏联俄化 Pascal 解释器 Ferrari Luce EV遭讽成iPad车:设计和品牌双翻车 AI提效后:休假、加薪还是裁员? GPU-free AI 数据中心:HPC 旧瓶装新酒? 越狱 Kindle 跑 Rust/Slint,顺带聊 jailbreak 与 Kobo 替代 Go 将支持泛型方法,社区再吵“早该有还是补洞” Lua 的“绿色”能耗优化与 JIT 争议 Qwen3.7-Max 35小时优化未知硬件kernel获10×提速,引发真实性与基准质疑 Typst+Pandoc 模板:Markdown 直出 PDF 工作流 2MB“人类烹饪”被质疑:样本不全,更像食材搭配库 WSL 中 Claude Code 贴图失效:Windows Terminal 抢占 Ctrl+V,桥接可修复 AI取代中层管理?会议、关系与跨团队协作 Last.fm 独立回归:老用户怀旧、推荐争议与数据主权 依赖别乱更:锁版本、供应链与 CI 争议 Fano 平面式 Raft:少数节点也能达成共识 GitHub PR/API 再故障,评论区质疑 AI、Azure 与微软 Mini Micro虚拟复古电脑:硬件版与开源争议 Claude Code 日用:CLAUDE.md、Skills、subagents、MCP 命令碎片化与锁定争议 加拿大转向瑞典军机,摆脱美国军购依赖 伊朗互联网流量回升:停火信号、经济恢复与网络战争争议 MacBook 暖手妙招:CPU 烤机、Intel 机型与冷凝风险 Joanna Rutkowska:自由潜水、具身性与 Claude 隐喻 特拉华 Fenwick Island 允许公司房主投票,空壳漏洞引争议 Steam Deck涨价逾200美元,AI抢RAM与通胀争议升温 Labubu与hyperreal:怪萌、稀缺炒作和中国潮玩出海 GPU 矩阵乘法会因数据可预测而提速 Tech CEO陷AI妄想:LLM迎合放大高层失真
GPT-4o 上更粗鲁的 prompt 略准,样本与语气定义遭质疑
2026-05-29 · via News Hacker | 极客洞察

🎯 讨论背景

这篇 2025 年的论文测试的是 GPT-4o(OpenAI 的多模态大模型)在 250 道题上的回答准确率,把同一问题改写成五种语气前缀,从 Very Polite 到 Very Rude,再比较表现。作者报告 Very Rude 略高于 Very Polite,但差距只有几个百分点,所以评论区立刻围绕统计显著性、样本规模和复现性展开争论。很多人把它和更早关于 prompt tone 的研究对照,提醒结论可能依赖模型版本、语言和具体措辞。文末虽然提到还在测 GPT o3(OpenAI 的推理模型)和 Claude(Anthropic 的大模型),但没有给出正式结果,这也引出大家对与 LLM(大语言模型)交流时该不该保持礼貌的争论。

📌 讨论焦点

统计显著性与可推广性

这组评论主要盯着方法论:论文把 250 个问题按五种语气做对比,报告 Very Polite 为 80.8%,Very Rude 为 84.8%。不少人觉得这个差距很小,可能接近噪声,尤其是在样本量不大、而且每题还做了多次运行取平均的情况下。有人质疑作者用 t-test 是否合适,或者至少应该处理多重比较问题,否则容易把偶然波动看成结论。也有人提醒这只测了 GPT-4o,和更早模型、不同语言上的结果未必能直接推广。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

礼貌、直接与“粗鲁”定义争议

另一个争论点是,论文里的礼貌和粗鲁未必真在测情绪,而是在测 directness 和 prompt 结构。评论里有人指出,类似 Can you kindly... 的开头更像客套甚至假惺惺,而 Very Rude 版本常常只是更短、更命令式,比如 try to focus。也有人认为不同英语变体和文化背景会让同一句话被听成完全不同的语气,尤其是印度、尼日利亚、美国、荷兰这类语境差异很大的场景。于是有人怀疑,结果可能来自更高信息密度、角色扮演感或训练语料分布,而不是真正的“粗鲁更有效”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

人类习惯、礼仪与自我约束

很多人表示自己依然会对 LLM 说 please、thank you,哪怕这可能牺牲一点准确率。原因不是相信模型有感受,而是不想把对机器的粗暴习惯带回现实社交,也不想训练自己在沟通里变得更像个混蛋。还有人把这看成一种自我约束:对未来的 sentient 系统留个好记录,或者至少保住自己的自我形象。少数人则直接把这和 kindness、礼仪甚至宗教式习惯联系起来,认为少一点攻击性本身就值得。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19] [来源20] [来源21] [来源22]

实战经验:骂、重开与上下文效应

实战派的反馈更功利:当模型卡在错误循环里时,直接骂它有时确实能让输出更好,尤其是在你需要把它从错误假设里拽回来时。也有人说真正有效的不是辱骂,而是开新 session,因为一旦上下文被带歪,整段对话的 tone、变量名和注释都会一起跑偏。还有人提到某些模型会对辱骂回嘴、阴阳怪气,甚至主动结束对话,让 prompt 看起来更像在塑造整个交互氛围。总体上,这类经验更像是在讨论上下文操控,而不只是礼貌不礼貌。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

📚 术语解释

t-test: 用于比较两组样本均值差异是否显著的统计检验;评论里争论它是否适合这种 prompt 准确率实验。

binomial distribution: 把每道题看成对/错两种结果的分布模型;有人认为这个实验本质上更像二项检验。

multiple testing: 同时做很多组比较时需要校正,否则更容易碰巧得到“显著”结果。