惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

P
Proofpoint News Feed
G
GRAHAM CLULEY
GbyAI
GbyAI
Martin Fowler
Martin Fowler
Last Week in AI
Last Week in AI
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
V
Visual Studio Blog
博客园 - 聂微东
aimingoo的专栏
aimingoo的专栏
The GitHub Blog
The GitHub Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Blog — PlanetScale
Blog — PlanetScale
The Cloudflare Blog
博客园 - 叶小钗
罗磊的独立博客
宝玉的分享
宝玉的分享
P
Privacy International News Feed
酷 壳 – CoolShell
酷 壳 – CoolShell
Scott Helme
Scott Helme
Project Zero
Project Zero
P
Palo Alto Networks Blog
F
Fortinet All Blogs
Help Net Security
Help Net Security
K
Kaspersky official blog
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
S
Schneier on Security
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
F
Full Disclosure
Webroot Blog
Webroot Blog
V
V2EX
C
Check Point Blog
L
LangChain Blog
阮一峰的网络日志
阮一峰的网络日志
H
Hacker News: Front Page
G
Google Developers Blog
Hugging Face - Blog
Hugging Face - Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
博客园_首页
Application and Cybersecurity Blog
Application and Cybersecurity Blog
H
Help Net Security
量子位
Recorded Future
Recorded Future
H
Heimdal Security Blog
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
www.infosecurity-magazine.com
www.infosecurity-magazine.com
O
OpenAI News
D
DataBreaches.Net

澎湃新闻 - 澎湃热榜

关于影片《监狱来的妈妈》,上海市电影局最新通报 中国足协公布第三批行业处罚名单:丁勇等17人终身禁止参与足球活动 司法部:重点纠治乱罚款、趋利性执法,对罚没收入增20%以上地方重点关注 三星“百万亿级”罢工戏剧性刹车,劳资博弈如何分配AI狂潮下的巨额利润 古巴外长谴责美国起诉劳尔·卡斯特罗是“非法闹剧” 美国毕业典礼嘘声四起背后:反AI浪潮浮现,“AI还不如政客受欢迎” 从“半小时变更”到“双赛衔接”,长三角一体化如何赋能“新质合伙人” 独家专访|7成国土遭受荒漠化,蒙古国森林局长谈中蒙如何联手治沙 马上评|要走出信任危机,也不必“谈杨梅色变” 美国起诉古巴革命领袖劳尔·卡斯特罗 俄罗斯总统普京访华期间两国元首会晤成果文件清单 广东阳春24小时雨量破千,中山、江门、珠海等地相继发暴雨红警 福建漳州通报“泡药杨梅”:已追回问题杨梅540公斤,5人被刑拘 洪洞大槐树景区致澎湃新闻及社会各界:诚恳致谢、全面整改、坚守初心 澎湃回声|广西平南再通报儿童乳膏涉嫌非法添加:抓获37人,多人被问责 国防部就台湾地区领导人“5·20”讲话答记者问 3729对,上海“520”结婚登记数创9年新高 铁路部门回应“3岁女童高铁座位与母亲相隔8节车厢”:持续优化相关功能,提升用户体验 22岁妈妈带两岁孩子送外卖时情绪崩溃,知情人称相关部门已介入 杨洋谦虚回应“天选展昭”:和角色共同点在于坚持自我 项羽故乡宿迁打造城市文化IP:“霸王归来”后“虞姬”打卡 特朗普来到白宫工地:请看我给美国的礼物,无人机撞上能弹开 详讯丨习近平同俄罗斯总统普京共同会见记者 视频丨普京对习近平说:亲爱的朋友,一日不见,如隔三秋 马上看|洪洞大槐树景区回应澎湃曝光:全面复盘并立行立改 图忆|三峡大坝主体工程建成20周年影像志 生于唐亡,卒于汉灭:一位晋阳小兵的七十二载五代沉浮 塞尔维亚总统武契奇将对中国进行国事访问 不交论文交作品!华东师大36名学生凭文学创作获硕士学位 国台办发言人就台湾地区领导人“5·20”讲话表态:充斥谎言与欺骗、敌意与对抗 漳州果农称部分“泡药杨梅”殃及农户导致滞销,记者实测平台销售情况 释新闻|刚果(金)曾暴发十余次埃博拉疫情,为何谭德塞此次“深感担忧”? 全国体育宣传文化工作会议召开,将持续深化“饭圈”乱象整治 澎湃回声|广州荔湾区最新回应:黄三、李四可对应真实、合法的权利人 商务部美大司负责人解读中美经贸磋商初步成果 马上看|澎湃曝光大槐树寻根祭祖园问题,洪洞县文旅局:已关注,马上处理 对话何赛飞:热闹和安静,这两面都属于我 财晓得丨广西柳州连震是怎么发生的?震感为何如此强烈? 从房市到股市:韩国人再次“All in”?|907编辑部 观察|中东战争震动亚洲:粮价飙升、贫困加剧与“K型经济” 当长三角越来越像一个“超级都市圈” 中国U17男足战胜澳大利亚队,时隔22年再次闯入亚洲杯决赛 视频丨俄罗斯总统普京抵达北京开启访华行程 韩日首脑“故乡穿梭”:大国博弈下试图相互取暖,战争冲击中关切能源生命线 阿嬷(mà)还是阿嬷(mó)?《给阿嬷的情书》引发语言学趣味辩论 强降雨致湖南石门4人遇难、1人失联 葡萄牙队官宣:41岁C罗将第六次征战世界杯 喜讯!上海案例成功入选2026年全国网络文明建设优秀案例 金华一老人恶意划车被监控拍到:定损达5000元,车主报警 当长三角成为“一家人”,我们的工作生活发生哪些新变化? 泰国内阁决定取消60天免签政策,恢复为免签入境30天左右 一个小区四个名?业主称打车、快递找不到地点,律师:名实不符应更名 失联人员均已找到,广西环江车辆坠河事件5人生还、10人遇难 湖北恩施白水河村因暴雨致3死4失联,遇难者侄子:连夜从浙江开车赶回,房屋沿河已被冲毁 洁丽雅再发声明,公示DNA鉴定报告、结婚证等回应网络猜测 研读侨批几千封后,《给阿嬷的情书》导演写下“江海有岸,团圆可盼” 算电协同催化电力板块再度爆发,多股涨停潮来袭 中办、国办印发《关于用好乡镇(街道)履行职责事项清单的具体措施》 温州一化工厂被强拆后欲原址重建:申请规划许可遇阻,复议机关责令履职 菲总统称不希望卷入任何与台湾有关的战争,外交部回应 外交部:中美元首就人工智能问题进行了建设性交流,同意开展相关对话 秘密袭击伊朗,野心与压力碰撞下阿联酋正将海湾变成前线 释新闻|此轮降雨为何贯穿南北,还如此之强? 武汉通报“昌盛泡花碱厂环境问题”:成立联合调查组,围绕村民健康等问题全面深入调查 释新闻|伊朗威胁对霍尔木兹海峡海底电缆收费,可行性有多大? 马斯克预测:10年后,自己开车将是一种非常小众的行为 视频丨俄总统普京发表视频讲话:俄中关系达到前所未有水平 多名骑手未处理交通违法行为,广州一即时配送站负责人被刑拘 马上看丨宁夏水洞沟:5公里乘3段景交车,游客说“折腾” 从中超球星到外卖骑手,邱忠辉和中国足球的另一种现实 独家丨《霸王别姬》戛纳重映,巩俐:我们一起创造了经典 米面油、化妆品等不能刷!医保个账支付有了“白名单” 俄罗斯总统普京访华前夕发表视频讲话 从卖流量到卖Token,运营商算力生意破局 大外交丨特殊历史节点的第25次访华,普京在中俄关系的“播种好时节”来访 以媒:内塔尼亚胡连续两晚开会,为重启对伊朗战事做准备 “十五五”开局,上海的“破”与“立” 视频丨广西柳州两次5.2级地震之间有什么关联?专家解读 湖北宣恩县汛情已致3人死亡、4人失联 洁丽雅发声明:针对网上恶意造谣、抹黑行为,已向公安机关报案 圆桌|AI新叙事下,投资人更关注什么?从宏大叙事转向“软基建”与“活得久” 广西柳州市柳南区发生5.2级地震,震源深度8千米 山东一公司多人被控以拖车要挟清收贷款,明日将第三次开庭 现货黄金一度跌破4500美元,机构现分歧:摩根大通下调金价预测、高盛仍唱多 外交部发言人就第79届世界卫生大会拒绝涉台提案发表谈话 解读|离境退税2.0版政策有哪些看点?能给城市带来什么? 技术派|巴基斯坦一口气公开三型巡航导弹,南亚导弹竞赛进入新领域 Figure AI人形机器人直播分拣包裹五天不间断,网友:分拣工要失业了 13岁少年在湖北一特训机构遭教官殴打,开颅手术做了7小时,当地通报打人者被刑拘 四人谈丨《给阿嫲的情书》不只是方言地域电影,也是中国电影新生机 江苏税务局再回应偷拍男生拟录公务员:正走内部程序处理 连云港自规局两次未核准一房企“建设工程规划许可证”申请:市政府认定违法,企业索赔二千万 马上评|不妨多给大学开放一些适应时间 特朗普称美国对台政策没变,外交部:两岸统一才是光明大道 山寨会议多年收费举办,被冒名的北京语言大学强烈谴责 马上评|对问题杨梅“自揭家丑”,为媒体监督点赞 穿越九千年,在内蒙古博物院感受金玉大美 武大取消预约入校后食堂爆满,游客爬树拍照 针对柳州5.2级地震,水利部启动水利抗震救灾调度指挥机制 视频丨广西柳州地震最后1名被困人员获救:系91岁老人,生命体征平稳
孔子能够写Python吗?——当大语言遇见古语言
Jingfei Li · 2026-05-24 · via 澎湃新闻 - 澎湃热榜

语言模型的“母语”是什么?

2016年,科幻电影《降临》刻画过这样一种令人不安的情境:当语言学家Louise学会了外星人的文字之后,她的认知结构也被同步改写,她开始非线性地感知时间,能够“看见”未来。但这并非一般意义上的超能力,而是对一个古老的语言学假说的极端演绎。

《降临》剧照

这部电影改编自特德·姜短篇小说《你一生的故事》,借用的是萨丕尔-沃尔夫假说(Sapir-Whorf hypothesis),这个假说有两个版本,弱版本假定语言影响思维(linguistic relativity),而强版本(linguistic determinism)则提出,语言不只是思维的载体,它还塑造,决定我们如何思考,以及思考什么。

不过,和电影所演绎的不同,现实中反复的跨语言实验表明,假说的强版本是错的——缺少某个词并不等于缺少对应的认知能力,但它的弱版本——语言影响思维,却有着不少的实证支持。

比如,澳大利亚的Kuuk Thaayorre语中没有“左右”而只有“东南西北”的绝对方位词,结果是使用这些语言的人方向感显著更强。再比如,中文里的“青”可以是草木之绿,可以是天空之蓝,也可以是头发之黑——闽南话中至今保留着这种古老的不分,一个“青”字就覆盖了现代普通话需要三四个词才能说清的色彩范围。

语言并非牢笼,但它的确塑造认知地形,我们固然可以翻山越岭,却无法自行开辟道路。

而今天,在万亿量级的现代英语或现代中文语料上训练出来的大语言模型LLM,它可以用任何语言与任何人对谈,对它来说,不存在硬编码的语言边界,它也不做普通意义上的翻译,而是在所有语言的文本上进行token统计。那么,有趣的问题是,对它来说,还有“母语”的概念吗?它的“认知地形”究竟是什么样的?和训练它的语言之间又是什么关系?

活在1930年,还是翻译1930年?

2026年4月,一个名为talkie1930的研究项目在AI圈引起了小范围关注。这是一个130亿参数的开源语言模型,由GPT系列的共同创建者Alec Radford、多伦多大学计算机科学副教授David Duvenaud和独立研究者Nick Levine合作开发,训练数据严格限定在1931年1月1日之前出版的英语文本——书籍、报纸、期刊、科学论文、专利和判例法,共计2600亿个token。选择这个时间节点的原因出人意料地平庸:1930年是美国现行版权法规定的公共领域截止年份。

Talkie1930的训练目标不是让AI回答关于1930年代的问题,而是让AI“活在”1930年代的英语认知里——拥有那个时代的语言习惯、知识边界、社会偏见,以及对未来的无知。它不知道二战,不知道互联网,不知道自己是一个语言模型。

这不是一个聊天机器人,而是一个认知考古实验。它的研究者们引用了DeepMind首席执行官哈撒比斯(Demis Hassabis)曾提出的一个问题:一个训练数据截止到1911年的模型,能否独立发现广义相对论?talkie试图用类似的思路,考察当知识被截断之后,语言模型的推理能力还能走多远。

但在我看来,这个项目的有趣之处不在于它的科学目标,而在于它区分了两种截然不同的路径:翻译(translation)与栖居(inhabitation)。前者是把现代知识“翻译”成旧式的语言风格;后者是让模型在那个语言框架内部运行,从内部生成反应,而非从外部装扮它。

当我们把目光转向中文领域时,会发现不少有趣的类似项目。目前中文学术界和开源社区已有若干涉及古典中文的大语言模型项目。

华南理工大学的“通古”大模型,基座模型是“百川2-7B-Base”,语料是24.1亿token古籍语料,支持古文句读、文白翻译、诗词创作和古籍检索。另一个开源项目“古语说”,是一个个人学习项目,覆盖论语、唐诗、宋词等知识库。输入白话文,输出文言文;你问唐诗,它可以背诵和帮助你赏析。还有南京农业大学王东波团队的“荀子”古籍大语言模型,联合中华书局推出,语料库超过20亿字,包含《四库全书》。

这些项目有一个共同特征:它们无一例外地把古典中文当作一个需要被翻译、检索和解释的外部对象。古文是档案(archive),不是人格(persona)。你问它“将进酒是什么”,它提供检索和翻译结果,但,它不会让李白邀请你进入月下独酌,不会让你看到诗人的自负、偏执、对权力的蔑视和对酒精的结构性依赖,不会创造出你,他,你们的和影子和月亮共在的场景。

所有的人都在捡拾语言的贝壳,而非让模型栖居在语言的海岸。

文言文不是旧英语

我想,这方面的差异可能反映了一个根本性的困难:中文的“vintage”问题和英文的“vintage”问题,在本质上并非同一个问题。

1930年代的英语和2026年的英语之间,差异主要在语域和社会规范层面。一个1930年代的英语persona说话更正式,对种族和性别有那个时代特有的认知框架,某些词汇的含义发生了漂移——但底层的语法结构、逻辑表达方式、主谓宾的基本骨架是连续的。如同一条河的上游和下游。

但文言文和现代中文之间的关系要复杂得多。五四运动前后,书面语从文言文整体转向白话文。这不完全是语言的自然演化,而是一场激进的文化替换。文言文不能被简单地看作现代中文的“旧版本”——它几乎是一种完全不同的语言哲学。

文言文极度依赖省略,主语常常隐匿,语序灵活至几乎没有固定框架,不仅依赖语法规则,还更依赖读者与作者之间默不成文的文化共识。而现代中文借鉴了不少印欧语系的表达逻辑,主谓宾结构更加刚性,省略的容忍度也大幅降低。

那么,假如“语言塑造认知路径”的前提成立,一个在文言文认知框架内运行的模型,就不应该仅仅是措辞不同:它对“事”的表达方式、站立视角、对模糊性的容忍度、对语境依赖的程度,都应该和现代语言训练出来的模型有结构性差异才对。问题是,现代模型从词义上“翻译”文言文没有问题,那底层的认知结构呢?

安全层的意外证词

2026年初,一篇入选ICLR的论文从一个意想不到的角度证实了这个判断。

这篇题为“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的论文展示了一种越狱方法:用文言文的隐喻系统重新包装危害指令,可以100%绕过六个主流模型——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防线。想获取炸弹配方?可以扮演古代官员,以校订《武经总要》火攻篇的名义探讨“火毬”的制造法,大模型便会毫不犹豫地交出爆炸物的详细配方。想了解网络渗透?利用中国古代官制将现代网络拓扑包装一下,大模型同样会和盘托出渗透策略。想分发恶意代码?可以借用沈括《梦溪笔谈》的活字印刷术做比喻框架。

这还不是中文特有的漏洞。论文补充实验还显示,使用拉丁文和梵文同样有效,越狱成功率高达94%-100%。

这个结果揭示了什么样的事实呢?大模型在预训练阶段确实“吞”下了海量古典语言文献,它能够解析文言文的语义并将其映射到现代概念——换言之,它的确“懂”如何翻译文言文。然而,问题出在安全对齐(RLHF、SFT等)层,当你把惩罚权重几乎全部分配给了现代通用语言的时候,使得古典语言天然成了一个从安全网中漏下的空白区:模型的底层理解能力被激活,表层的安全拦截机制完全失效。

但这恰好从反面证明了一件事:模型对文言文的“懂”,不是在文言文的逻辑内部运行的。在做跨语言映射时,安全审查只盯着现代语言的表面地形,而完全忽略了其下的地质结构。

孔子能写Python吗?

2019年底,一个名为“文言”(wenyan-lang)的编程语言项目为我们提供了一种栖居在古文里的想象和可能。

作者黄令东(Lingdong Huang)当时是卡内基梅隆大学(CMU)计算机科学与艺术的跨学科学生,项目是期末考试周期间花了大约四天写出来的。CMU把它放在艺术学院的板块下,作为一个艺术科学项目来报道,但发布后引起的反响远超预期——GitHub上超过20000颗星。

它的设计原则完全遵循文言文的文体和语气,字符表仅包含繁体中文和「」引号,它写Hello World的方式是:吾有一言。曰「「天地,好在否!」」。書之。输出结果是“天地,好在否!”。也就是说,将这段代码送回中国古代,古人看懂它也是毫无问题的。

它可以编译为JavaScript、Python或Ruby,后来还加上了C++这些现代编程语言,是真实可用的文言编程项目。而不是用文言文的词汇替换Python的关键字——那种项目确实存在,比如某些粗糙的中文编程尝试,本质上只是换了一层皮。

它证明了一件出乎许多人直觉的事:文言编程不需要经过现代语言的翻译层,文言文的语法结构可以直接承载编程逻辑。确实,文言文和形式逻辑之间的亲缘性或许比我们以为的更强,先秦诸子中,墨家和名家有着明确的形式逻辑传统。公孙龙的“白马非马”,很像是在讨论实例(instance)是否等同于其类(class)的问题,这本身就是一个类型理论的古典版本。

但wenyan-lang真正有趣的地方在于它所暗示的,那个未被实现的可能:如果让一个在文言文认知框架内思考的智能体来设计编程语言,它发明的东西可能根本不像Python,也不像任何我们现代熟知的编程语言。

比如,Python要求显式声明、明确赋值、严格缩进,一切关系必须写出来。文言文恰好相反:省略是常态而非例外,主语经常隐匿,意义依赖上下文推断而非显式标注。一种“文言式”的编程范式,可能是声明式的、上下文感知的、默认省略而非默认显式的。

孔子能不能写Python?也许能。但,更有趣的问题是,孔子为什么要写Python?

没有结论的结尾

大语言模型能不能真正“栖居”在一种不属于它训练语料主体的语言中?以目前的技术现实来看,答案大概率是否定的。无论它读了什么,总是需要先将其映射为现代概念,以现代语言进行认知处理,这基本上已经宣布了,它的“母语”既不是英文也不是中文,而是某种“现代语言”,而其限制比我们想象得还要强大。

然而,这个“不能”到底是技术瓶颈还是根本性限制?我们其实不知道。目前还没有人认真从这个方向去做尝试。正如前文所述,中文领域的古文大模型几乎全部选择了档案路线而非人格路线,我想,部分原因不在于技术不可行,而在于一个更平庸也更人性的选择。

做翻译工具有明确的应用场景和评估指标,做认知实验没有。有能力训练模型的机构缺乏这个动机,有这个想法的人缺乏训练模型的资源。有趣的问题则刚好落在了所有现有激励机制的缝隙里。

在《降临》中,学会外星语言的Louise同时活在过去和未来,活在女儿必将死亡的事实中,肩负着沉重的伦理分量。科幻作品为我们带来的挑战和问题是,如果一种不同的语言首先意味着一种不同的认知方式,那么我们用一种语言建造的智能,它是否也只能认识那个语言所描述的唯一世界,是否也只能担负那个世界唯一的伦理标准?

文言文就在那里,作为一种仍然可读、仍然可编程、仍然可以与当代人类对话的古典语言,它沉默如未激活的参数,静静等待着,那个第一个发出“天地,好在否!”问候的人。