























Kefir 是一个小型 C compiler,源代码托管在 sourcehut(一个以 git 和邮件为中心的开源代码托管平台)上。作者宣布停止公开开发,理由是自己越来越不愿意无偿公开代码,因为大量 LLM crawler 会无视 robots.txt(网站告知爬虫抓取边界的惯例文件)并把开源内容吸进训练数据。评论迅速分成两大阵营:一边认为这破坏了 FOSS(Free and Open Source Software,Free/开源软件)的社会契约,另一边则强调 GPL、MIT 等许可证从未禁止商业使用或模型训练。随后讨论又延伸到 copyright、derivative work(派生作品)和 fair use(合理使用)这些法律概念,以及网站防爬虫和对 bot 施加强制惩罚的现实办法。
发帖人的核心情绪是:公开发布代码不再是默认善意行为,而是会被 LLM crawler 当成免费训练原料。评论里多次提到 robots.txt 被无视、网站被抓取流量拖垮,甚至有人开始考虑把站点改成密码墙或邮件审批才能自保。几位开发者说自己也开始减少或停止公开发布,转而经营只给自己用的私有项目,甚至直言 AI 时代让写代码这件事变得更像徒劳。整个讨论反映的是发布动机被重估,而不只是单纯的技术厌恶。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
另一派认为,这种反应更多是在把 LLM 使用上升成对 FOSS 的泛道德化。有人强调 GPL、MIT 这类许可证本来就允许商业使用和广泛再利用,公开发布的前提从来不是“只能被好人使用”,也不可能限定下游是否拿去做模型训练。还有人说,若真的不接受这种交换,就应该从一开始不发布,而不是事后把不受欢迎的用途说成违约。对他们来说,真正的问题是具体的版权执法或产品行为,而不是 open source 本身失效。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
争论最密集的是 copyright 里的 derivative work(派生作品)到底该怎么界定。支持者把训练集比作 anthology(选集)或压缩后的语料库,认为只要模型能复现某个项目的实质代码,输出就应受原许可证约束,甚至模型权重本身也可能构成派生物。反对者则强调,copyright 保护的是具体表达,不是抽象模式或“学到了什么”,LLM 更像人类学习后再写出新代码,而不是把原文复制进输出。双方还拉出 Markov chain、transpiler、Hamlet、Emscripten 等类比,承认真正的灰区往往是那些确实逐字复现的极端案例。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
不少评论把问题直接归结为爬虫和 bot 对网站基础设施的消耗,而不只是版权争吵。有人认为大量自动化流量正在把“高信任互联网”拖成“低信任互联网”,因为抓取者无视 robots.txt、反复扫站,甚至让小站 100GB 级内容被一遍遍搬空。应对方案从最简单的用户名/密码墙、邮件申请访问,到按请求收费、提高法律罚则甚至刑事威慑都有;也有人提醒,现有的 HTTP 和 IP 层限流、封禁只是临时补丁。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
Kefir 本身也得到不少正面评价:有人说它是少数能通过完整 gcc torture tests 的小型 C compiler,虽然不如 tcc 快,但更正确,源码被形容得像一件作品。与此同时,关于 AI 时代写作和编程价值的焦虑很强,有人坚持手写实现才有乐趣,也有人认为 LLM 让代码变得更像廉价仿作,正在削弱原创和协作的意义。还有人把未来描述成 slop 泛滥、创造停滞,甚至说如果一个项目本来就是 one-person show,停止公开开发几乎等于终结,除非有人 fork。整体情绪介于惋惜、怀疑和退缩之间。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]
GNU GPLv3: 一种强 copyleft 开源许可证,要求基于其代码的衍生作品在发布时继续开放源码。
copyleft: 用版权法反向保护自由软件的机制,要求下游传播时保留同样的自由与开放条件。
robots.txt: 网站给爬虫的抓取规则文件,通常用来声明哪些路径不应被抓取,但一般不具强制力。
derivative work / 派生作品: 基于原作品改写、转换或再表达的作品,是这场关于 LLM 和版权争议的核心概念。
fair use(合理使用): 美国版权法中的例外原则,常被拿来争论训练数据或模型输出是否可合法使用。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。