ai.robots.txt阻止AI爬虫

codeqihan

发布于：2024年11月30日

次浏览

有的时候，我们可能不希望AI爬虫爬取数据进行LLM训练，这个时候，可以将AI的UA添加到robots.txt中以进行阻止。ai.robots.txt就是一个汇总AI爬虫的列表，帮助我们更好地阻止AI爬虫。
一般来说，大部分个人博客的内容许可协议都是CC BY-NC-SA 4.0。CC BY-NC-SA 4.0中有一条“非商业性使用 — 您不得将本作品用于商业目的。”，而ChatGPT等大部分LLM模型都属于商业性使用（Llama等开源模型也有可能被用于商业目的）。按照许可协议来说，使用内容进行商业目的本身是违反许可协议的（不过在意这个的应该不多），但目前AI爬虫并没有遵守许可协议，故只能使用WAF或robots.txt等手段阻止AI爬虫。
GitHub仓库地址：https://github.com/ai-robots-txt/ai.robots.txt
将仓库中的robots.txt文件的内容添加到robots.txt中即可

博客内容遵循署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议
本文永久链接是：https://www.codeqihan.com/post/ai.robots.txt/

更新于：2026年2月24日

AI爬虫

轻量级的探针-Beszel

简介 Beszel 是一个轻量级的服务器监控平台，包含 Docker 统计信息、历史数据和警报功能。它拥有友好的 Web 界面、简单的配置，并且开箱即用。它支持自动备份、多用户、OAuth 身...

甲骨文圣何塞ARM测评

今年2月申请的甲骨文圣何塞，前几天ARM放货了，开了一台，也记录一下融合怪结果系统是DD的Debian，硬盘VPU拉满（毕竟不收费，随便拉） 12345678910111213141516171...

推荐订阅源

codeqihan的博客