有的时候,我们可能不希望AI爬虫爬取数据进行LLM训练,这个时候,可以将AI的UA添加到robots.txt中以进行阻止。ai.robots.txt就是一个汇总AI爬虫的列表,帮助我们更好地阻止AI爬虫。
一般来说,大部分个人博客的内容许可协议都是CC BY-NC-SA 4.0。CC BY-NC-SA 4.0中有一条“非商业性使用 — 您不得将本作品用于 商业目的 。”,而ChatGPT等大部分LLM模型都属于商业性使用(Llama等开源模型也有可能被用于商业目的)。按照许可协议来说,使用内容进行商业目的本身是违反许可协议的(不过在意这个的应该不多),但目前AI爬虫并没有遵守许可协议,故只能使用WAF或robots.txt等手段阻止AI爬虫。
GitHub仓库地址:https://github.com/ai-robots-txt/ai.robots.txt
将仓库中的robots.txt文件的内容添加到robots.txt中即可
博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议
更新于:2026年2月24日























