惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Jina AI
Jina AI
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
Threat Research - Cisco Blogs
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Hugging Face - Blog
Hugging Face - Blog
WordPress大学
WordPress大学
阮一峰的网络日志
阮一峰的网络日志
S
Schneier on Security
博客园 - 三生石上(FineUI控件)
P
Proofpoint News Feed
G
Google Developers Blog
Project Zero
Project Zero
小众软件
小众软件
NISL@THU
NISL@THU
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
V
Vulnerabilities – Threatpost
B
Blog RSS Feed
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
宝玉的分享
宝玉的分享
博客园 - 司徒正美
Simon Willison's Weblog
Simon Willison's Weblog
Schneier on Security
Schneier on Security
G
GRAHAM CLULEY
GbyAI
GbyAI
Recent Announcements
Recent Announcements
Cisco Talos Blog
Cisco Talos Blog
C
Cisco Blogs
C
CXSECURITY Database RSS Feed - CXSecurity.com
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
人人都是产品经理
人人都是产品经理
C
CERT Recently Published Vulnerability Notes
罗磊的独立博客
T
Tailwind CSS Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
I
Intezer
Blog — PlanetScale
Blog — PlanetScale
月光博客
月光博客
PCI Perspectives
PCI Perspectives
S
Security @ Cisco Blogs
Google Online Security Blog
Google Online Security Blog
M
MIT News - Artificial intelligence
C
Cybersecurity and Infrastructure Security Agency CISA
T
Threatpost
B
Blog
The Hacker News
The Hacker News
Attack and Defense Labs
Attack and Defense Labs
腾讯CDC
T
Tenable Blog
酷 壳 – CoolShell
酷 壳 – CoolShell

codeqihan的博客

现代化的开源终端-Tabby 基于Rust开发的编辑器-Edit ChatGPT Atlas使用体验 联通宽带改桥接 Chrony安装以及配置 电信跨网QoS ungoogled-chromium浏览器简介 npm的高性能替代品pnpm 使用markdownlint-cli格式化Markdown文件 Nginx的安装以及配置 使用unattended-upgrades自动更新软件包 Debian使用Backports源 压缩网页体积 Debian切换至Testing/Sid版本 2024年度总结 轻量级的探针-Beszel 甲骨文圣何塞ARM测评 公共DOH收集 com又涨价了
ai.robots.txt阻止AI爬虫
codeqihan · 2024-11-30 · via codeqihan的博客

发布于:2024年11月30日

次浏览

有的时候,我们可能不希望AI爬虫爬取数据进行LLM训练,这个时候,可以将AI的UA添加到robots.txt中以进行阻止。ai.robots.txt就是一个汇总AI爬虫的列表,帮助我们更好地阻止AI爬虫。
一般来说,大部分个人博客的内容许可协议都是CC BY-NC-SA 4.0。CC BY-NC-SA 4.0中有一条“非商业性使用 — 您不得将本作品用于 商业目的 。”,而ChatGPT等大部分LLM模型都属于商业性使用(Llama等开源模型也有可能被用于商业目的)。按照许可协议来说,使用内容进行商业目的本身是违反许可协议的(不过在意这个的应该不多),但目前AI爬虫并没有遵守许可协议,故只能使用WAF或robots.txt等手段阻止AI爬虫。
GitHub仓库地址:https://github.com/ai-robots-txt/ai.robots.txt
将仓库中的robots.txt文件的内容添加到robots.txt中即可

博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议

本文永久链接是:https://www.codeqihan.com/post/ai.robots.txt/

更新于:2026年2月24日