惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
V
Vulnerabilities – Threatpost
Attack and Defense Labs
Attack and Defense Labs
N
News and Events Feed by Topic
SecWiki News
SecWiki News
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
B
Blog
TaoSecurity Blog
TaoSecurity Blog
The Last Watchdog
The Last Watchdog
H
Hacker News: Front Page
Hacker News - Newest:
Hacker News - Newest: "LLM"
博客园_首页
D
Docker
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Y
Y Combinator Blog
W
WeLiveSecurity
N
News and Events Feed by Topic
F
Fortinet All Blogs
PCI Perspectives
PCI Perspectives
WordPress大学
WordPress大学
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
Forbes - Security
Forbes - Security
T
Tailwind CSS Blog
Hacker News: Ask HN
Hacker News: Ask HN
爱范儿
爱范儿
腾讯CDC
Last Week in AI
Last Week in AI
月光博客
月光博客
C
Cybersecurity and Infrastructure Security Agency CISA
P
Proofpoint News Feed
Help Net Security
Help Net Security
V
V2EX
C
Cyber Attacks, Cyber Crime and Cyber Security
C
CXSECURITY Database RSS Feed - CXSecurity.com
H
Heimdal Security Blog
L
LINUX DO - 最新话题
GbyAI
GbyAI
The Hacker News
The Hacker News
罗磊的独立博客
S
SegmentFault 最新的问题
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - 【当耐特】
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
V2EX - 技术
V2EX - 技术
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
O
OpenAI News
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻

codeqihan的博客

现代化的开源终端-Tabby 基于Rust开发的编辑器-Edit ChatGPT Atlas使用体验 联通宽带改桥接 Chrony安装以及配置 电信跨网QoS ungoogled-chromium浏览器简介 npm的高性能替代品pnpm 使用markdownlint-cli格式化Markdown文件 Nginx的安装以及配置 使用unattended-upgrades自动更新软件包 Debian使用Backports源 压缩网页体积 Debian切换至Testing/Sid版本 2024年度总结 轻量级的探针-Beszel 甲骨文圣何塞ARM测评 公共DOH收集 com又涨价了
ai.robots.txt阻止AI爬虫
codeqihan · 2024-11-30 · via codeqihan的博客

发布于:2024年11月30日

次浏览

有的时候,我们可能不希望AI爬虫爬取数据进行LLM训练,这个时候,可以将AI的UA添加到robots.txt中以进行阻止。ai.robots.txt就是一个汇总AI爬虫的列表,帮助我们更好地阻止AI爬虫。
一般来说,大部分个人博客的内容许可协议都是CC BY-NC-SA 4.0。CC BY-NC-SA 4.0中有一条“非商业性使用 — 您不得将本作品用于 商业目的 。”,而ChatGPT等大部分LLM模型都属于商业性使用(Llama等开源模型也有可能被用于商业目的)。按照许可协议来说,使用内容进行商业目的本身是违反许可协议的(不过在意这个的应该不多),但目前AI爬虫并没有遵守许可协议,故只能使用WAF或robots.txt等手段阻止AI爬虫。
GitHub仓库地址:https://github.com/ai-robots-txt/ai.robots.txt
将仓库中的robots.txt文件的内容添加到robots.txt中即可

博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议

本文永久链接是:https://www.codeqihan.com/post/ai.robots.txt/

更新于:2026年2月24日