惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Latest news
Latest news
T
The Exploit Database - CXSecurity.com
博客园 - 三生石上(FineUI控件)
WordPress大学
WordPress大学
L
Lohrmann on Cybersecurity
aimingoo的专栏
aimingoo的专栏
B
Blog
T
Threat Research - Cisco Blogs
罗磊的独立博客
Application and Cybersecurity Blog
Application and Cybersecurity Blog
P
Proofpoint News Feed
P
Palo Alto Networks Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
宝玉的分享
宝玉的分享
博客园 - 司徒正美
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
T
Tor Project blog
阮一峰的网络日志
阮一峰的网络日志
Last Week in AI
Last Week in AI
Martin Fowler
Martin Fowler
酷 壳 – CoolShell
酷 壳 – CoolShell
Recorded Future
Recorded Future
D
DataBreaches.Net
Y
Y Combinator Blog
大猫的无限游戏
大猫的无限游戏
IT之家
IT之家
B
Blog RSS Feed
Scott Helme
Scott Helme
P
Proofpoint News Feed
V
Vulnerabilities – Threatpost
A
Arctic Wolf
Help Net Security
Help Net Security
L
LINUX DO - 最新话题
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Vercel News
Vercel News
AWS News Blog
AWS News Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
S
Schneier on Security
Hacker News: Ask HN
Hacker News: Ask HN
N
Netflix TechBlog - Medium
L
LangChain Blog
博客园 - 叶小钗
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
M
MIT News - Artificial intelligence
N
News and Events Feed by Topic
Webroot Blog
Webroot Blog
W
WeLiveSecurity

SEO 网站优化及网站推广

连续三次系统升级,直到 v9.0.5 更一个新 迁移到新的服务器 升级到 MovableType 8.4.2 升级到 MovableType 8.4.0 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(6) 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(4) 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(1) 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(5) 审计你的网页的各项指标 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(3) 安装 Ubuntu 24.04 (LTS), Webmin, Nginx, MariaDB, PHP8.3-FPM,Perl-Fastcgi 到 DigitalOcean 的 VPS(2) 最近在学习研究的几个东西 十月更新
网络爬虫,网络蜘蛛的问题
David Yin · 2025-03-18 · via SEO 网站优化及网站推广

在观察一个 Web 服务器的日志的时候,看到一个现象,有大量的网络爬虫,或者说网络蜘蛛来访问,抓取内容。这个访问数量有些过分。
看这个截图。

Screenshot 2025-03-17 174029.jpg排名最前的十位如下:

714,290 (36.96%) 101 (00.07%) 11.8 GiB (39.11%) GPTBot/1.2
47,085 (02.44%) 299 (00.20%) 8 GiB (26.31%) GoogleOther
9,350 (00.48%) 453 (00.30%) 578.1 MiB (01.87%) meta-externalagent/1.1
35,038 (01.81%) 20 (00.01%) 470.2 MiB (01.52%) Ai2Bot-Dolma
39,785 (02.06%) 852 (00.57%) 376.3 MiB (01.21%) AhrefsBot/7.0
32,944 (01.70%) 216 (00.14%) 375.7 MiB (01.21%) MJ12bot/v1.4.8
28,577 (01.48%) 3,695 (02.48%) 313 MiB (01.01%) ClaudeBot/1.0
3,953 (00.20%) 967 (00.65%) 297.4 MiB (00.96%) Bytespider
13,919 (00.72%) 943 (00.63%) 202.8 MiB (00.65%) Googlebot/2.1
22,576 (01.17%) 13 (00.01%) 170.3 MiB (00.55%) Scrapy/2.11.2

排最前面的几位就是 GPTBot, GoogleOther, A12Bot-dolma,之流。都属于人工智能派出来的网络蜘蛛,来各个网站抓取内容,而它们抓取的内容会怎样使用的,会给你的网站带来访客吗?

基本上是不会的,本质上,这些机器人会抓取你的内容,然后进行索引,对其重组织后,来产生人工智能所编写的内容。

这意味着任何用 ChatGPT 之类的智能工具所攥写的内容都是在剽窃你我的内容。

作为内容的创造者,你会愿意无偿提供内容给他们吗?

来看看 OpenAI 的 GPTBot 干了什么吧?

网站的站长允许 GPTBot 来抓取网站内容,就意味着允许 OpenAI:

  • 使用你的内容来训练人工智能模型
  • 使用你的网站信息来生成 AI 内容
  • 增加了额外的服务器负担,影响普通访客访问网站的效果

作为内容的创造者,我对滥用 AI 的能力,无偿使用原创者的作品,十分担忧,也很反对。

目前我采用了 robots.txt 来封锁 GPTBot 和其它的一些人工智能 robot。

Screenshot 2025-03-17 180113.jpg如果还有新出来的人工智能机器人,我不介意把他们加上去,在没有合理的使用原创内容方法之前,还是都封掉为好。