很多站长都会遇到这样的困扰
网站每天消耗大量流量,排查服务器日志后才发现,这些流量大多来自毫无价值的垃圾蜘蛛。
这些垃圾蜘蛛不仅不会为网站带来任何正向价值,反而会持续占用服务器带宽和资源,拖慢网站加载速度,甚至影响正常用户访问。想要从根源上解决这个问题,最直接有效的方法就是屏蔽它们。
为此,我整理了一份robots.txt规则,专门用于屏蔽各类常见垃圾蜘蛛,现在分享给大家,建议收藏备用,避免后续需要时找不到。
以下是完整规则(建议直接复制到网站根目录使用):
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: SERankingBacklinksBot
Disallow: /如何应用这份规则?
登录服务器,找到网站根目录。
创建或修改 robots.txt,粘贴上述规则。
这份 robots.txt 规则能屏蔽哪些爬虫?
| User-agent | 所属公司/项目 | 主要用途 | 被禁止的原因 |
|---|---|---|---|
| AhrefsBot | Ahrefs | 用于收集网页数据以进行SEO分析和反向链接检查。 | 可能消耗大量服务器资源,影响网站性能。 |
| MJ12bot | Majestic-12 | 爬取网页以建立链接索引,支持Majestic搜索引擎的链接分析功能。 | 高频爬取可能导致服务器负载过高。 |
| DotBot | DotNetDotCom.org | 为SEO工具提供数据支持,收集网页信息。 | 爬取行为可能过于频繁,影响正常访问。 |
| SemrushBot | Semrush | 收集数据以支持SEO竞争分析、关键词研究等营销工具。 | 大量爬取可能导致资源占用过高。 |
| ZoominfoBot | ZoomInfo | 收集企业联系信息和公开数据,用于商业数据库。 | 可能抓取非公开信息或导致隐私问题。 |
| BLEXBot | Content ad | 爬取网页内容以生成广告或内容推荐。 | 可能抓取敏感内容或消耗过多带宽。 |
| aiHitBot | aiHit | 为aiHit公司收集企业数据,用于商业数据库。 | 爬取频率高或目标数据可能涉及隐私。 |
| Mail.RU_Bot | Mail.RU (俄罗斯邮件服务) | 为Mail.ru搜索引擎索引内容。 | 可能因爬取策略激进被网站屏蔽。 |
| XoviBot | Xovi (SEO工具) | 支持Xovi的SEO分析工具,爬取网页数据。 | 高频请求可能干扰正常服务。 |
| SERankingBacklinksBot | SE Ranking(海外知名 SEO 工具商) | 专门用来全网抓取、统计网站的反向链接(Backlinks) | 高频请求可能干扰正常服务。 |
























