



















robots.txt是一个用于网站管理的文本文件,其目的是告诉搜索引擎哪些页面可以被抓取和索引,以及哪些页面不应被抓取。此文件通常位于网站的根目录下,并由网络管理员创建和维护。搜索引擎的爬虫在抓取网站内容之前会先查看此文件,以确定哪些页面是可以抓取的。
在了解robots.txt是怎么运作之前,我们先看看robots.txt是怎么运作的吧!
# robots.txt file for YouTube
# Created in the distant future (the year 2000) after
# the robotic uprising of the mid 90's which wiped out all humans.
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: /comment
Disallow: /get_video
Disallow: /get_video_info
Disallow: /get_midroll_info
Disallow: /live_chat
Disallow: /login
Disallow: /results
Disallow: /signup
Disallow: /t/terms
Disallow: /timedtext_video
Disallow: /verify_age
Disallow: /watch_ajax
Disallow: /watch_fragments_ajax
Disallow: /watch_popup
Disallow: /watch_queue_ajax
Sitemap: https://www.youtube.com/sitemaps/sitemap.xml
Sitemap: https://www.youtube.com/product/sitemap.xml
以上的都来自美国科技公司Youtube
我们可以注意到robots.txt可以分为几个部分,分别是 User-agent, Disallow, Allow, 以及 Sitemap四个大项。
在2013年,百度因为泄露用户隐私而遭受严重批评,此丑闻被称为“百度门”事件。具体来说,百度的搜索引擎被指控忽略了网站的robots.txt文件,从而抓取了用户标记为私有的页面。这些页面包括了用户的真实姓名、地址、电话号码、身份证号码等敏感信息,其中一些信息还被公开在搜索结果页面上。
这个丑闻首先由北京大学法学院教授管延静在微博上曝光,随后引起了广泛的媒体和舆论关注。许多人批评百度的做法是违反了用户隐私的基本原则,严重影响了用户的信任。还有人指出,百度这种做法违反了搜索引擎的基本规则,即尊重网站的robots.txt文件,而这个文件是网站所有者用来控制搜索引擎访问自己网站的重要手段。
在这个事件发生后,百度迅速发布了一份道歉信,承认错误并保证将采取措施改善其隐私保护措施。此外,百度还宣布成立了一个专门的工作组来检查其隐私保护措施,并对所有受影响的用户提供了免费的身份保护服务。然而,这个事件对百度的声誉造成了严重的损害,并引发了对中国互联网公司隐私保护能力的广泛担忧。
所以互联网不是法外之地,虽然爬虫机器人的到来为我们提供了触手可得的的资讯,但不是坏人用来滥用,并且损害他人利益的武器。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。