惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园_首页
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
P
Proofpoint News Feed
G
Google Developers Blog
B
Blog
Engineering at Meta
Engineering at Meta
阮一峰的网络日志
阮一峰的网络日志
The Register - Security
The Register - Security
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 叶小钗
The Cloudflare Blog
The Hacker News
The Hacker News
D
Darknet – Hacking Tools, Hacker News & Cyber Security
C
CXSECURITY Database RSS Feed - CXSecurity.com
雷峰网
雷峰网
F
Fortinet All Blogs
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
H
Hackread – Cybersecurity News, Data Breaches, AI and More
酷 壳 – CoolShell
酷 壳 – CoolShell
Last Week in AI
Last Week in AI
T
Threat Research - Cisco Blogs
A
About on SuperTechFans
量子位
Recorded Future
Recorded Future
博客园 - 三生石上(FineUI控件)
H
Help Net Security
Help Net Security
Help Net Security
P
Palo Alto Networks Blog
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
T
Troy Hunt's Blog
W
WeLiveSecurity
V
Vulnerabilities – Threatpost
T
The Exploit Database - CXSecurity.com
Know Your Adversary
Know Your Adversary
Apple Machine Learning Research
Apple Machine Learning Research
Scott Helme
Scott Helme
N
News | PayPal Newsroom
AWS News Blog
AWS News Blog
D
DataBreaches.Net
Blog — PlanetScale
Blog — PlanetScale
MongoDB | Blog
MongoDB | Blog
B
Blog RSS Feed
腾讯CDC
J
Java Code Geeks
Microsoft Azure Blog
Microsoft Azure Blog
TaoSecurity Blog
TaoSecurity Blog
GbyAI
GbyAI
Y
Y Combinator Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
D
Docker

博客园 - 周奇

程序员大杯具:蜗居中的小贝是搞C++的 APS.NET获取用户端真实IP - 周奇 - 博客园 获取Repeater中TextBox中的值 - 周奇 - 博客园 Repeater 实现批量,删除.全选.分页 - 周奇 - 博客园 Repeater 实现删除 - 周奇 - 博客园 Js做的动态Flash - 周奇 - 博客园 设为首页代码大全 - 周奇 - 博客园 asp.net不刷新显示隐藏的办法(心得) - 周奇 - 博客园 统计网页访问量的JAVA Script代码 - 周奇 - 博客园 解决IE6、IE7、Firefox兼容最简单的CSS Hack 过滤html(转) - 周奇 - 博客园 联合查询 sql语句的联合查询(join 用法) 功能超多的JS验证表单大全 Repeater 删除 记录 功能 实现 链接数据库超时 向google,baidu,yahoo,msn,sogou等搜索引擎提交网站 娶个女程序员的好处 最简单的mp3播放器,只有播放和暂停
Google和百度收录网站页面的比较
周奇 · 2009-08-10 · via 博客园 - 周奇

Google和Baidu收录网站页面的标准是不同的。我用一句话来形容,就是Google更乐于收录大站的页面,百度则乐于收录新站的页面。

  为此我做一个实验:先申请了一个新域名,在上面放一个网站,然后不在其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这证实了我以前的猜测。

  这说明了什么呢?说明百度比Google好吗?绝对不是的。因为Baidu和Google收录页面的标准是完全不同的。

  Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu的这种不按网页级别的收录方式其实有很大的恶果,最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu就会立刻收录(25000页以内),这等于变相的鼓励大家去做垃圾站,去盲目采集。当垃圾站横行的时候,Baidu再通过人工的方式封站,甚至一些百度业务员对于大流量的网站还会要求其站长办理百度竞价排名。

  这两种收录方式哪种更好呢?我个人认为Google的这种收录方式是比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google通过给予新站给出一定的“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能依靠人工方式手动地删除垃圾站。对于收录网站的具体操作上,Google的爬虫显得较为“体贴”站长-Google爬虫占用服务器的资源非常少,通常是先用head来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守robots规则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。

  当然,百度这种“贪婪”爬虫抓取方法,虽然会让用户能够在百度搜索出一些Google里搜索不到的页面,但这实在是损人利己。其带给网站站长不少负面效果:服务器和带宽资源过度消耗,垃圾站被变相鼓励了,原创的有特色的网站则被边缘化,MP3音乐网站则更苦不堪言-自己的MP3被百度盗链后带来大量文件下载却没有带来页面访问。

  因此,中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。

我个人认为.我看到百度就烦..垃圾