惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
K
Kaspersky official blog
T
Threat Research - Cisco Blogs
PCI Perspectives
PCI Perspectives
www.infosecurity-magazine.com
www.infosecurity-magazine.com
P
Privacy International News Feed
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
U
Unit 42
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy & Cybersecurity Law Blog
O
OpenAI News
量子位
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
Cisco Blogs
AWS News Blog
AWS News Blog
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
美团技术团队
T
Threatpost
S
Schneier on Security
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
Cyber Attacks, Cyber Crime and Cyber Security
Last Week in AI
Last Week in AI
C
CERT Recently Published Vulnerability Notes
Blog — PlanetScale
Blog — PlanetScale
C
Cybersecurity and Infrastructure Security Agency CISA
F
Full Disclosure
博客园_首页
N
Netflix TechBlog - Medium
Security Latest
Security Latest
有赞技术团队
有赞技术团队
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
The Register - Security
The Register - Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Recent Announcements
Recent Announcements
博客园 - Franky
P
Palo Alto Networks Blog
Project Zero
Project Zero
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
H
Help Net Security
Hacker News: Ask HN
Hacker News: Ask HN
Cisco Talos Blog
Cisco Talos Blog
H
Heimdal Security Blog
The Hacker News
The Hacker News
博客园 - 【当耐特】
GbyAI
GbyAI

博客园 - HeFlying

站长选择广告联盟的建议:比较谷歌Adsense、百度联盟、阿里妈妈 - HeFlying - 博客园 AddThis & AddFeed WordPress插件发布 [转] 中国版AddThis(收藏按钮):方便读者收藏,增加博客流量! 博客开放模块、Widget、Gadget UWA开发:信用卡还款提醒日历(附代码) - HeFlying - 博客园 我们的“网站备案”怎么了? Google统计(Analytics)推出超强新功能 Google Adsense又添新广告投放形式:AdSense for Feeds 觅搜:使用Search API建立的元搜索引擎 2008-08-08:觅搜(改版)发布在奥运日 对“中文搜索引擎流量百度占74.88%”的解读 我们的网站备案 (不知道中国那么多通信管理局都是干什么吃的???) Flickr 被封! XSL学习笔记:XSLT优先级问题 “就业歧视”这个话题好象讨论得很热 Adobe Creative Suite 3 下载(包括MAC版) 和 收集的一些资料 微软发布IE开发者工具条1.0正式版 中国网络工程师侠客行大会 通讯录 搜索引擎专场:Jan Pedersen的Search Engine Secrets
Sitemap(搜索引擎网站地图)
HeFlying · 2008-08-16 · via 博客园 - HeFlying

什么是Sitemap(搜索引擎网站地图) - 觅搜博客|元搜索引擎研究-觅搜(metasoo.com)官方博客

引用Google上的一段话作说明:

用最简单的话来说,Sitemap 就是您网站上网页的列表。 创建并提交 Sitemap 有助于确保 Google 知道您网站上的所有网页,包括 Google 的正常抓取过程可能无法找到的网址。

觅搜(其实,就是我个人) 对它的定义很直接:

Sitemap就是一个/多个XML文件,以规定的格式提供给搜索引擎网址。

其实搜索引擎Sitemap 这可以让“网络爬虫”偷懒的东西就是Google的产物,现在它已经成了行业标准。(真的是一流企业卖标准,二流企业卖产品。)目前Sitemap的版本是0.9版,官方网站是:http://www.sitemaps.org/ (我这里很多时候是打不开的)。现在支持该标准的公司/网站有:GoogleYahooAskLiveIBM等等,国外的公司对于一项标准合作的态度比较明显,虽然这不是最伟大的发明。国内的搜索引擎目前好像都不支持的,这不是什么技术问题,主要是态度问题。目前的趋势看,我估计国内第一个支持Sitemap的搜索引擎是有道(呵呵,瞎猜的)。

其实百度也有类似的东西,叫做“互联网新闻开放协议”,只是xml格式不一样。不过其追随者好像寥寥无几,所以这项内容推出后也就没多少声音了。

Sitemap的作用:

以下引用Google的说明

如果网站属于下列情况,那么 Sitemap 会特别实用:

  • 网站含动态内容。
  • 网站有不容易被 Googlebot 在抓取过程中发现的页面,如有大量富 AJAX 或 Flash 内容的页面。
  • 网站为新网站且指向网站的链接不多。 (Googlebot 会跟随链接从一个网页到另一个网页抓取网络,因此,如果您的网站没有很好地链接,我们可能很难发现它。)
  • 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。

您还可以使用 Sitemap 向 Google 提供有关您网页的其他信息,包括:

  • 您网站上网页的更改频率。 例如:您可能每日都更新产品页,但每几个月才更新"我的简介"页一次。
  • 各网页上次修改的日期。
  • 您网站上各网页的相对重要性。 例如:主页的相对重要性为 1.0,类别页的相对重要性为 0.8,而个人博客条目或产品页的相对重要性则为 0.5。这个优先级只是说明特定网址相对于您网站上其他网址的重要性,并不会影响您的网页在搜索结果中的排名。

Sitemap格式:

具体格式请看说明:https://www.google.com/webmasters/tools/docs/zh_CN/protocol.html
如觅搜的简单sitemap: http://www.metasoo.com/MetaSoositemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.metasoo.com/</loc>
<lastmod>2008-08-08</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/duty.htm</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/about/privacy.htm</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.metasoo.com/MetaSoo/blog/</loc>
<lastmod>2008-08-12</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

要注意的是,对于内容比较多的网站,每个xml文件里的url数是有限制的,提供的每个 Sitemaps 文件包括的网址不得超过 50,000 个,并且未压缩时不能大于 10MB (10,485,760)。超出限制的要生成多个Sitemap文件,为了方便提交你可以制作一个索引文件。
如:天天牛市网的Sitemap:http://www.365bull.com/365bullcnsitemap.xml

<?xml version="1.0" encoding="UTF-8" ?>

- <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

- <sitemap>

<loc>http://www.365bull.com/365bullcnsitemap1.xml</loc>

<lastmod>2008-08-15T07:45:22+08:00</lastmod>

</sitemap>

- <sitemap>

<loc>http://www.365bull.com/365bullcnsitemap2.xml</loc>

<lastmod>2008-08-15T07:45:22+08:00</lastmod>

</sitemap>

- <sitemap>

<loc>http://www.365bull.com/365bullcnsitemap3.xml</loc>

<lastmod>2008-08-15T07:45:22+08:00</lastmod>

</sitemap>

</sitemapindex>

另外一种简单的方法就是将rss当作Sitenap提交,比如 觅搜博客就是将rss作为Sitenap提交的,搜索引擎收录效果非常好。

制作Sitemap文件:

制作Sitemap文件一般有三种方法:1、手工编辑;2、利用工具;3、自己编写后台程序。

一般对于小网站可以利用手工编辑。使用工具的一般有两种方式:一、模仿网络爬虫从客户端遍历,其实这种意义不大;二、放置程序到网站服务器端,遍历文件创建Sitemap,这种也有不足就是你要不停过滤那些没用的文件不被放入Sitemap。

有条件的站长还是推荐自己编写程序生成Sitemap。

Sitemapt提交:

Sitemapt提交也有两种方法:
一、Ping对方的地址 (这个具体情况以后再写)
二、手工提交到各搜索引擎:
Google: https://www.google.com/webmasters/tools/
Yahoo: http://sitemap.cn.yahoo.com/
Live: http://webmaster.live.com/

有关Sitemap和它的搜索引擎推广实践,我会继续写下去,希望关注觅搜博客