惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
博客园 - Franky
GbyAI
GbyAI
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
爱范儿
爱范儿
IT之家
IT之家
酷 壳 – CoolShell
酷 壳 – CoolShell
aimingoo的专栏
aimingoo的专栏
博客园_首页
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Recent Announcements
Recent Announcements
Scott Helme
Scott Helme
有赞技术团队
有赞技术团队
M
MIT News - Artificial intelligence
C
CERT Recently Published Vulnerability Notes
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Jina AI
Jina AI
F
Fortinet All Blogs
N
Netflix TechBlog - Medium
L
LangChain Blog
L
LINUX DO - 最新话题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
H
Hacker News: Front Page
MyScale Blog
MyScale Blog
P
Palo Alto Networks Blog
G
Google Developers Blog
Google DeepMind News
Google DeepMind News
AI
AI
T
Troy Hunt's Blog
Microsoft Azure Blog
Microsoft Azure Blog
阮一峰的网络日志
阮一峰的网络日志
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
罗磊的独立博客
S
Secure Thoughts
大猫的无限游戏
大猫的无限游戏
博客园 - 叶小钗
人人都是产品经理
人人都是产品经理
Blog — PlanetScale
Blog — PlanetScale
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 三生石上(FineUI控件)
S
Security @ Cisco Blogs
Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
Attack and Defense Labs
Attack and Defense Labs

博客园 - 我要去桂林

一种面向搜索引擎的网页分块、切片的原理,实现和演示 C#:昨天,今天和明天:和 Anders Hejlsberg 座谈,第二部分 C#:昨天,今天和明天:和 Anders Hejlsberg 座谈,第一部分 一种快速的未登陆词识别方法(原理和实现) ASP.NET 2.0 缓存翻译草稿 Boyer-moor 字符串搜索算法 多么乐alexa网站流量数据报告助手 关于 小叮咚中文分词 .net版本发布的变化 小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本 google排名影响因素大全(beta1) apache mod_rewrite 模块使用的几个例子 google,msn,百度,一搜------多么乐互联网索引量统计-----2004-04-19 多么乐互联网 google索引量统计 关于tail在unix和windows下的几种实现 多么乐发布 自动生成摘要测试版 CtrlC源代码搜索引擎---添加Asp.Net StartKit 系列搜索 发布:CtrlC源代码搜索引擎 MapReduce:Google的人间大炮 贝叶斯论坛垃圾广告屏蔽演示系统 - 我要去桂林
什么是垂直搜索引擎(之二)
我要去桂林 · 2005-08-29 · via 博客园 - 我要去桂林

什么是垂直搜索引擎(之二)

垂直搜索引擎的三个特点:

1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
    比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;
          股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点;
2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据
    比如:我们找工作关注的:
        职位信息: 软件工程师;
        公司名称,行业名称:软件公司,外包行业等;
        地点:北京,海淀;
3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:
        比如: 找:海淀 软件工程师 的工作等。

垂直搜索引擎站点的8条准则:

1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和
Yahoo,Google等通用搜索的的抓取方向重叠。
    目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点;

2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况
    我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。
3、深入分析垂直搜索引擎的索引数据特点
    垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁
垒太高,很可能出师未杰身先死。
4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的
5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时
6、垂直搜索引擎的web 2.0 需求
    垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积
分等机制,使搜索结果更加“垂直”。
7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息
    这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是
让 用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创 的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途 径是一个关键部分。
8、垂直搜索引擎的社区化特征
    这一条和第9条是相关的。
    俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合

    相关连接:什么是垂直搜索引擎

     原帖地址