惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
博客园 - Franky
GbyAI
GbyAI
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
爱范儿
爱范儿
IT之家
IT之家
酷 壳 – CoolShell
酷 壳 – CoolShell
aimingoo的专栏
aimingoo的专栏
博客园_首页
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Recent Announcements
Recent Announcements
Scott Helme
Scott Helme
有赞技术团队
有赞技术团队
M
MIT News - Artificial intelligence
C
CERT Recently Published Vulnerability Notes
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Jina AI
Jina AI
F
Fortinet All Blogs
N
Netflix TechBlog - Medium
L
LangChain Blog
L
LINUX DO - 最新话题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
H
Hacker News: Front Page
MyScale Blog
MyScale Blog
P
Palo Alto Networks Blog
G
Google Developers Blog
Google DeepMind News
Google DeepMind News
AI
AI
T
Troy Hunt's Blog
Microsoft Azure Blog
Microsoft Azure Blog
阮一峰的网络日志
阮一峰的网络日志
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
罗磊的独立博客
S
Secure Thoughts
大猫的无限游戏
大猫的无限游戏
博客园 - 叶小钗
人人都是产品经理
人人都是产品经理
Blog — PlanetScale
Blog — PlanetScale
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 三生石上(FineUI控件)
S
Security @ Cisco Blogs
Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
Attack and Defense Labs
Attack and Defense Labs

博客园 - zhouyongguo

最省力的多语言解决方案 软件的互联网基因 工作流设计图 手机、未来、饭碗 “智能”的随想 软件也是仿生学 软件交互设计原则 把软件做成艺术品 从人脑到搜索引擎的畅想 权限控制和法官判罪 关于程序员的技能 面对各不相同的业务功能的表单系统架构 项目型企业业务模型简单分析 关于软件的交互性设计 关于正规化 - zhouyongguo 知识管理系统模型浅见 使用Silverlight 实现工作流流程定义 软件的世界(1):认识现实世界 - zhouyongguo - 博客园 采用ASP.NET 2.0的Callback机制构建轻量级的AJAX架构
找到最重要的知识
zhouyongguo · 2012-01-06 · via 博客园 - zhouyongguo

找到最重要的知识

Posted on 2012-01-06 10:52  zhouyongguo  阅读(331)  评论()    收藏  举报

找到最重要的知识  

     提起google,不仅会想起快速准确的检索,也会提到其中最重要的pagerank技术,作为google的核心 技术他是其创始人在斯坦福大学开发的一套网页评价技术。简单的解说,就是“从许多优质的网页链接过来的网页,必定还是优质网页”,pagerank利用互 联网独特的民主特性及其巨大的链接结构,在浩如烟海链接资源中提取上亿个超级k链接进行分析,制作出巨大的网络地图。依据这些信息计算出网页的级别。这个 级别依旧是:当网页a链接到网页b时,就认为网页a投了网页一票,google以其复杂自动的搜素方法排除人为因素对搜索结果的影响。

    但是作为知识检索工具我们要找到适合自己有用的知识依然是一件困难的事情。

a. pagerank算法使得pagerank最多的网页往往是新浪那样的大型门户网站,用户需要点击进去的不是超链的列表而是具体的知识。

b. Pagerank按照建立在超链的分析模型之上,统计出每一个超链的阻尼给与评价,但是现在用户目前更喜欢通过搜索引擎去获取知识,而不是超链路由。

c. 许多重要的知识和文献并不比娱乐新闻被转载。

我们试图构建更好的能够在使用中简单学习的搜索引擎。

1. 信息活性和查看或者创建的时间相关,被用户搜索后点击浏览或者第一次被抓取的时间越近活性越大。

2. 用户通过搜索引擎搜索信息,查看摘要,信息被查看的次数越多,记忆被加强,活性越大。

3. 随着时间推移,信息的活性逐渐衰减,多次被搜索查看的信息衰减速度缓慢

4. 相关信息会被联想,活性互相加强。

5. 通俗的讲,就是借助用户在搜索过程中的点击,将单此搜索过程中的点击信息关联起来,他们的活性互相得到加强。

6. 按照信息的活性对信息排序

我们抓取博客园25万资料进行采样分析,通过Lucene.Net构建搜索引擎进行分析论证。和博客园在搜索信息进行比较。

活性评级公式:(0.5+0.1/s+ ∑ (1/n*h) 其中那表示关联信息个数,h表示每个关联信息的活性

衰减曲线:Fx)=Exp(s)*10/(x-2) 其中x是时间增量 s是重复次数