惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
博客园 - Franky
GbyAI
GbyAI
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
爱范儿
爱范儿
IT之家
IT之家
酷 壳 – CoolShell
酷 壳 – CoolShell
aimingoo的专栏
aimingoo的专栏
博客园_首页
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Recent Announcements
Recent Announcements
Scott Helme
Scott Helme
有赞技术团队
有赞技术团队
M
MIT News - Artificial intelligence
C
CERT Recently Published Vulnerability Notes
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Jina AI
Jina AI
F
Fortinet All Blogs
N
Netflix TechBlog - Medium
L
LangChain Blog
L
LINUX DO - 最新话题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
H
Hacker News: Front Page
MyScale Blog
MyScale Blog
P
Palo Alto Networks Blog
G
Google Developers Blog
Google DeepMind News
Google DeepMind News
AI
AI
T
Troy Hunt's Blog
Microsoft Azure Blog
Microsoft Azure Blog
阮一峰的网络日志
阮一峰的网络日志
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Vercel News
Vercel News
Microsoft Security Blog
Microsoft Security Blog
罗磊的独立博客
S
Secure Thoughts
大猫的无限游戏
大猫的无限游戏
博客园 - 叶小钗
人人都是产品经理
人人都是产品经理
Blog — PlanetScale
Blog — PlanetScale
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 三生石上(FineUI控件)
S
Security @ Cisco Blogs
Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
Attack and Defense Labs
Attack and Defense Labs

博客园 - 我要去桂林

一种面向搜索引擎的网页分块、切片的原理,实现和演示 C#:昨天,今天和明天:和 Anders Hejlsberg 座谈,第二部分 C#:昨天,今天和明天:和 Anders Hejlsberg 座谈,第一部分 什么是垂直搜索引擎(之二) ASP.NET 2.0 缓存翻译草稿 Boyer-moor 字符串搜索算法 多么乐alexa网站流量数据报告助手 关于 小叮咚中文分词 .net版本发布的变化 小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本 google排名影响因素大全(beta1) apache mod_rewrite 模块使用的几个例子 google,msn,百度,一搜------多么乐互联网索引量统计-----2004-04-19 多么乐互联网 google索引量统计 关于tail在unix和windows下的几种实现 多么乐发布 自动生成摘要测试版 CtrlC源代码搜索引擎---添加Asp.Net StartKit 系列搜索 发布:CtrlC源代码搜索引擎 MapReduce:Google的人间大炮 贝叶斯论坛垃圾广告屏蔽演示系统 - 我要去桂林
一种快速的未登陆词识别方法(原理和实现)
我要去桂林 · 2005-10-12 · via 博客园 - 我要去桂林

一种快速的未登陆词识别方法(原理和实现)

   
    最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

    算法的假设:
    1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

    测试文章:
    最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘    算法原理:
    首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
    PDH : initialize phrase dictionary
    QuerySpliter reInitialize dictionary.
    >>>8,9;9,10
    长今
    >>>237,238;238,239
    职场
    >>>595,596;596,597;597,598
    闵政浩
    >>>189,190;190,191
    韩剧
    >>>1111,1112;1112,1113;1113,1114
    郑云白
    >>>599,600;600,601
    连生
    >>>610,611;611,612
    主簿
    >>>975,976;976,977;977,978;978,979
    冷庙高香
    >>>1233,1234;1234,1235
    义字
    >>>559,560;560,561
    医女
    >>>561,562;562,563
    张德
    >>>3114,3115;3115,3116
    剩者
    >>>534,535;535,536
    济州
    >>>580,581;581,582
    选拨
    >>>2071,2072;2072,2073
    文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.
       
    相关连接:

基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
                       小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
                       Lucene使用者沙龙

     原帖地址