惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Threat Research - Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
GbyAI
GbyAI
P
Proofpoint News Feed
L
LINUX DO - 热门话题
P
Palo Alto Networks Blog
A
About on SuperTechFans
T
Tenable Blog
M
MIT News - Artificial intelligence
IT之家
IT之家
I
Intezer
D
DataBreaches.Net
爱范儿
爱范儿
T
Threatpost
C
CERT Recently Published Vulnerability Notes
云风的 BLOG
云风的 BLOG
博客园 - 三生石上(FineUI控件)
WordPress大学
WordPress大学
K
Kaspersky official blog
大猫的无限游戏
大猫的无限游戏
A
Arctic Wolf
Y
Y Combinator Blog
Cyberwarzone
Cyberwarzone
酷 壳 – CoolShell
酷 壳 – CoolShell
D
Darknet – Hacking Tools, Hacker News & Cyber Security
H
Help Net Security
Microsoft Security Blog
Microsoft Security Blog
Spread Privacy
Spread Privacy
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
AWS News Blog
AWS News Blog
博客园 - 聂微东
C
Check Point Blog
S
Securelist
有赞技术团队
有赞技术团队
雷峰网
雷峰网
aimingoo的专栏
aimingoo的专栏
Last Week in AI
Last Week in AI
Stack Overflow Blog
Stack Overflow Blog
MongoDB | Blog
MongoDB | Blog
D
Docker
G
GRAHAM CLULEY
T
The Exploit Database - CXSecurity.com
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tailwind CSS Blog
L
Lohrmann on Cybersecurity
G
Google Developers Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
L
LangChain Blog

博客园 - amber lee zhao

(武义检察院)sqlplus执行sql脚本 windows下squid安装与配置 缓存服务器 System.Data.OracleClient requires Oracle client software version 8.1.7 or greater. Oracle Listener crash in Windows 【转】Session丢失原因分析 【转】Session丢失问题二 【转】Session丢失问题解决方法一 OracleMembershipProvider、OracleRoleProvider源代码 使用EnterpriseLibrary插入Oracle CLOB数据 使用System.Net.Mail发送邮件 - amber lee zhao 【转】oracle SQL性能优化 DataGridView导出为Excel文件 - amber lee zhao 使用HtmlAgilityPack批量抓取网页数据 OracleMembershipProvider与登录控件使用的技巧 - amber lee zhao 在ASP.NET中使用Quartz.net进行工作调度 结合OracleMembershipProvider开发简单的asp.net应用程序----配置web.config文件 C#版本的OracleMembershipProvider Double-Array Trie分词词典简述 [转] sharpICTCLAS 中在找出所有词组组合时的优化
.net下ICTCLAS原子分词和lucene的Token比较
amber lee zhao · 2007-08-15 · via 博客园 - amber lee zhao

sharpICTCLAS  参考:http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html
Lucene.net 参考:http://incubator.apache.org/lucene.net/

原子分词效率:短句,sharpICTCLAS快;超过1M的数据,Lucene.net快。
Lucene的优势:英文句子处理的好。
sharpICTCLAS的优势:只关注中文。

测试代码:
Lucene.net

static void Main(string[] args)
        
{
            
string sSentence = @"三星SHX-132型号的(手机)1元钱256.89元12.14%百分比12%。";
            StringBuilder sb 
= new StringBuilder();
            
for (int i = 0; i < 10000;i++ )
            
{
                sb.Append(sSentence);
            }


            DateTime start 
= DateTime.Now;
            TestToken(sb.ToString());
            DateTime finished 
= DateTime.Now;
            TimeSpan span 
= finished-start;
            Console.WriteLine(
"耗时:{0}毫秒",span.TotalMilliseconds);
            Console.ReadLine();
        }


        
public static void TestToken(string sSentence)
        
{

            StandardTokenizer tokenizer 
= new StandardTokenizer(new System.IO.StringReader(sSentence));
            Lucene.Net.Analysis.Token next 
= null;


            
while ((next = tokenizer.Next()) != null)
            
{
                
string str = next.TermText();
            }


        }

下一步考虑使用lucene的Token代替ICTCLAS的原子分词函数。

posted on 2007-08-15 12:15  amber lee zhao  阅读(1081)  评论(4)    收藏  举报

刷新页面返回顶部