























我自己简易封装了一个分词器,使用Lucene.Net.类图如下:

使用测试如下:
Code
输出结果如下:

可见:
SimpleSpliter的分词方法是以空格、或标点分词,并去掉了标点;
StandarSpliter的粉刺方法是中文单字分词,英文以空格分词,并去掉了标点;
CnSpliter的分词方法是中文单字分词,对单个无意义的英文字母直接去掉了;-_-!
ICTCLAS的分词方法比较适合使用,对“我们“、”是“这样的无意义中文进行了过滤,中文分词效果也比较理想。
稍后贴出下载地址。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。