引用 1
游客 [ IP:125.33.130.* ]
2008-10-11 01:09:14 
Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来。目前Lucene.Net的分词库很不完善,实际应用价值不高。唯一能用在实际场合的StandardAnalyzer类,效果也不是很好。内置在Lucene.Net里的分词都被放在 ...

Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来。目前Lucene.Net的分词库很不完善,实际应用价值不高。唯一能用在实际场合的StandardAnalyzer类,效果也不是很好。内置在Lucene.Net里的分词都被放在项目的Analysis目录下,也就是Lucene.Net.Analysis命名空间下。分词类的命名一般都是以“Analyzer”结束,比如StandardAnalyzer,StopAnalyzer,SimpleAnalyzer等。全部继承自Analyzer类。而它们一般各有一个辅助类,一般以”“Tokenizer”结尾,分词的逻辑大都在辅助类完成。
使用Lucene.Net,要很好地使用Lucene.Net,必须理解分词,甚至能自己扩展分词。如果只使用拉丁语系,那么使用内置的分词可能足够了,但是对于中文肯定是不行的。目前中文方面的分词分为单字分词,二元分词,词库匹配,语义理解这几种。StandardAnalyzer类就是按单字分,二元分就是把两个字作为一组拆分,而词库的话肯定是有一个复杂的对比过程,语义理解的就更加复杂了。这是
关键词:lucene  介绍  开发  
验证码:
  
美女(2887)  网站(1509)  下载(1498)  空间(1181)  歌曲(1143)  如何(1101)  免费(1048)  经典(1045)  小说(980)  广告(975)  赚钱(968)  创业(954)  方法(921)  网络(913)  视频(905)  手机(873)  电影(865)  最新(851)  旅游(796)  奥运(785)  游戏(773)  云南(742)  博客(736)  云南旅游(696)  个性(696)  蛋糕(691)  大全(687)  十大(638)  富豪(630)  介绍(629)