26 | June | 2014 | LongSheng

使用Lucene.Net实现全文检索

目录一 Lucene.Net概述二分词三索引四搜索五实践中的问题一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库，其源码包括“核心”与“外围”两部分。外围部分实现辅助功能，而核心部分包括： Lucene.Net.Index 提供索引管理，词组排序。 Lucene.Net.Search 提供查询相关功能。 Lucene.Net.Store 支持数据存储管理，主要包括I/O操作。 Lucene.Net.Util 公共类。 Lucene.Net.Documents 负责描述索引存储时的文件结构管理。 Lucene.Net.QueryParsers 提供查询语法。 Lucene.Net.Analysis 负责分析文本。全文检索流程如下：一个简单的全文检索实例：创建索引：关键代码形如：

static void createIndex(string title, string content)

{

LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();

LN.Index.IndexWriter iw = new LN.Index.IndexWriter("Index", analyzer, false);

LN.Documents.Document document = new LN.Documents.Document();

document.Add(new LN.Documents.Field("title", title, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));

document.Add(new LN.Documents.Field("content", content, LN.Documents.Field.Store.YES, LN.Documents.Field.Index.TOKENIZED));

iw.AddDocument(document);

iw.Optimize();

iw.Close();

}

查询：关键代码形如：

　　　　 static List<Item> search(string keyWord)

{

List<Item> results = new List<Item>();

LN.Analysis.Analyzer analyzer = new LN.Analysis.Standard.StandardAnalyzer();

LN.Search.IndexSearcher searcher = new LN.Search.IndexSearcher("Index");

LN.QueryParsers.MultiFieldQueryParser parser = new LN.QueryParsers.MultiFieldQueryParser(new string[] { "title", "content" }, analyzer);

LN.Search.Query query = parser.Parse(keyWord);

LN.Search.Hits hits = searcher.Search(query);

for (int i = 0; i < hits.Length(); i++)

{

LN.Documents.Document doc = hits.Doc(i);

results.Add(new Item() { Title = doc.Get("title"), Content = doc.Get("content") });

}

searcher.Close();

return results;

}

二分词（一）内置分词器分词（切词）是实现全文检索的基础，之所以我们能够让机器理解我们的自然语言，是因为有了分词的帮助。分词工作由Analyzer类完成，它负责把文本切成Token序列，Token就是索引中的单词。Lucene.Net在两个地方用到分词：创建文档索引和分析搜索关键字。其过程示意如下：由此可知，在创建索引和搜索时，必须使用同样的分词器，保证其切出相同的Token才能检索到结果。（Lucene.Net把查询关键字中的单词叫做“Term”，Term和Token的文本是一样的，只是某些属性不一样。） Lucene.Net实现了一些分词器，其对英文支持较好，但是对中文支持欠佳。针对内置分词器测试结果如下：关键代码形如：

private static List<string> cutWords(string words, Analyzer analyzer)

{

List<string> results = new List<string>();

TokenStream ts = analyzer.ReusableTokenStream("", new StringReader(words));

Token token;

while ((token = ts.Next()) != null)

{

results.Add(token.TermText());

}

ts.Close();

return results;

}

可见，除了StandardAnalyzer外，其它分词器对中文基本无法处理，需要用户自行解决。（二）分词过程分词实际是由以下类型完成：查看WhitespaceAnalyzer的部分源码如下：

　　 public sealed class WhitespaceAnalyzer:Analyzer

{

public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)

{

return new WhitespaceTokenizer(reader);

}

　　　　 ...

}

由此可见，WhitespaceAnalyzer的工作都是交给WhitespaceTokenizer来完成的，并且没有使用筛选器，这也与之前测试的结果相符。我们可以利用TokenStream的派生类型来实现自定义分词器。例如修改上述代码来得到一个新的分词器，功能类似WhitespaceAnalyzer，不同的是将大写字母变为小写，其代码形如：

public sealed class NewWhitespaceAnalyzer:Analyzer

{

public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)

{

TokenStream ts = new WhitespaceTokenizer(reader);

return new LowerCaseFilter(ts);

}

　　　　 ...

}

（三）中文分词显然，用户可以自定义分词器，来实现中文分词。但是，大多数用户不熟悉中文分词算法，同时也没有时间和精力来实现自定义分词，毕竟分词并不是我们系统的核心功能。因此，笔者引用了另一个中文分词组件——盘古分词。测试结果如下：盘古分词使用步骤如下： Setp 1：添加相关程序集引用　　这里需要添加2个程序集，PanGu.dll（盘古分词的核心组件）和PanGu.Lucene.Analyzer.dll（盘古分词的Lucene组件）。 Step 2：添加中文分词库 Step 3：添加并设置配置文件 Step 4：在Lucene.Net使用盘古分词 PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer，与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer，语法与Lucene.Net内置分词器相同。 Step 5：维护分词库使用DictManage.exe管理和维护词库：三索引（一）索引的存储结构为了方便索引大量文档，Lucene.Net中的一个索引包括多个子索引，叫做Segment（段）。每个Segment包括多个可搜索的文档，叫做Document；每个Document包括多个Field；每个Field又包括多个Term。综上所述，Lucene.Net的索引文件的逻辑结构如下：索引文件的物理表示如下： Lucene.Net把一个文档写入索引时，首先生成这个文档的到排索引，然后再把文档的倒排索引合并到段的倒排索引中。（二）常用类型 Directory Lucene.Net的Directory类型实现索引的存储。常用类型继承树如下： IndexWriter 负责将索引写入Directory。Lucene通过设置缓存来提供写索引的速度，IndexWriter有几个参数来调整缓存的大小，控制Segment的数量，以及写索引的频率：合并因子（mergeFactor）这个参数决定一个索引块中可以存放多少文档（Document）以及把磁盘上的索引段（Segment）合并成一个大索引段的频率。该参数默认值为10。在默认情况下，缓存中Document数达到10时，所有的文档将写入一个新的Segment。并且，如果Directory的Segment的个数达到10，这10个索引块会被合并成一个新的Segment。对于大量文档来说，这个值大一些会更好。可以通过“SetMergeFactor(int mergeFactor)”方法来设置、最小合并文档数（minMergeDocs）、最大缓存文档数（maxBufferedDocs）默认值为10，它决定缓存中Document数量达到多少才能将他们写入磁盘。该值越大越消耗内存，I/O操作越少。（本处，笔者也有些糊涂，笔者感觉两者类似，不知道具体区别，若理解有误还请读者赐教。）最大合并文档数（maxMergeDocs）默认值为Integer.MAX_VALUE，它决定一个索引段（Segment）中的最大文档（Document）数。该值越大越高效，因为默认值以及很大了所以不用改变。最大域长度（maxFieldLength）默认值10000，表示截取该域中的前10000个Term，前10000个以外的Term将不被索引和检索。该值可在索引中随时更改，并即时生效（仅对之后的操作生效，一般该值设置为Integer.MAX_VALUE）。 IndexWriter的常用方法包括： Flush/Commit Flush方法与Commit方法相同，都是把缓存中的数据提交，可以清除缓存。 Close 无论是否发生异常都必须调用Close方法，该方法将对文件进行解锁，并完成Flush方法的功能。 Optimize Optimize方法用于优化索引，执行相当耗时。 Document 包含了可索引文档的信息。每个Document都有一个编号，但该编号并非永远不变。 Field 类似实体的某个属性，就像数据库中的一个列，其成员如下：（可以看到，Index的某些字段我给出的相同的注释，这是因为向下兼容的目的而具有相同的作用。注：高亮显示将用的TermVector。） […]

龙生 26 Jun 2014

View Details

SVG+css3 圆形loading

<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title> <style> body { background: #fff; } .test { position: relative; width: 100px; height: 100px; } .test span { position: absolute; top: 50%; left: 50%; -webkit-transform: translate(-50%, -50%); -moz-transform: translate(-50%, -50%); -ms-transform: translate(-50%, -50%); -o-transform: translate(-50%, -50%); transform: translate(-50%, -50%); font-size: 20px; } .test svg { position: absolute; top: 0; left: 0; width: 100%; height: 100%; stroke-dasharray: 1%, 300%; stroke-dashoffset: 0%; stroke: #ED6E5C; stroke-linecap: round; fill: none; -webkit-transform: rotate(-90deg); -moz-transform: rotate(-90deg); -ms-transform: rotate(-90deg); -o-transform: rotate(-90deg); transform: rotate(-90deg); } .test svg […]

龙生 26 Jun 2014

View Details

M	T	W	T	F	S	S
« May				Jul »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30