一切福田,不離方寸,從心而覓,感無不通。

Category Archives: Programming Language

使用Lucene.Net实现全文检索

目录 一 Lucene.Net概述 二 分词 三 索引 四 搜索 五 实践中的问题   一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括: Lucene.Net.Index 提供索引管理,词组排序。 Lucene.Net.Search 提供查询相关功能。 Lucene.Net.Store 支持数据存储管理,主要包括I/O操作。 Lucene.Net.Util 公共类。 Lucene.Net.Documents 负责描述索引存储时的文件结构管理。 Lucene.Net.QueryParsers 提供查询语法。 Lucene.Net.Analysis 负责分析文本。 全文检索流程如下: 一个简单的全文检索实例: 创建索引: 关键代码形如:

查询: 关键代码形如:

二 分词 (一)内置分词器 分词(切词)是实现全文检索的基础,之所以我们能够让机器理解我们的自然语言,是因为有了分词的帮助。分词工作由Analyzer类完成,它负责把文本切成Token序列,Token就是索引中的单词。Lucene.Net在两个地方用到分词:创建文档索引和分析搜索关键字。其过程示意如下: 由此可知,在创建索引和搜索时,必须使用同样的分词器,保证其切出相同的Token才能检索到结果。(Lucene.Net把查询关键字中的单词叫做“Term”,Term和Token的文本是一样的,只是某些属性不一样。) Lucene.Net实现了一些分词器,其对英文支持较好,但是对中文支持欠佳。 针对内置分词器测试结果如下: 关键代码形如:

可见,除了StandardAnalyzer外,其它分词器对中文基本无法处理,需要用户自行解决。 (二)分词过程 分词实际是由以下类型完成: 查看WhitespaceAnalyzer的部分源码如下:

由此可见,WhitespaceAnalyzer的工作都是交给WhitespaceTokenizer来完成的,并且没有使用筛选器,这也与之前测试的结果相符。我们可以利用TokenStream的派生类型来实现自定义分词器。 例如修改上述代码来得到一个新的分词器,功能类似WhitespaceAnalyzer,不同的是将大写字母变为小写,其代码形如:

(三)中文分词 显然,用户可以自定义分词器,来实现中文分词。但是,大多数用户不熟悉中文分词算法,同时也没有时间和精力来实现自定义分词,毕竟分词并不是我们系统的核心功能。因此,笔者引用了另一个中文分词组件——盘古分词。测试结果如下: 盘古分词使用步骤如下: Setp 1:添加相关程序集引用   这里需要添加2个程序集,PanGu.dll(盘古分词的核心组件)和PanGu.Lucene.Analyzer.dll(盘古分词的Lucene组件)。 Step 2:添加中文分词库 Step 3:添加并设置配置文件 Step 4:在Lucene.Net使用盘古分词 PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer,与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer,语法与Lucene.Net内置分词器相同。 Step 5:维护分词库 使用DictManage.exe管理和维护词库: 三 索引 (一)索引的存储结构 为了方便索引大量文档,Lucene.Net中的一个索引包括多个子索引,叫做Segment(段)。每个Segment包括多个可搜索的文档,叫做Document;每个Document包括多个Field;每个Field又包括多个Term。综上所述,Lucene.Net的索引文件的逻辑结构如下: 索引文件的物理表示如下: Lucene.Net把一个文档写入索引时,首先生成这个文档的到排索引,然后再把文档的倒排索引合并到段的倒排索引中。 (二)常用类型 Directory Lucene.Net的Directory类型实现索引的存储。常用类型继承树如下: IndexWriter 负责将索引写入Directory。Lucene通过设置缓存来提供写索引的速度,IndexWriter有几个参数来调整缓存的大小,控制Segment的数量,以及写索引的频率: 合并因子(mergeFactor) 这个参数决定一个索引块中可以存放多少文档(Document)以及把磁盘上的索引段(Segment)合并成一个大索引段的频率。该参数默认值为10。在默认情况下,缓存中Document数达到10时,所有的文档将写入一个新的Segment。并且,如果Directory的Segment的个数达到10,这10个索引块会被合并成一个新的Segment。对于大量文档来说,这个值大一些会更好。可以通过“SetMergeFactor(int mergeFactor)”方法来设置、 最小合并文档数(minMergeDocs)、最大缓存文档数(maxBufferedDocs) 默认值为10,它决定缓存中Document数量达到多少才能将他们写入磁盘。该值越大越消耗内存,I/O操作越少。(本处,笔者也有些糊涂,笔者感觉两者类似,不知道具体区别,若理解有误还请读者赐教。) 最大合并文档数(maxMergeDocs) 默认值为Integer.MAX_VALUE,它决定一个索引段(Segment)中的最大文档(Document)数。该值越大越高效,因为默认值以及很大了所以不用改变。 最大域长度(maxFieldLength) 默认值10000,表示截取该域中的前10000个Term,前10000个以外的Term将不被索引和检索。该值可在索引中随时更改,并即时生效(仅对之后的操作生效,一般该值设置为Integer.MAX_VALUE)。 IndexWriter的常用方法包括: Flush/Commit Flush方法与Commit方法相同,都是把缓存中的数据提交,可以清除缓存。 Close 无论是否发生异常都必须调用Close方法,该方法将对文件进行解锁,并完成Flush方法的功能。 Optimize Optimize方法用于优化索引,执行相当耗时。 Document 包含了可索引文档的信息。每个Document都有一个编号,但该编号并非永远不变。 Field 类似实体的某个属性,就像数据库中的一个列,其成员如下: (可以看到,Index的某些字段我给出的相同的注释,这是因为向下兼容的目的而具有相同的作用。注:高亮显示将用的TermVector。) […]

龙生   26 Jun 2014
View Details

在Visual Studio 2012使用单元测试

本人之前很少使用单元测试,总觉得平时的工作写得代码够多了,单元测试还要再编码,增加大量工作量,相信不少程序猿也是这么认为吧。

但是我认为,在必要的时候正确运用单元测试,可以大大缩短代码的调试时间,正所谓磨刀不误砍柴工,在此建议仍不会单元测试的,还是学一下吧。当然本人在单元测试方面还是菜鸟,无论是鸡蛋鲜花都欢迎。

最近公司请微软的人做了一些关于使用VS2012进行单元测试的小培训,小生微做笔记,结合朦胧的记忆,在此自行总结,并分享之。废话少说,先上笔记:

1.先写单元测试(依我愚见,应该是接口先行,如果有的话) -> 测试失败 -> 以最小的改动(即编写实际代码)使测试通过(而在VS2012中已经不能通过现有项目直接生成测试项目了,我觉得这个功能还是应该保留,微软总是这副德行,强迫用户适应他们的产品,但是又不得不适应);

2.不因单元测试而追加功能(代码),即逻辑不受单元测试影响;

3.改变了代码的逻辑(增删改),应及时运行单元测试;

4.在测试方法声明Attribute —— TestCategory("分类或特征名");

5.在单元测试项目添加Fakes程序集分离外部依赖(如数据库访问,获取配置信息等);

6.初始化单元测试类中的成员等信息,可添加方法并声明Attribute[TestInitialize](方法需为public);

7.测试自动化。

以下我将通过自己编写代码来验证上述笔记中的部分要点。有些未涉及,以后再尝试了。

1.新建一个单元测试项目,并添加类XmlSerializationTest,代码如下:

由于我这个项目是对Xml序列化进行测试,因而前提是项目中已存在了一个UserModel类,并且在单元测试项目中添加相应引用

接下来在编写实际的代码,微软讲师建议我们先在测试项目编写,待通过单元测试后再将代码移到相应的项目下面。

 XmlSerialization

现在整个解决方案结构如下图所示

保证整个解决方案生成成功之后点击菜单“测试” -〉 “运行” -〉 “所有测试”,发现测试不通过,于是就按照第一点笔记,以最小改动使测试通过。

修改WriteXml方法为:

运行测试通过。对于返回值为bool的方法,个人建议进行至少两次Assert,也就是分别对返回true和false进行Assert,因而我们再对WriteXml方法添加一个测试方法,

运行测试,不通过,所以我得要好好改我的代码了,在改动当中坚持执行我的第三点笔记,改动代码及时运行单元测试。

我们发现这个类的构造函数多了一个参数,是对象序列化后保存的路径,且该类对应的测试类都需要用到,因而我希望在每次测试进行单元测试前先将对象的构建,这就是第六点笔记提供的“声明Attribute[TestInitialize]”(注意必须是public方法,我用private方法运行测试是不通过)。改造后的测试类如下:

还可以分析测试代码的覆盖率,如下图所示在测试资源管理器点击“运行”下的相应选项。

居然是100%,真不知道这个东西微软是怎么分析出来的。

把类XmlSerializationTest移到相应的项目,更改命名空间,在测试项目添加相应引用,测试通过。

将解决方案添加到TFS源码管理,我这边是用的是微软云TFS免费版。

收工。

VS提供了很多类型的测试,负载、UI等等测试,感觉还是蛮强大的。

from:http://www.cnblogs.com/FreeDong/archive/2013/06/10/3129625.html

System.MissingMethodException:Method not found:+解决方案

中文版本提示:System.MissingMethodException: 找不到方法:… 英文版本提示:System.MissingMethodException: Method not found:… 导致此异常的原因是引用程集版本冲突,通常可能是因为同一个项目(DLL)被多个项目(DLL)引用,导致新加的方法找不到,但是不会抛编译期异常,而是抛运行期异常。跟踪调试的时候根本无法运行到调用的地方,所以,很容易导致该解决该问题无从下手。 个人觉得这应该是VS的一个BUG,我用的是VS2008,不知道其它版本有没有同样的问题。 解决方法:修改引用的项目的AssemblyInfo.cs下的版本号,重新编译、发布。   问题解决方法: 不是补丁问题也不是版本号修改。问题发生在,提示找不到的方法,有的版本中确实未找到。替换使用的方法问题解决。 can’t get hostname for your address     Navicat for Mysql 远程连接数据库 出现 1042-Can’t get hostname for your address 错误! 是什么问题。 编辑/etc/my.cnf,在:[mysqld]内添加一行:skip-name-resolveMySQL 忽略数据库表名大小写修改/etc/my.cnf,在 [mysqld] 内添加一行:lower_case_table_names=1 from:http://blog.csdn.net/jglie/article/details/6863067

龙生   05 Jun 2014
View Details

2014 年最流行的 Java 应用服务器

去年我们发布了 2013 年 Java 应用服务器市场调查。为了验证这个报告是否发送了变化,我们采集了从2月到5月的 783 给不同的配置点。数据通过启动的类路径进行收集,查询类似于 “grep -i tomcat classpath.log”. 我们发现这个结果跟去年的差别不大,如下图所示: Tomcat 仍然以 41% 比例高居榜首,不过比起 2013 年的 43% 略有下降。Jetty 占 31% 排第二,而 JBoss/WildFly 占 18%。 via plumbr from:http://www.oschina.net/news/52299/most-popular-application-servers-in-2014

龙生   30 May 2014
View Details

ASP.NET中BasePage的几种设计方式

使用它主要是为了复用代码的公用部分下面是整理出来三种实现方式:准备工作:1 先在BasePage.cs中创建部分类BasePage 比在创建接下来用到的用于演示的方法BaseLoad代码:public partial  class BasePage : System.Web.UI.Page{        protected void BaseLoad()        {            string code = Request.QueryString["id"];            if (String.IsNullOrEmpty(code))            {                Response.End();            }        }}2 使用BasePage.cs的Default.aspxDefault.aspx.cs代码:public partial class Default : BasePage{        protected  void Page_Load(object sender, EventArgs e)    {        //do something    }}一、重写BasePage的OnLoad方法,该方法会触发OnLoad事件BasePage.cs代码:public partial  class BasePage : System.Web.UI.Page{    protected override void OnLoad(EventArgs e)    {        BaseLoad();        base.OnLoad(e);    }}二、在构造函数中把BaseLoad注册到基类的this.Page.PreLoad事件BasePage.cs代码:public partial  class BasePage : System.Web.UI.Page{    public BasePage()    {        this.Page.PreLoad += BaseLoad;    }}三、这种方式让继承他的子类方式看起来有些怪异(不能在里面使用Page_Load)BasePage.cs 代码:public abstruct class BasePage : System.Web.UI.Page{    protected void Page_Load()    {        string code = Request.QueryString["id"];        if (String.IsNullOrEmpty(code))        {            Response.End();        }        PageLoad();        }    protected […]

龙生   29 May 2014
View Details

VS2010 生成Xml格式的注释文档

项目, 属性, build, 勾选xml document file, 重新build, 即可生成xml注释文件, 然后还得找工具软件(看到anytao推荐SandCastle) 生成更易读的帮助文档. from:http://www.cnblogs.com/liuzhendong/archive/2011/09/28/2194002.html

龙生   28 May 2014
View Details

ASP.NET中上传并读取Excel文件数据

在CSDN中,经常有人问如何打开Excel数据库文件。本文通过一个简单的例子,实现读取Excel数据文件。首先,创建一个Web应用程序项目,在Web页中添加一个DataGrid控件、一个文件控件和一个按钮控件。<INPUT id="File1" type="file" name="File1" runat="server"><asp:Button id="Button1" runat="server" Text="Button"></asp:Button><asp:DataGrid id="DataGrid1" runat="server"></asp:DataGrid>在代码视图中首先导入OleDb命名空间:using System.Data.OleDb; 在按钮的单击事件中输入如下代码:string strPath="c://test//" + DateTime.Now.ToString("yyyyMMddhhmmss") + ".xls";File1.PostedFile.SaveAs(strPath);string mystring="Provider = Microsoft.Jet.OLEDB.4.0 ; Data Source = '"+ strPath +"';Extended Properties=Excel 8.0";OleDbConnection cnnxls = new OleDbConnection (mystring);OleDbDataAdapter myDa =new OleDbDataAdapter("select * from [Sheet1$]",cnnxls);DataSet myDs =new DataSet();myDa.Fill(myDs); DataGrid1.DataSource=myDs.Tables[0];DataGrid1.DataBind();其中C:/test对ASPNET用户要有读写的权限. from:http://www.cnblogs.com/ranzige/p/3707316.html

龙生   20 May 2014
View Details

C#创建Excel(.xls和.xlsx)文件的三种方法

生成EXCEL文件是经常需要用到的功能,我们利用一些开源库可以很容易实现这个功能。 方法一:利用excellibrary,http://code.google.com/p/excellibrary/ excellibrary是国人写的开源组件,很容易使用,可惜貌似还不支持.xlsx(Excel 2007),例子如下:

  例子二:

  方法二:利用EPPlus,http://epplus.codeplex.com/ EPPlus是一个使用Open Office XML(xlsx)文件格式,能读写Excel 2007/2010 文件的开源组件。 例子如下:

  例子二:

  方法三:NPOI http://npoi.codeplex.com/ NPOI无需Office COM组件且不依赖Office,使用NPOI能够帮助开发者在没有安装微软Office的情况下读写Office 97-2003的文件,支持的文件格式包括xls, doc, ppt等。NPOI是构建在POI 3.x版本之上的,它可以在没有安装Office的情况下对Word/Excel文档进行读写操作。 被人称为操作EXCEL的终极方案,例子如下:

  from:http://www.cnblogs.com/kingboy2008/p/3711168.html

龙生   20 May 2014
View Details

C# 程序员最常犯的 10 个错误

关于C# C#是达成微软公共语言运行库(CLR)的少数语言中的一种。达成CLR的语言可以受益于其带来的特性,如跨语言集成、异常处理、安全性增强、部件组合的简易模型以及调试和分析服务。作为现代的CLR语言,C#是应用最为广泛的,其应用场景针对Windows桌面、移动手机以及服务器环境等复杂、专业的开发项目。 C#是种面向对象的强类型语言。C#在编译和运行时都有的强类型检查,使在大多数典型的编程错误能够被尽早地发现,而且位置定位相当精准。相比于那些不拘泥类型,在违规操作很久后才报出可追踪到莫名其妙错误的语言,这可以为程序员节省很多时间。然而,许多程序员有意或无意地抛弃了这个检测的有点,这导致本文中讨论的一些问题。 关于本文 本文描述了10个 C# 程序员常犯的错误,或应该避免的陷阱。 尽管本文讨论的大多数错误是针对 C# 的,有些错误与其他以 CLR 为目标的语言,或者用到了 Framework Class Library (FCL) 的语言也相关。 常见错误 #1: 把引用当做值来用,或者反过来 C++ 和其他很多语言的程序员,习惯了给变量赋值的时候,要么赋单纯的值,要么是现有对象的引用。然而,在C# 中,是值还是引用,是由写这个对象的程序员决定的,而不是实例化对象并赋值的程序员决定的。这往往会坑到 C# 的新手程序员。 如果你不知道你正在使用的对象是否是值类型或引用类型,你可能会遇到一些惊喜。例如:

如你所见,尽管Point和Pen对象的创建方式相同,但是当一个新的X的坐标值被分配到point2时, point1的值保持不变 。而当一个新的color值被分配到pen2,pen1也随之改变。因此,我们可以推断point1和point2每个都包含自己的Point对象的副本,而pen1和pen2引用了同一个Pen对象 。如果没有这个测试,我们怎么能够知道这个原理? 一种办法是去看一下对象是如何定义的(在Visual Studio中,你可以把光标放在对象的名字上,并按下F12键)

  如上所示,在C#中,struct关键字是用来定义一个值类型,而class关键字是用来定义引用类型的。 对于那些有C++编程背景人来说,如果被C++和C#之间某些类似的关键字搞混,可能会对以上这种行为感到很吃惊。 如果你想要依赖的行为会因值类型和引用类型而异,举例来说,如果你想把一个对象作为参数传给一个方法,并在这个方法中修改这个对象的状态。你一定要确保你在处理正确的类型对象。 常见的错误#2:误会未初始化变量的默认值 在C#中,值得类型不能为空。根据定义,值的类型值,甚至初始化变量的值类型必须有一个值。这就是所谓的该类型的默认值。这通常会导致以下,意想不到的结果时,检查一个变量是否未初始化:

为什么不是【point 1】空?答案是,点是一个值类型,和默认值点(0,0)一样,没有空值。未能认识到这是一个非常简单和常见的错误,在C#中 很多(但是不是全部)值类型有一个【IsEmpty】属性,你可以看看它等于默认值:

当你检查一个变量是否已经初始化,确保你知道值未初始化是变量的类型,将会在默认情况下,不为空值。 常见错误 #3: 使用不恰当或未指定的方法比较字符串 在C#中有很多方法来比较字符串。 虽然有不少程序员使用==操作符来比较字符串,但是这种方法实际上是最不推荐使用的。主要原因是由于这种方法没有在代码中显示的指定使用哪种类型去比较字符串。 相反,在C#中判断字符串是否相等最好使用Equals方法:

  第一个Equals方法(没有comparisonType这参数)和使用==操作符的结果是一样的,但好处是,它显式的指明了比较类型。它会按顺序逐字节的去比较字符串。在很多情况下,这正是你所期望的比较类型,尤其是当比较一些通过编程设置的字符串,像文件名,环境变量,属性等。在这些情况下,只要按顺序逐字节的比较就可以了。使用不带comparisonType参数的Equals方法进行比较的唯一一点不好的地方在于那些读你程序代码的人可能不知道你的比较类型是什么。 使用带comparisonType的Equals方法去比较字符串,不仅会使你的代码更清晰,还会使你去考虑清楚要用哪种类型去比较字符串。这种方法非常值得你去使用,因为尽管在英语中,按顺序进行的比较和按语言区域进行的比较之间并没有太多的区别,但是在其他的一些语种可能会有很大的不同。如果你忽略了这种可能性,无疑是为你自己在未来的道路上挖了很多“坑”。举例来说:

最安全的实践是总是为Equals方法提供一个comparisonType的参数。 下面是一些基本的指导原则: 当比较用户输入的字符串或者将字符串比较结果展示给用户时,使用本地化的比较(CurrentCulture 或者CurrentCultureIgnoreCase)。 当用于程序设计的比较字符串时,使用原始的比较(Ordinal 或者 OrdinalIgnoreCase) InvariantCulture和InvariantCultureIgnoreCase一般并不使用,除非在受限的情境之下,因为原始的比较通常效率更高。如果与本地文化相关的比较是必不可少的,它应该被执行成基于当前的文化或者另一种特殊文化的比较。 此外,对Equals 方法来说,字符串也通常提供了Compare方法,可以提供字符串的相对顺序信息而不仅仅中测试是否相等。这个方法可以很好适用于<, <=, >和>= 运算符,对上述讨论同样适用。 常见误区 #4: 使用迭代式 (而不是声明式)的语句去操作集合 在C# 3.0中,LINQ的引入改变了我们以往对集合对象的查询和修改操作。从这以后,你应该用LINQ去操作集合,而不是通过迭代的方式。 一些C#的程序员甚至都不知道LINQ的存在,好在不知道的人正在逐步减少。但是还有些人误以为LINQ只用在数据库查询中,因为LINQ的关键字和SQL语句实在是太像了。 虽然数据库的查询操作是LINQ的一个非常典型的应用,但是它同样可以应用于各种可枚举的集合对象。(如:任何实现了IEnumerable接口的对象)。举例来说,如果你有一个Account类型的数组,不要写成下面这样:

你只要这样写:

虽然这是一个很简单的例子,在有些情况下,一个单一的LINQ语句可以轻易地替换掉你代码中一个迭代循环(或嵌套循环)里的几十条语句。更少的代码通常意味着产生Bug的机会也会更少地被引入。然而,记住,在性能方面可能要权衡一下。在性能很关键的场景,尤其是你的迭代代码能够对你的集合进行假设时,LINQ做不到,所以一定要在这两种方法之间比较一下性能。 #5常见错误:在LINQ语句之中没有考虑底层对象 对于处理抽象操纵集合任务,LINQ无疑是庞大的。无论他们是在内存的对象,数据库表,或者XML文档。在如此一个完美世界之中,你不需要知道底层对象。然而在这儿的错误是假设我们生活在一个完美世界之中。事实上,相同的LINQ语句能返回不同的结果,当在精确的相同数据上执行时,如果该数据碰巧在一个不同的格式之中。 例如,请考虑下面的语句: 1 decimal total=(from accout in myaccouts 2 where accout.status==‘active" 3                    select accout .Balance).sum(); 想象一下,该对象之一的账号会发生什么。状态等于“有效的”(注意大写A)? 好吧,如果myaccout是Dbset的对象。(默认设置了不同区分大小写的配置),where表达式仍会匹配该元素。然而,如果myaccout是在内存阵列之中,那么它将不匹配,因此将产生不同的总的结果。 等一会,在我们之前讨论过的字符串比较中, 我们看见 == 操作符扮演的角色就是简单的比较. 所以,为什么在这个条件下, == 表现出的是另外的一个形式呢 ? 答案是,当在LINQ语句中的基础对象都引用到SQL表中的数据(如与在这个例子中,在实体框架为DbSet的对象的情况下),该语句被转换成一个T-SQL语句。然后遵循的T-SQL的规则,而不是C#的规则,所以在上述情况下的比较结束是不区分大小写的。 […]

龙生   12 May 2014
View Details

vsphp:vs下开发php

喜欢VS的码农们是否也想用VS开发php,答案是肯定的,那就试试vsphp吧:http://www.vsphp.com/

龙生   07 May 2014
View Details
1 139 140 141 175