在一个朋友的介绍下开始接触lucene,在网上看了大量的资料,觉得搜索引擎的门槛太高,几乎放弃了对他的了解和学习。对于中文的搜索关键是如何创建中文分词!由于Lucene.Net.Analysis.Cn支持中文分词,我们做一个简单的token事例。using System;using System.Collections;using System.ComponentModel;using System.Data;using System.Drawing;using System.Web;using System.Web.SessionState;using System.Web.UI;using System.Web.UI.WebControls;using System.Web.UI.HtmlControls;using Lucene;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.Analysis.Cn;
namespace websearch{ /// <summary> /// Cn_token 的摘要说明。 /// </summary> public class Cn_token : System.Web.UI.Page { private void Page_Load(object sender, System.EventArgs e) { // 在此处放置用户代码以初始化页面 String text ="我爱天大,但我更爱中国"; ChineseAnalyzer analyzer = new ChineseAnalyzer(); TokenStream ts = analyzer.TokenStream("dummy",new System.IO.StringReader(text)); Lucene.Net.Analysis.Token token; try { int n=0; while ( (token = ts.Next()) != null) { Response.Write((n++)+"->"+token.TermText()+ " " + token.StartOffset() + " " + token.EndOffset() + " "+token.Type()+"<br>"); } } catch { Response.Write("wrong"); } }
#region Web 窗体设计器生成的代码 override protected void OnInit(EventArgs e) { // // CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。 // InitializeComponent(); base.OnInit(e); } /// <summary> /// 设计器支持所需的方法 - 不要使用代码编辑器修改 /// 此方法的内容。 /// </summary> private void InitializeComponent() { this.Load += new System.EventHandler(this.Page_Load); } #endregion }}
运行一下结果显示0->我 0 1 word1->爱 1 2 word2->天 2 3 word3->大 3 4 word4->但 5 6 word5->我 6 7 word6->更 7 8 word7->爱 8 9 word8->中 9 10 word9->国 10 11 word
其中逗号被自动过滤掉了
到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器.
如何DIY一个功能更加强大Analyzer
譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单
你只要把他们包装成Lucene的TokenStream就好了.