博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
mmseg4j在solr4.3里面的配置
阅读量:4186 次
发布时间:2019-05-26

本文共 1356 字,大约阅读时间需要 4 分钟。

前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置
下面给出在schemal.xml里面的配置

Java代码  
  1. <!--         配置          mmseg4j分词器       -->  
  2. <fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">  
  3.      <analyzer type="index">  
  4.   <!--  索引时候的分词器-->  
  5.        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>  
  6.      </analyzer>  
  7.      <analyzer type="query">  
  8.      <!-- 查询时候的分词器 -->  
  9.        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>  
  10.      </analyzer>  
  11.    </fieldType>  

然后,在注册一个字段类型

Java代码  
  1. <!-- mmseg4j的引用字段 -->  
  2. <field name="msg" type="text_msg" indexed="true" stored="true"        multiValued="true"/>  

最后把分词的jar包,放入solr里面就可以

Java代码  
  1. F:\tomcat\webapps\solr\WEB-INF\lib  
F:\tomcat\webapps\solr\WEB-INF\lib

mmseg4j的3个jar包

Java代码  
  1. mmseg4j-analysis-1.9.1.jar  
mmseg4j-analysis-1.9.1.jar

 

Java代码  
  1. mmseg4j-core-1.9.1.jar  
mmseg4j-core-1.9.1.jar

 

Java代码  
  1. mmseg4j-solr-1.9.1.jar  
mmseg4j-solr-1.9.1.jar

下面会附上3个jar,包当然也可以自己去官网上下载
至此就配置完了,启动solr就可以在UI页面分析测试了。

转载地址:http://lajoi.baihongyu.com/

你可能感兴趣的文章
最低票价
查看>>
删列造序
查看>>
使括号有效的最少添加
查看>>
令牌放置
查看>>
回溯法思想
查看>>
子集和问题
查看>>
旅行售货员问题
查看>>
区域和检索 - 数组不可变
查看>>
整数分解
查看>>
最长有效括号
查看>>
救生艇
查看>>
Android中自定义圆形图片(一)
查看>>
Android中ViewPager自动加手动轮播
查看>>
Android中Fragment点击切换与添加ViewPager滑动切换
查看>>
二级MSOffice高级应用考试大纲(2013年版)
查看>>
图解LogCat的用法
查看>>
学习Android界面设计的超级利器HierarchyView.bat
查看>>
众多Android 开源项目推荐,给力工作给力学习
查看>>
Android线程模型和AsyncTask
查看>>
Android Activity和Intent机制
查看>>