mmseg4j在solr4.3里面的配置-白红宇

mmseg4j在solr4.3里面的配置

阅读量：4186 次

发布时间：2019-05-26

本文共 1356 字，大约阅读时间需要 4 分钟。

前面，笔者已经介绍过solr里面另外2种中文分词的配置，今天就来就简述一下mmseg4j在solr4.3里面的配置，mmseg4j也是一款很优秀的中文分词器，是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

其实，配置分词很简单，只要有分词jar包，然后在solr的schemal.xml里面配置一个分词器，就可以了，如果还想在专业一点，可以自定义词典库，禁用词库，相似词库等等，这些的实现都也很简便，在schemal.xml同一级目录里面，放进去需要定义词库的txt文件就可以了，然后在配置里面加上相应的配置就可以了，在这里仅说说基本的入门配置

下面给出在schemal.xml里面的配置

Java代码

<fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>

</analyzer>

</fieldType>

然后，在注册一个字段类型

Java代码

<field name="msg" type="text_msg" indexed="true" stored="true" multiValued="true"/>

最后把分词的jar包，放入solr里面就可以

Java代码

F:\tomcat\webapps\solr\WEB-INF\lib

F:\tomcat\webapps\solr\WEB-INF\lib

mmseg4j的3个jar包

Java代码

mmseg4j-analysis-1.9.1.jar

mmseg4j-analysis-1.9.1.jar

Java代码

mmseg4j-core-1.9.1.jar

mmseg4j-core-1.9.1.jar

Java代码

mmseg4j-solr-1.9.1.jar

mmseg4j-solr-1.9.1.jar

下面会附上3个jar，包当然也可以自己去官网上下载

至此就配置完了，启动solr就可以在UI页面分析测试了。

转载地址：http://lajoi.baihongyu.com/

你可能感兴趣的文章