基于solr的中文分词问题(参考cnblog自己实践)

管理员 735 次浏览

摘要: 中文分词

博客来源于:讯杰设计网:http://blogs.51diysoft.com/blogs



之前尝试一直失败,使用的是最新的IKAnalyzer2012_FF.jar和IKAnalyzer2012FF_u1.jar,后边使用cnblog作者的

ik-analyzer-solr5-5.x.jar就好了,不晓得是不是版本问题,暂时不去深究,终于可以分词了,哈哈



QQ图片20180227113326.png


吓得我赶紧测试一下唉,输入中华人民共和国,选择fieldType :text_ik,可以得到中华人民、中华、华人、共和国等词汇:


QQ图片20180227113332.png


jar 包和配置文件下载连接:


链接:https://pan.baidu.com/s/1eUdFoKq 密码:tqac




managed-schema配置文件如下:


添加了

  <fieldType name="text_ik" class="solr.TextField">   
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  </fieldType>


blob.png



然后采用sqlserver重新导入数据即可。