solr4.3专题

solr4.3之配置中文分词IK

[size=x-large][b] 上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词, 在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种 1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库) 2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(

solr4.3之配置中文分词smartcn

[b][size=x-large] solr4.3默认的分词器是一元分词器,这个本来就是对英文进行分词的,英文大部分就是典型的根据空格进行分词,而中文如果按照这个规则,那么显然是要有很多的冗余词被分出来,一些没有用的虚词,数词,都会被分出来,影响效率不说,关键是分词效果不好,所以可以利用solr的同步发行包smartcn进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不

solr4.3与java Web集成报的一个异常

[b]今天在用solr4.3和web项目结合的时候,出了一个莫名的异常就是,我无论用solrj向solr服务添加数据,总是报如下的一个异常[/b] 六月 18, 2013 8:33:12 下午 org.apache.solr.client.solrj.impl.HttpClientUtil createClient信息: Creating new http client, config:

Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置

[b][color=green][size=large]Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所

solr4.3的入门配置

solr4.3的入门配置   目前阿帕奇官方仅推荐2个比较稳定的版本一个是4.3的版本,一个3.6的版本    3.6的版本没有用过,所以在此无涉及,下面就来说说solr4.3的入门配置    solr4.3与solr4.2最大的区别就在与solr4.3的日志模块与核心模块分离出来了    所以在进行安装配置时需要另行配置,其他的步骤基本与solr4.2的相同      准备环境tomcat

solr4.3默认的分词器

solr4.3默认的分词器是一元分词器,这个本来就是对英文进行分词的,英文大部分就是典型的根据空格进行分词,而中文如果按照这个规则,那么显然是要有很多的冗余词被分出来,一些没有用的虚词,数词,都会被分出来,影响效率不说,关键是分词效果不好,所以可以利用solr的同步发行包smartcn进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不过smartcn是跟solr同步的,