Solr / Lucene 相关(最好是4.0)

jnhcd 2012-11-26 04:11:24

本人最近正在学习Solr4.0（初学者），部署了Solr Server，在用SolrJ使用过程中遇到一些问题，希望有经验的人可以帮帮忙，对于全文检索有了解的人或者正在学习的人，能留下QQ等联系方式，希望能和大家交流交流。本人QQ：260148597

1.对于ContentStreamUpdateRequest类。在demo里面用它的addFile方法后报错，这个困惑了好久。
demo代码如下：



ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");

up.addFile(new File("mailing_lists.pdf"));

up.setParam("literal.id", "mailing_lists.pdf");

up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);

result = server.request(up);

2.对于对文件建立索引。
①在上面的问题中，如果addFile成功后，文件内容会被Solr内部集成的Tika读出内容作为一个索引字段，还是整个文件就是作为索引字段？
②如果对文件建立索引呢。一般存文件内容的索引字段如content，是将所有内容作为一个单值存入索引（当文件大小很大时，文件内容太大怎么办？），还是在schema中content是multiValued为true，将文件内容分词后得到关键词列表存到索引中？

现阶段具体问题就以上2个，但是还有好多问题都不知道怎么去描述（— —///）
边学习，发现的问题就越来越多，哎，大家帮帮我吧

...全文

378 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

大呆米 2013-03-15

打赏
举报

回复

楼主解决了吗

along51 2013-01-25

打赏
举报

回复

引用 3 楼 along51 的回复:

ContentStreamUpdateRequest的addFile方法的参数你再看看，是addFile（File file,String contentType）

try addFile( file, "application/octet-stream" )

along51 2013-01-25

打赏
举报

回复

长的content肯定要加入Analyzer，就是分词器。不然长长的一块就失去全文检索的意义了。不分词一般就是在特定的field，比如日期。

along51 2013-01-25

打赏
举报

回复

ContentStreamUpdateRequest的addFile方法的参数你再看看，是addFile（File file,String contentType）

jnhcd 2012-11-28

打赏
举报

回复

solr这么冷门吗？

jnhcd 2012-11-27

打赏
举报

回复

有人知道吗？哎。。

### Lucene4.0 IK分词器使用概览 #### IKAnalyzer：中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包，自2006年首次发布以来，历经多个版本的迭代，已成为业界广泛认可的中文分词解决方案。其最初...

在IT领域，Alfresco是一款开源的企业内容管理系统（ECM），它提供文档管理、协作工具以及内容服务等功能。...此外，熟悉Alfresco和Solr的官方文档，以及参与相关的社区论坛，可以帮助你更好地管理和优化这个系统。

Solr 4.0 是Apache Lucene项目的一个子项目，是一个高性能、全文本搜索服务器，为企业级数据提供强大的搜索功能。源代码实例是学习Solr内部工作原理和自定义功能的关键资源，尤其对于开发者而言，深入理解源码有助于...

支持lucene4.0的paoding分词

24,920

社区成员

16,543

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章