Solr / Lucene 相关(最好是4.0)

jnhcd 2012-11-26 04:11:24
本人最近正在学习Solr4.0(初学者),部署了Solr Server,在用SolrJ使用过程中遇到一些问题,希望有经验的人可以帮帮忙,对于全文检索有了解的人或者正在学习的人,能留下QQ等联系方式,希望能和大家交流交流。本人QQ:260148597

1.对于ContentStreamUpdateRequest类。在demo里面用它的addFile方法后报错,这个困惑了好久。
demo代码如下:

ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File("mailing_lists.pdf"));
up.setParam("literal.id", "mailing_lists.pdf");
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
result = server.request(up);


2.对于对文件建立索引。
①在上面的问题中,如果addFile成功后,文件内容会被Solr内部集成的Tika读出内容作为一个索引字段,还是整个文件就是作为索引字段?
②如果对文件建立索引呢。一般存文件内容的索引字段如content,是将所有内容作为一个单值存入索引(当文件大小很大时,文件内容太大怎么办?),还是在schema中content是multiValued为true,将文件内容分词后得到关键词列表存到索引中?

现阶段具体问题就以上2个,但是还有好多问题都不知道怎么去描述(— —///)
边学习,发现的问题就越来越多,哎,大家帮帮我吧
...全文
352 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
大呆米 2013-03-15
  • 打赏
  • 举报
回复
楼主解决了吗
along51 2013-01-25
  • 打赏
  • 举报
回复
引用 3 楼 along51 的回复:
ContentStreamUpdateRequest的addFile方法的参数你再看看,是addFile(File file,String contentType)
try addFile( file, "application/octet-stream" )
along51 2013-01-25
  • 打赏
  • 举报
回复
长的content肯定要加入Analyzer,就是分词器。 不然长长的一块就失去全文检索的意义了。 不分词一般就是在特定的field,比如日期。
along51 2013-01-25
  • 打赏
  • 举报
回复
ContentStreamUpdateRequest的addFile方法的参数你再看看,是addFile(File file,String contentType)
jnhcd 2012-11-28
  • 打赏
  • 举报
回复
solr这么冷门吗?
jnhcd 2012-11-27
  • 打赏
  • 举报
回复
有人知道吗?哎。。

24,923

社区成员

发帖
与我相关
我的任务
社区描述
Web 开发 Apache
社区管理员
  • Apache
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧