关于 Solr 你懂的

写代码写出法拉利 2014-03-17 05:44:03

先上 data-config.xml 内容
---------



<?xml version="1.0" encoding="utf-8"?>    

<dataConfig>  

 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"    

   url="jdbc:mysql://localhost:3306/test"    

   user="root"    

   password="root"/>  

   <document name="cms">  

	  <entity name="view_blog" pk="id" query="select id,title,content from infos"

				deltaQuery="select id,title,content from infos where last_modified > '${dataimporter.last_index_time}'" >    

		  <field column="id" name="id" />    

		  <field column="title" name="title" />    

		  <field column="content" name="content" />  

	  </entity>

		<entity name="view_user" pk="uid" query="select uid,name,address from users where uid > 1" 

				deltaQuery="select uid,name,address from users where uid > 1 and last_modified > '${dataimporter.last_index_time}'" >    

		  <field column="uid" name="uid_a" />    

		  <field column="name" name="name_a" />    

		  <field column="address" name="address_a" />  

	  </entity>

 </document>   

</dataConfig>

----------------------

主要我想问下 solr 支持多列表查询吗？我说的是这个 entity 之间没有关联的列表，例如我这里，上面的是用户表，下面的是信息表，它们是单独的查询，在用户页面里访问用户entity，在信息页面里访问信息entity。如果可以，那么我在 http://127.0.0.1:8080/solr/collection1/select?q=*%3A*&wt=json&indent=true 这个查询时，怎么指定 entity 是哪个？我现在查询只能查到一个表的。当然有 .net 的例子最好了，我用的是 SolrNet 库

...全文

71 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Nutch Htmlunit Plugin 重要说明：当前项目基于Nutch 1.X系列已停止更新维护，转向Nutch 2.x系列版本的新项目：http://www.oschina.net/p/nutch-ajax 项目简介基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic HTML information from fetch pages including AJAX requests as it will ignore all AJAX requests. This plugin will use Htmlunit to fetch whole page content with necessary dynamic AJAX requests. It developed and tested with Apache Nutch 1.8, you can try it on other Nutch version or refactor the source codes as your design. 主要特性常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面，可以直接用protocol-htmlunit插件抓取。特殊的AJAX请求页面抓取: 诸如淘宝/天猫的页面采用了独特的Kissy Javascript组件，导致htmlunit无法直接感知到需要等待Kissy发起的请求完成，通过等待页面加载解析内容判断处理实现此类页面数据抓取。基于页面滚动的AJAX请求页面抓取: 诸如淘宝/天猫的商品详情页面会基于页面滚动发起商品描述信息的加载，通过protocol-htmlunit扩展处理可以实现此类页面数据抓取。运行体验由于Nutch运行是基于Unix/Linux环境的，请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个工程代码后，进行本地git下载目录： cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫入库url文件目录; crawl为爬虫输出目录; false本应为solr索引url参数，此处设置为false不做solr索引处理; 1为爬虫执行回数运行结束后可以看到天猫商品页面的价格/描述/滚动加载的图片等所有信息都已经完整获取到。运行日志输入示例参考：http://git.oschina.net/xautlx/nutch-htmlunit/wikis/Log 扩展插件说明 protocol-htmlunit: 基于Htmlunit实现的AJAX页面Fetcher插件 parse-s2jh: 基于XPath解析页面元素内容; 基于数据库模式输出解析到结构化数据; 对于个别复杂类型AJAX页面定制判断页面加载完成的回调判断逻辑 index-s2jh: 追加设置需要额外传递给solr索引的属性数据; 设定不需要索引的页面规则; 欢迎关注作者其他项目： S2JH - 基于SSH的企业Web应用开发框架 12306 Hunter - （功能已失效不可用，不过还可以当作Swing开发样列参考只用）Java Swing C/S版本12306订票助手，用处你懂的标签：nutch

这三个货怎么理解呢？我今天就以一个通俗易懂的方式理解下：第一：solr 关于solr的理解？这个是对外提供的是HTTP服务，所以我们对外只需要提供solrJ就可以了！ solrJ是个客户端，通过这个客户端就可以访问solr。还有我们就是访问的时候输入千奇百怪的词语，但是不可能像数据库那么样查找啊！所以我们就用了中文分词，（后面会配置！） 1：我为啥要在我的项目上搭建solr？简单来说就是来...

在项目开发过程中为了提高查询效率和降低数据库的压力，因此此时就将查询量大的数据放到solr中，查询从solr中执行，不走数据库，但是数据库数据修改后怎么办呢。除了在程序中根据业务需求去操作solrJ实现索引同步外，也可以通过solr连接数据库，实现数据的定时同步，保证数据的一致性，具体使用方法根据业务需求选择。项目中使用solrJ根据业务需求操作solr APl可以参考下另一篇博客：https...

由于最近公司业务可能需要用到solr所以花了几天时间研究了一下，发现solr在网上的教程没有太好的入门文章，要么文章所写的solr版本太老，要么就是介绍的内容不够完整。所有我打算写一篇有完整使用流程的solr教程希望能让后面新接触solr的同学能更容易掌握它，另一方面也是对自己所学做一个梳理。由于本人水平有限如果有书写不对的地方还请多多指正，万分感谢。一、 Apache Solr 简介...

四、创建core实例 1. core简介简单说core就是solr的一个实例，一个solr服务下可以有多个core，每个core下都有自己的索引库和与之相应的配置文件，所以在操作solr创建索引之前要创建一个core，因为索引都存在core下面。 2. core创建 core的创建方式，我列出两种比较方便的。 (1). 以管理进入cmd，在$SOLR_HOME/bin目录下执行sol...

10,612

社区成员

29,029

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章