社区
下载资源悬赏专区
帖子详情
nutch crawl代码解析下载
weixin_39821746
2020-06-01 02:00:32
nutch虽然是开源的,但初学nutch的同志门肯定对源码比较头疼,很难看懂,本资料是对crawl源码的解析,希望对大家有用。
相关下载链接:
//download.csdn.net/download/wangydong/810738?utm_source=bbsseo
...全文
12
回复
打赏
收藏
nutch crawl代码解析下载
nutch虽然是开源的,但初学nutch的同志门肯定对源码比较头疼,很难看懂,本资料是对crawl源码的解析,希望对大家有用。 相关下载链接://download.csdn.net/download/wangydong/810738?utm_source=bbsseo
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
nutch
crawl
代码
解析
nutch
虽然是开源的,但初学
nutch
的同志门肯定对源码比较头疼,很难看懂,本资料是对
crawl
源码的
解析
,希望对大家有用。
基于Apache
Nutch
和Htmlunit的扩展实现AJAX页面爬虫抓取
解析
插件
nutch
-htmlunit.zip
Nutch
Htmlunit Plugin 重要说明: 当前项目基于
Nutch
1.X系列已停止更新维护,转向
Nutch
2.x系列版本的新项目:http://www.oschina.net/p/
nutch
-ajax 项目简介 基于Apache
Nutch
1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取
解析
。 According to the implementation of Apache
Nutch
1.8, we can't get dynamic HTML information from fetch pages including AJAX requests as it will ignore all AJAX requests. This plugin will use Htmlunit to fetch whole page content with necessary dynamic AJAX requests. It developed and tested with Apache
Nutch
1.8, you can try it on other
Nutch
version or refactor the source codes as your design. 主要特性 常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用
Nutch
自带的protocol-http插件抓取。 常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用protocol-htmlunit插件抓取。 特殊的AJAX请求页面抓取: 诸如淘宝/天猫的页面采用了独特的Kissy Javascript组件, 导致htmlunit无法直接感知到需要等待Kissy发起的请求完成,通过等待页面加载
解析
内容判断处理实现此类页面数据抓取。 基于页面滚动的AJAX请求页面抓取: 诸如淘宝/天猫的商品详情页面会基于页面滚动发起商品描述信息的加载, 通过protocol-htmlunit扩展处理可以实现此类页面数据抓取。 运行体验 由于
Nutch
运行是基于Unix/Linux环境的,请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个工程
代码
后,进行本地git
下载
目录: cd
nutch
-htmlunit/runtime/local bin/
crawl
urls
crawl
false 1 //urls参数为爬虫入库url文件目录;
crawl
为爬虫输出目录; false本应为solr索引url参数,此处设置为false不做solr索引处理; 1为爬虫执行回数 运行结束后可以看到天猫商品页面的价格/描述/滚动加载的图片等所有信息都已经完整获取到。 运行日志输入示例参考:http://git.oschina.net/xautlx/
nutch
-htmlunit/wikis/Log 扩展插件说明 protocol-htmlunit: 基于Htmlunit实现的AJAX页面Fetcher插件 parse-s2jh: 基于XPath
解析
页面元素内容; 基于数据库模式输出
解析
到结构化数据; 对于个别复杂类型AJAX页面定制判断页面加载完成的回调判断逻辑 index-s2jh: 追加设置需要额外传递给solr索引的属性数据; 设定不需要索引的页面规则; 欢迎关注作者其他项目: S2JH - 基于SSH的企业Web应用开发框架 12306 Hunter - (功能已失效不可用,不过还可以当作Swing开发样列参考只用)Java Swing C/S版本12306订票助手,用处你懂的 标签:
nutch
Nutch
Crawl
执行过程
解析
为了研究怎么解决re
crawl
的问题,今天仔细观察了一下
nutch
crawl
的每一步具体发生了什么。 ==============准备工作====================== (Windows下需要cygwin) 从SVN check out
代码
; cd到
crawl
er目录; ==============inject======================
从
crawl
脚本看
nutch
crawl
过程 上
crawl
脚本用来实现
nutch
中对于网页的抓取 分析 索引工作。 把工程下下来之后 ,进入到 bin 目录: 两个脚本文件
crawl
nutch
crawl
是对
nutch
的进一步封装 首先我们看一下他的注释: # UNLIKE THE
NUTCH
ALL-IN-ONE-
CRAWL
COMMAND THIS SCRIPT DOES THE LINK INVERSIO
nutch
学习笔记1.
crawl
org.apache.
nutch
.
crawl
.
crawl
类为
nutch
抓取封装类,引入并整合了如下几部分: Injector injector = new Injector(conf); ///URL注入器对象;数据
下载
入口 Generator generator = new Generator(conf); ////生成器;生成待
下载
URL列表 Fetcher fetcher...
下载资源悬赏专区
12,798
社区成员
12,336,231
社区内容
发帖
与我相关
我的任务
下载资源悬赏专区
CSDN 下载资源悬赏专区
复制链接
扫一扫
分享
社区描述
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章