社区
高性能WEB开发
帖子详情
Heritrix 抓取的arc文件 如何解析请教一解决方向
笛和寒溪
2010-10-27 11:16:03
Heritrix 抓取的arc文件 如何解析请教一解决方向
...全文
62
回复
打赏
收藏
Heritrix 抓取的arc文件 如何解析请教一解决方向
Heritrix 抓取的arc文件 如何解析请教一解决方向
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
heritrix
抓取
的操作和扩展
对
heritrix
抓取
的操作和扩展 里面有MirrorWriterProcessor扩展的类
文件
修改
heritrix
爬取动态网页
刚接手
heritrix
,试了一试,
抓取
文件
很顺利,可是却发现了一个问题。 用
heritrix
抓取
了jsp
文件
,可是
抓取
的
文件
名如下:show_hotelshopid=102&catid=2.jsp 可实际想要的url是show_hotel.jsp?shopid=102&catid=2 如何将
文件
名与url相关联起来? 要重写writer么?或是其他 由于windows file ...
把
heritrix
抓取
的网页在eclipse里读进,然后写出
文件
时出现乱码
herittrix
抓取
的网页()用记事本打开显示正常,但把
继续
抓取
的一些问题及
解决
方案
采用哪个继续
抓取
会遇到一些小问题, 1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接! 2.每次启动的时候,会丢失很多页面,因为
heritrix
抓取
过的页面是不会在
抓取
,这样的话也不会在
解析
,比如报价这类页面,那我们就无法更新了! 3.如何启动
heritrix
的UI 第一个问题只要改一下order.xml 下面几个值这样设置 recover...
Heritrix
—开发自己的搜索引擎
开发自己的搜索引擎,
Heritrix
是一种网页
抓取
的有效工具
高性能WEB开发
25,988
社区成员
4,373
社区内容
发帖
与我相关
我的任务
高性能WEB开发
高性能WEB开发
复制链接
扫一扫
分享
社区描述
高性能WEB开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章