求推荐几款开源网络爬虫

shixitong 2015-02-02 03:02:20
背景:
目前客户那边有个老网站要更新为新的网站,然后客户那边提供不了老的数据库文件
这样也没办法通过程序把老数据导入新的系统
现在我想到就两个办法
1、就是通过一篇一篇复制,这个就比较坑了(太累也没得人手)
2、通过爬虫把老的数据拉过来

大家有没有用过什么好用的爬虫工具麻烦推荐下或者有没有什么好的建议?
...全文
322 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
whos2002110 2015-02-04
  • 打赏
  • 举报
回复
2楼说的对呀. 你也用不到爬虫框架, jsoup 抓页面解析就可以了
lb15337109899 2015-02-04
  • 打赏
  • 举报
回复
就是网页信息的采集,如果不想自己写,可以建议用一下火车头采集器,还带web发布功能,可以采集完后发布到web接口,进行数据库存储,也可以直接存储到数据库(不过这个功能好像要钱开通)
苏格拉低 2015-02-04
  • 打赏
  • 举报
回复
httpclient
empty_null 2015-02-03
  • 打赏
  • 举报
回复
客户那边提供不了老的数据库文件。是客户不懂怎么给还是 客户要保密不会给? 派个dba过去拿可以吗? 网络爬虫可以自己写啊,解析html页面。
小雷同学 2015-02-02
  • 打赏
  • 举报
回复
看下数据的规律性强不? 好多数据你拿过来之后 还要进行业务处理, 可能还有很多数据你拿不过来,不如,从新录,错误率低, 或者一部分(如字典数据等)人工录,一部分(业务性弱的,或业务清晰)用爬虫爬
黄咾邪 2015-02-02
  • 打赏
  • 举报
回复
可以用solr

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧