社区
Web 开发
帖子详情
求推荐几款开源网络爬虫
shixitong
2015-02-02 03:02:20
背景:
目前客户那边有个老网站要更新为新的网站,然后客户那边提供不了老的数据库文件
这样也没办法通过程序把老数据导入新的系统
现在我想到就两个办法
1、就是通过一篇一篇复制,这个就比较坑了(太累也没得人手)
2、通过爬虫把老的数据拉过来
大家有没有用过什么好用的爬虫工具麻烦推荐下或者有没有什么好的建议?
...全文
322
6
打赏
收藏
求推荐几款开源网络爬虫
背景: 目前客户那边有个老网站要更新为新的网站,然后客户那边提供不了老的数据库文件 这样也没办法通过程序把老数据导入新的系统 现在我想到就两个办法 1、就是通过一篇一篇复制,这个就比较坑了(太累也没得人手) 2、通过爬虫把老的数据拉过来 大家有没有用过什么好用的爬虫工具麻烦推荐下或者有没有什么好的建议?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
whos2002110
2015-02-04
打赏
举报
回复
2楼说的对呀. 你也用不到爬虫框架, jsoup 抓页面解析就可以了
lb15337109899
2015-02-04
打赏
举报
回复
就是网页信息的采集,如果不想自己写,可以建议用一下火车头采集器,还带web发布功能,可以采集完后发布到web接口,进行数据库存储,也可以直接存储到数据库(不过这个功能好像要钱开通)
苏格拉低
2015-02-04
打赏
举报
回复
httpclient
empty_null
2015-02-03
打赏
举报
回复
客户那边提供不了老的数据库文件。是客户不懂怎么给还是 客户要保密不会给? 派个dba过去拿可以吗? 网络爬虫可以自己写啊,解析html页面。
小雷同学
2015-02-02
打赏
举报
回复
看下数据的规律性强不? 好多数据你拿过来之后 还要进行业务处理, 可能还有很多数据你拿不过来,不如,从新录,错误率低, 或者一部分(如字典数据等)人工录,一部分(业务性弱的,或业务清晰)用爬虫爬
黄咾邪
2015-02-02
打赏
举报
回复
可以用solr
Web 开发
81,092
社区成员
341,716
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章