[问题]如何像网络蜘蛛哪样爬取网页

zhangzxpan 2014-12-12 02:26:02
楼主要找一些商品的所有评论进行分析,比如淘宝某款鞋子底下的所有评论,使用过---熊猫采集器、火车头、八爪鱼这些人家开发好的系统,但是有的用不了,有的不会用啊,太麻烦了。
以前在实验室听很多师兄说用过网络蜘蛛,不知道他们是使用软件,还是自己编程序。
其实自己编程提取评论也不难实现,但是用JAVA还是用Python,听说现在流行用Python写网络蜘蛛。编程也只能整对特定需求,以后要是再用还得再编。
那么问题来了,大家在实验室如果做文本分析或者数据挖掘,那些数据是用哪种方式来获取的,虚心求教各位?
...全文
343 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
S117 2014-12-16
  • 打赏
  • 举报
回复
看你擅长什么语言了,Java爬虫也很多
zhangzxpan 2014-12-16
  • 打赏
  • 举报
回复
好的,谢谢啊
火星日立zy 2014-12-15
  • 打赏
  • 举报
回复
推荐Pyhon作为爬虫语言,它简单易学,实现同样的功能,Pyhton用的代码量比Java少的多。 例 : import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 就可以抓取一个百度的首页了,才4行代码
healer_kx 2014-12-12
  • 打赏
  • 举报
回复
use Python first please

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧