[问题]如何像网络蜘蛛哪样爬取网页

zhangzxpan 2014-12-12 02:26:02

楼主要找一些商品的所有评论进行分析，比如淘宝某款鞋子底下的所有评论，使用过---熊猫采集器、火车头、八爪鱼这些人家开发好的系统，但是有的用不了，有的不会用啊，太麻烦了。
以前在实验室听很多师兄说用过网络蜘蛛，不知道他们是使用软件，还是自己编程序。
其实自己编程提取评论也不难实现，但是用JAVA还是用Python，听说现在流行用Python写网络蜘蛛。编程也只能整对特定需求，以后要是再用还得再编。
那么问题来了，大家在实验室如果做文本分析或者数据挖掘，那些数据是用哪种方式来获取的，虚心求教各位？

...全文

343 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

S117 2014-12-16

打赏
举报

回复

看你擅长什么语言了，Java爬虫也很多

zhangzxpan 2014-12-16

打赏
举报

回复

好的，谢谢啊

火星日立zy 2014-12-15

打赏
举报

回复

推荐Pyhon作为爬虫语言，它简单易学，实现同样的功能，Pyhton用的代码量比Java少的多。例： import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 就可以抓取一个百度的首页了，才4行代码

healer_kx 2014-12-12

打赏
举报

回复

use Python first please

我们再来看下爬虫应该遵循的规则：robots协议是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被...

我说说我的改造程序:通信和原程序一样，socket通信，多线程爬取网页及文件，忙了一阵，程序还有一些改进，有些功能需要添加，一些设置参数我写的比较死，未加上原程序的设置窗体，但这些参数我写在程序中，可以在...

网络爬虫（又称网络蜘蛛，机器人），就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。只要浏览器能够做的事情，原则上，爬虫都能够做到。 2.网络爬虫的功能网络爬虫...

网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。爬虫可以作为通用搜索引擎网页收集器...

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

62,614

社区成员

307,327

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章