网页爬虫问题请教

东方老道 2015-05-07 11:12:24

想做一个java爬虫程序，对一个带验证码的搜索网站进行爬去，各位大神现在都用什么技术。有没有开源的项目开源直接用的，我知道有个网页解析的jsoup,其他就不知道怎么做了，请大神们指点一下，要学什么，思路是什么，有没有例子程序。小弟在这先谢了

...全文

64 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

东方老道 2015-05-08

打赏
举报

回复

牛人呢出来出来

最近一直在研究爬虫和Lucene，虽然开始决定选用Heritrix来执行爬虫操作，但是后来发现用它来做还是存在一定的问题，比如需要程序生成相应的XML文件，对于同一个Job，怎样才能保证重复运行该Job时文件夹始终是同一个...

这里尝试用urllib和request进行访问，这个过程十分的复杂，请教专业人士以后发现，涉及到了密码学加密等知识，对于一个“文化底蕴”不高的我，选择换一批！上一篇里面的参考文献中提供了另一种方法，基于selenium...

对于动态网页的数据可以直接使用模拟浏览器运行的方式进行实现，这样做就可以不用管网页内部是如何使用JavaScript渲染页面的，也不用管Ajax请求中到底有没有加密参数，在浏览器中看到是什么样的内容，抓取的结果便是...

写了个简单的协程爬虫爬取 B 站用户信息，代码如下：import requestsimport reimport jsonimport datetimeimport asynciodef get_info(uid):url_info = "http://space.bilibili.com/ajax/member/GetInfo?mid=" #基本...

初学python爬虫，请教一下我这样应是响应头吧，为什么打印没效果 import requests url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=27773177698&...

10,606

社区成员

29,047

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章