社区
Java
帖子详情
crawler4j 怎么模拟登陆
shitjh
2012-03-21 11:58:02
大家有没有用过crawler4j来抓取一些需要登陆的网站,比如社交网站等的信息? 网上好像这方面的资料比较少,Google Code里面有介绍,但是不懂具体的原理~ 求指教!!
...全文
260
3
打赏
收藏
crawler4j 怎么模拟登陆
大家有没有用过crawler4j来抓取一些需要登陆的网站,比如社交网站等的信息? 网上好像这方面的资料比较少,Google Code里面有介绍,但是不懂具体的原理~ 求指教!!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
shitjh
2012-05-09
打赏
举报
回复
[Quote=引用 2 楼 的回复:]
我现在有点进展了,不知道你要问什么?
[/Quote]
就是想知道怎么实现登陆的?
lianghao721
2012-05-08
打赏
举报
回复
我现在有点进展了,不知道你要问什么?
SimulateC
2012-05-03
打赏
举报
回复
我也碰到了同样的问题,静等佳音
开发网络爬虫应该选择Nutch、
Crawler4j
、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类
1.分布式爬虫:Nutch 2.JAVA单机爬虫:
Crawler4j
、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy 第一类:分布式爬虫 爬虫使用分布式,主要是解决两个问题: 1)海量URL管理 2)网速 现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这
豆瓣网络爬虫-java网络爬虫[验证码
模拟
登陆
]详细介绍
目录抓包介绍 解决验证码的思路 验证码地址拼接 爬虫实战 爬虫架构 model main 解析htmlparse 数据库操作程序db近期,有人将本人博客,复制下来,直接上传到百度文库等平台。 本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接) 源码请联系邮箱:1563178220@qq.com抓包介绍本人已经写了几篇
模拟
登陆
的程
人工智能(crawler)—— 爬虫综合
目录 内容简介 第一章 爬虫简介 1.1 什么是网络爬虫 1.1.1 爬虫的简单定义 1.1.2 爬虫的分类 1.2 为什么需要爬虫 1.2.1 爬虫的用途 1.2.2怎么做爬虫 第二章 爬虫的基本常识 2.1 爬虫的合法性问题 2.2 爬虫的准备工作:网站的背景调研 2.2.1 robots协议 2.2.2 网站地图sitemap 2.2.3 估算网站的大小 ...
Weibo Crawler in Action
1、要写一个微博爬虫,得分开几个模块来做: (1)
模拟
登录 (2)
模拟
浏览 (3)针对短时间内大量访问而引起怀疑的禁止
登陆
解决方案 (4)其他 (1)
模拟
登陆
模块 前提:要
模拟
登录,得首先知道在登录微博的时候,每一次的HTTP请求中都包含了什么信息,于是,可以利用fiddler结合浏览器(chrome除外)来观察每个请求包信息 过程: ...
基于HTMLUnit的微博爬虫
介绍 常用爬虫开源项目 新浪微博爬虫和腾讯微博爬虫 新浪爬虫的问题 总结 介绍 相关简介 即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 主要分类 网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在
Java
50,523
社区成员
85,601
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章