crawler4j 怎么模拟登陆

shitjh 2012-03-21 11:58:02

大家有没有用过crawler4j来抓取一些需要登陆的网站，比如社交网站等的信息？网上好像这方面的资料比较少，Google Code里面有介绍，但是不懂具体的原理~ 求指教！！

...全文

260 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

shitjh 2012-05-09

打赏
举报

回复

[Quote=引用 2 楼的回复:]

我现在有点进展了，不知道你要问什么？
[/Quote]
就是想知道怎么实现登陆的？

lianghao721 2012-05-08

打赏
举报

回复

我现在有点进展了，不知道你要问什么？

SimulateC 2012-05-03

打赏
举报

回复

我也碰到了同样的问题，静等佳音

1.分布式爬虫：Nutch 2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫：scrapy 第一类:分布式爬虫爬虫使用分布式，主要是解决两个问题： 1)海量URL管理 2)网速现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这

目录抓包介绍解决验证码的思路验证码地址拼接爬虫实战爬虫架构 model main 解析htmlparse 数据库操作程序db近期，有人将本人博客，复制下来，直接上传到百度文库等平台。本文为原创博客，仅供技术学习使用。未经允许，禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接) 源码请联系邮箱：1563178220@qq.com抓包介绍本人已经写了几篇模拟登陆的程

目录内容简介第一章爬虫简介 1.1 什么是网络爬虫 1.1.1 爬虫的简单定义 1.1.2 爬虫的分类 1.2 为什么需要爬虫 1.2.1 爬虫的用途 1.2.2怎么做爬虫第二章爬虫的基本常识 2.1 爬虫的合法性问题 2.2 爬虫的准备工作：网站的背景调研 2.2.1 robots协议 2.2.2 网站地图sitemap 2.2.3 估算网站的大小 ...

1、要写一个微博爬虫，得分开几个模块来做：　　（1）模拟登录　　（2）模拟浏览　　（3）针对短时间内大量访问而引起怀疑的禁止登陆解决方案　　（4）其他（1）模拟登陆模块　　　　前提：要模拟登录，得首先知道在登录微博的时候，每一次的HTTP请求中都包含了什么信息，于是，可以利用fiddler结合浏览器（chrome除外）来观察每个请求包信息　　　　过程：　　　　...

介绍常用爬虫开源项目新浪微博爬虫和腾讯微博爬虫新浪爬虫的问题总结介绍相关简介即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。主要分类网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在

50,523

社区成员

85,601

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章