Java爬虫小白 求助!!

Lee52134 2018-03-01 06:47:20
最近 刚来个需求 ,写爬虫 爬取公司系统里的数据,爬虫以前都没有接触过啊.....,刚写了几个例子 模拟登陆的都不成功,愁...有没有人有个例子可以给我参考下啊
...全文
907 7 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
Lee52134 2018-03-08
  • 打赏
  • 举报
回复
爬虫目前进度到这 遇到这种问题有没有人见过 需要打开这个Network connect才能继续访问下面的页面,不知道在爬虫中怎么打开执行这个程序 ,头疼,本来想用Java执行js方法试试可是不能识别window对象 ,报错
Lee52134 2018-03-07
  • 打赏
  • 举报
回复
引用 5 楼 sd4000784 的回复:
就怕有烦人的验证码 ocr识别 httpclient 做模拟登陆http https jsoup爬取内容或对内容操作 搜索关键字找资料 另外都是公司的系统不能从dblink下手?
登陆之后 ,还要一个页面一个页面的跳转下去吗。。直到自己想取数据的页面? 我试了登录之后直接打开目标url不行,中间主页面还要启动一个network connect什么的 不启动打不开后续的页面.........好恶心 对了项目是部署到国外得
  • 打赏
  • 举报
回复
就怕有烦人的验证码 ocr识别 httpclient 做模拟登陆http https jsoup爬取内容或对内容操作 搜索关键字找资料 另外都是公司的系统不能从dblink下手?
Sunyiban 2018-03-05
  • 打赏
  • 举报
回复
这东西还是百度吧~~
Lee52134 2018-03-02
  • 打赏
  • 举报
回复
类似 于登录csdn的吧,是不是需要模拟登陆一遍 拿到登录信息 带这个去打开 需要爬取的数据的连接?自己试没成功过。

public static void main(String[] args) throws Exception{

		String username = "******";
		String password = "******";
	    String session =	getsessionInfo(username, password);
//	   	spiderWebsite(session, "****");
	}
	//获取sessionId  data("loginname", username,"agentpwd",pwd)
	private static String getsessionInfo(String username , String pwd) throws Exception{
		//登录网站
		Connection.Response res =Jsoup.connect("https://passport.csdn.net/account/verify")
				.userAgent("Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/58.0")
				.data("username", username,"password",pwd)
				.method(Connection.Method.POST)
				.timeout(10000)
				.execute();
		
		System.out.println("返回得状态吗"+res.statusCode());
		//获取session id
		String session = res.cookie("JSESSIONID");
		return session;
	}
	//爬取目标网站
//	private static void spiderWebsite(String sessionid,String url) throws Exception{
//		
//		//爬取
//		Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/58.0")
//				.cookie("JSESSIONID", sessionid).timeout(10000).post();
//		System.out.println(doc);
//		
//			
//	}
oyljerry 2018-03-02
  • 打赏
  • 举报
回复
需要先登陆。不然很多link没法访问
tianfang 2018-03-01
  • 打赏
  • 举报
回复
你的目标网站什么?不同的网站有不同的登陆处理

67,550

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧