java 抓取 特殊网页 怎么正则匹配div

xiyuan_luo 2017-06-21 04:41:31
http://data.eastmoney.com/notices/detail/000002/AN201706090636776323,JUU0JUI4JTg3JUU3JUE3JTkxQQ==.html

请问各位大神如何用正则获得文章的正文,只要内容过滤标签 ,在线等,急!!!
...全文
140 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
tsang1990 2017-06-21
  • 打赏
  • 举报
回复
如果是Java的话可用htmlparser包

Parser parser = new Parser();  
			// 添加 url代理,欺骗网页  
			URL url = new URL(htmlURL);  
			HttpURLConnection httpUrlConnection = (HttpURLConnection) url.openConnection();
			httpUrlConnection.setDoInput(true);
			httpUrlConnection.setRequestMethod("GET");
			httpUrlConnection.setRequestProperty("User-Agent", 
					"Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
			parser.setConnection(httpUrlConnection);  
			parser.setEncoding(parser.getEncoding());//设置字符集编码  
			//过滤页面中的链接标签  
			NodeFilter filter = new NodeClassFilter(Html.class);//以标签为过滤条件提取网页内容
			NodeList list = parser.extractAllNodesThatMatch(filter);//将所有符合条件的列出
			html = list.toHtml();//按原网页内容格式进行转换

81,094

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧