java 抓取特殊网页怎么正则匹配div

xiyuan_luo 2017-06-21 04:41:31

http://data.eastmoney.com/notices/detail/000002/AN201706090636776323,JUU0JUI4JTg3JUU3JUE3JTkxQQ==.html

请问各位大神如何用正则获得文章的正文，只要内容过滤标签，在线等，急！！！

...全文

140 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

tsang1990 2017-06-21

打赏
举报

如果是Java的话可用htmlparser包


Parser parser = new Parser();  
			// 添加 url代理，欺骗网页  
			URL url = new URL(htmlURL);  
			HttpURLConnection httpUrlConnection = (HttpURLConnection) url.openConnection();
			httpUrlConnection.setDoInput(true);
			httpUrlConnection.setRequestMethod("GET");
			httpUrlConnection.setRequestProperty("User-Agent", 
					"Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
			parser.setConnection(httpUrlConnection);  
			parser.setEncoding(parser.getEncoding());//设置字符集编码  
			//过滤页面中的链接标签  
			NodeFilter filter = new NodeClassFilter(Html.class);//以标签为过滤条件提取网页内容
			NodeList list = parser.extractAllNodesThatMatch(filter);//将所有符合条件的列出
			html = list.toHtml();//按原网页内容格式进行转换

学习利用抓取股票信息

抓取页面源代码这个不用我写吧，我只负责价格这块分析packagecom.fkjava.learning;importjava.util.regex.*;publicclassRegexSearch{publicstaticvoidmain(String[]args){Stringinfo=""+""+""+"178"+""+""+""+""+"33.99"+...

在Java编程中，经常会遇到需要从HTML文本中提取纯文本内容的需求。本文将介绍如何使用正则表达式来去除HTML标签，并提供相应的源代码示例。我们可以利用Java中的正则表达式库来实现去除HTML标签的功能。下面是一个示例方法，它接受一个包含HTML标签的字符串作为输入，并返回去除标签后的纯文本内容。通过以上方法，我们可以方便地使用正则表达式在Java中去除HTML标签，并提取纯文本内容。作为结果，即去除HTML标签后的纯文本内容。在上述示例中，我们将包含HTML标签的字符串。分别表示标签的起始和结束，

Java爬虫爬取网页数据一.简单介绍爬虫网络爬虫（Web Crawler），又称为网络蜘蛛（Web Spider）或 Web 信息采集器，是一种按照一定规则，自动抓取或下载网络信息的计算机程序或自动化脚本，是目前搜索引擎的重要组成部分。我的这个demo 是基于Jsoup做个简单实现java爬虫的 jsoup 是一款Java的HTML解析器，主要用来对HTML解析二.需要的pom.xml依赖...

文章目录1：网络爬虫介绍2：HttpClients类介绍2.1 HttpGet参数问题2.2 HttpPost参数问题2.3 连接池技术问题3：Jsoup介绍4：动手实践如何抓取网页上数据并保存到自己数据库中有一句话说的好，只要精神不滑坡，办法总比困难多——阿俊（这句话可以形容我这三天学习知识的态度）就在前天，我的一个项目进入到了省赛，想下定决心把自己的一部分未完成的功能完善起来（想爬取网页上的各种数据到自己的所对应的页面上显示），这个问题在我脑子里回旋许久，于是打开电脑就在网上查阅各种资料，而我第一次