关于JAVA抓取网页信息

shashou_1234 2013-11-13 02:51:59

小弟今天遇到一个问题，关于用JAVA抓取网页信息，我想抓取指定的网页信息，比如说标题，正文，我想把目标地址HTML网页抓取到然后解析XML，但是XML的节点也太多了，不知道该怎样截取到我想要的信息，求各位大神帮帮忙，告诉我下该怎么截取到我想要的信息，小弟在此谢谢了，可以的话叫我Q356142739.

...全文

173 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

fineTu 2013-11-15

打赏
举报

回复

解析html方法很多，我用的是Jsoup，值域找到你想要的内容，这个就比较麻烦了，要用些正文提取的手段，这种手段没有公认的有效成果，一般都是通过正文内容特征等等来搞

爱跳舞的铅笔头 2013-11-14

打赏
举报

回复

建议获取到html之后，用dom4j去解析xml,可以参考http://www.ibm.com/developerworks/cn/xml/x-dom4j.html

a_jian 2013-11-13

打赏
举报

回复

这个应该网络上有一大把现成的DEMO吧

异常异长 2013-11-13

打赏
举报

回复

一般把源码抓下来后勇正则表达式筛选

tony4geek 2013-11-13

打赏
举报

回复

你想要那些重要信息就抓取那些。

java抓取网页数据实现

Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

使用JAVA语言，系统讲解微信公众平台订阅号、服务号官方列出的全部功能接口，包括：自定义菜单、个性化菜单（按需定制菜单）、群发消息、客服消息（有限次消息推送）、模板消息接（无限次消息推送）、微信网页开发...

Java抓取网页内容三种方式

这是一个获取json网页数据的java实例

67,512

社区成员

225,880

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章