关于JAVA抓取网页信息

shashou_1234 2013-11-13 02:51:59
小弟今天遇到一个问题,关于用JAVA抓取网页信息,我想抓取指定的网页信息,比如说标题,正文,我想把目标地址HTML网页抓取到然后解析XML,但是XML的节点也太多了,不知道该怎样截取到我想要的信息,求各位大神帮帮忙,告诉我下该怎么截取到我想要的信息,小弟在此谢谢了,可以的话叫我Q356142739.
...全文
173 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
fineTu 2013-11-15
  • 打赏
  • 举报
回复
解析html方法很多,我用的是Jsoup,值域找到你想要的内容,这个就比较麻烦了,要用些正文提取的手段,这种手段没有公认的有效成果,一般都是通过正文内容特征等等来搞
  • 打赏
  • 举报
回复
建议获取到html之后,用dom4j去解析xml,可以参考http://www.ibm.com/developerworks/cn/xml/x-dom4j.html
a_jian 2013-11-13
  • 打赏
  • 举报
回复
这个应该网络上有一大把现成的DEMO吧
异常异长 2013-11-13
  • 打赏
  • 举报
回复
一般把源码抓下来后 勇正则表达式筛选
tony4geek 2013-11-13
  • 打赏
  • 举报
回复
你想要那些重要信息就抓取那些。

67,512

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧