爬取页面的内容问题

The_end90 2015-01-19 03:45:00
在用爬虫爬取大量的网站的时候,由于各个网站的布局都是不一样的,而且页面上包含了很多像广告这些东西,想要通过程序自己来判断和提取正文内容,那么问题来了,怎样精确的拿到一个URL中的正文内容呢?各位大神给点思路,感谢!
...全文
164 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
The_end90 2015-01-20
  • 打赏
  • 举报
回复
没人吗? 自己顶一下

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧