网页爬虫,只爬指定区域(或说指定table)中的内容可以做到么?(java)
【对网页爬虫不了解,也没看过代码。更没用过。所以请好心朋友回答的时候能说的通俗点。】
我想要的结果是这样的:例如一个网页由很多个div或者table组成。我只需要取其中一个div或者table的信息内容,然后再进行整理。
比如一个新闻网站的首页板块里其中有一部分是这样的:
新闻1 xxxx
新闻2 XXXXX
新闻3 XXXXX
新闻4 ASSS
我只要这个板块里的 【新闻标题list】。
定时去抓取下来后,存在自己的数据库中,再进行其它的处理。
请问: 现有的常见的爬虫程序具备这样的功能不?或者要实现这样的功能大致的思路是怎样的?