关于网页信息采集,上一帖分数设置错了...
由于网站信息量不足(其实是人手不足- -),现在需要从别的网站上采集数据
是汽车类的网站,需要抓取的也就是一个"title"和相关的链接,可能来源于网易汽车或新浪汽车等比较大的门户网站
由于没涉及过网页数据的采集,现在想对做过的达人朋友问几个问题:
1.实时采集和集中一次性(一天)采集然后保存进数据库两者是那个比较好?
2.采集的时候是单一抓取网页文件,然后用正则提取需要的内容还是有别的更好更高效的办法?
3.如果有源码可否让我借鉴一下,如果有好的第三方软件的话也请推荐推荐!
4.在做采集的过程中有任何需要注意的地方或可能遇到的问题也请高手们不吝指教~
谢谢!