关于网页信息采集

xuefly09 2009-06-09 04:37:41
由于网站信息量不足(其实是人手不足- -),现在需要从别的网站上采集数据
是汽车类的网站,需要抓取的也就是一个"title"和相关的链接,可能来源于网易汽车或新浪汽车等比较大的门户网站
由于没涉及过网页数据的采集,现在想对做过的达人朋友问几个问题:
1.实时采集和集中一次性(一天)采集然后保存进数据库两者是那个比较好?
2.采集的时候是单一抓取网页文件,然后用正则提取需要的内容还是有别的更好更高效的办法?
3.如果有源码可否让我借鉴一下,如果有好的第三方软件的话也请推荐推荐!
4.在做采集的过程中有任何需要注意的地方或可能遇到的问题也请高手们不吝指教~
谢谢!
...全文
124 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
Fuller 2010-01-03
  • 打赏
  • 举报
回复
MetaSeeker免费使用,源代码可读,最擅长提取AJAX动态网页内容,欢迎探讨。http://www.gooseeker.com
w419419happy 2009-07-07
  • 打赏
  • 举报
回复
信息采集软件
QQ543249983
apeasant 2009-06-09
  • 打赏
  • 举报
回复
1.实时采集和集中一次性,看个人喜欢,你想慢慢加就,采多少加多少,毕竟别人的内容也会有更新,你也可以一起更新
2.正则是简单的方法,效率不错,一般用正则好。
你采集来的内容中可能会用对方的标记或链接,要注意过滤。

采集也可以先一次性采集,但不要的网站上显示出来,因为这些内容可能会有问题。
先把采集来的全部数据导入数据库中,然后每天审核几条,把那么不好的内容可以自己修改,这样比自己手工复制简单一些。
xuefly09 2009-06-09
  • 打赏
  • 举报
回复
不会吧``一个人都没有????
wenwenlou 2009-06-09
  • 打赏
  • 举报
回复
接分的,呵呵,没有这方面经验
xuefly09 2009-06-09
  • 打赏
  • 举报
回复
速度来个人``我结帖重问!!
xuefly09 2009-06-09
  • 打赏
  • 举报
回复
分数设置错了``怎么不好加``

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧