网站采集(爬虫)的几个问题

kusecha 2012-04-18 04:13:00
1.采集的数据有上千万 ,如果在采集的过程中,被中断了 ,还能从被中断的地方继续采集(我的想法是 把采集进度写入到一个文件里,下次采集前先查询一下文件里的内容 )

2.怎么能让数据采集的更快一些 (我是用的多线程 感觉不是太快)


我想知道还有更好的解决方法嘛?


还有就是有一些数据他还会继续更新 我想弄成时时采集 是不是直接用 定时器 ?
...全文
222 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
kusecha 2012-04-20
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]

写了半天,全丢了,这次简单点。

1、采集地址url森林逐步构造。不可删除,已加入的置标。此一部分为一中控任务分发服务器。
2、加一堆采集服务器去任务分发服务器领任务。多线程。
3、不采大文件。
4、不缓存。
5、线程限时结束。
6、任务可重采,用来防止意外中止。
7、任务产生的新url可向,本机内存森林hash表进行验证,不存在时,向中控任务分发服务器中发送。中控服务器再次验证……
[/Quote]我想问下 想采集的内容被加密了 怎么弄 他内容 都变成类似这样的代码在
kusecha 2012-04-20
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 的回复:]

这种非标准页没办法,一般也不是什么正规的站不采也行。非要处理就只能单独加,搞个特殊url和,处理方式对照表。
[/Quote]现在能采集了 但是唯一歌就是把编码转换过来就可以了
hwbox 2012-04-20
  • 打赏
  • 举报
回复
这种非标准页没办法,一般也不是什么正规的站不采也行。非要处理就只能单独加,搞个特殊url和,处理方式对照表。
kusecha 2012-04-20
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 的回复:]

引用 5 楼 的回复:


路过学习
&#22312这个确定是加密?
[/Quote]是Unicode编码 正在转成汉字中..
憧憬z 2012-04-20
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 的回复:]

[/Quote]
路过学习
在这个确定是加密?
kusecha 2012-04-19
  • 打赏
  • 举报
回复
消灭0回复
anzhiqiang_touzi 2012-04-19
  • 打赏
  • 举报
回复
支持下,我也想做
kusecha 2012-04-19
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]
写了半天,全丢了,这次简单点。

1、采集地址url森林逐步构造。不可删除,已加入的置标。此一部分为一中控任务分发服务器。
2、加一堆采集服务器去任务分发服务器领任务。多线程。
3、不采大文件。
4、不缓存。
5、线程限时结束。
6、任务可重采,用来防止意外中止。
7、任务产生的新url可向,本机内存森林hash表进行验证,不存在时,向中控任务分发服务器中发送。中控服务器再次验证后……
[/Quote]我消化1下
hwbox 2012-04-19
  • 打赏
  • 举报
回复
写了半天,全丢了,这次简单点。

1、采集地址url森林逐步构造。不可删除,已加入的置标。此一部分为一中控任务分发服务器。
2、加一堆采集服务器去任务分发服务器领任务。多线程。
3、不采大文件。
4、不缓存。
5、线程限时结束。
6、任务可重采,用来防止意外中止。
7、任务产生的新url可向,本机内存森林hash表进行验证,不存在时,向中控任务分发服务器中发送。中控服务器再次验证后生成任务,定时分送已经存在的森林hash表。

以上,是我的采集系统的设计,概设中还没动手,共同学习。

62,268

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧