请问如何优化我的爬虫程序
我这个程序是c#写的,先抓去某网站全部的Url,之后处理所有下载到数据库中的html,从中分析有用的信息。
现在我爬一个网站要七八个小时!发现是因为网页的下载速度比较慢(因为是普通家庭用1Mb的带宽,实际也就80K),可是80k算下来12个小时也是大概能下5G以上的数据,可我下载的页面总共大小才600Mb。也就是说浪费了很多带宽。
现在我正考虑用多线程优化程序,在处理Url的同时下载下一个页面。我的本本是“裤内双核”处理器。不知道我做多线程时是否需要考虑到“双核”这个概念。