htmlparser 解析速度问题,急!
使用了htmlparser获取网页的指定数据,该采集的功能的确强悍,特别是filter的功能。
但是现在出现速度问题!
我第一层解析了45个页面,获取相关数据,总共花了3分钟。即每个页面要花0.6秒钟。
而每个页面又有12个链接,所以第二层又要解析45*14=630,即:第二层要解析630个页面总共花了38分钟。
这630个页面里又有10个链接。。。
总之一个笛卡尔积。总共要解析45*14*10*50=315000个页面。一计算,一次性解析完要花十几天时间啊!unbelievable!!
请问,
1、怎么样优化htmlparser的解析速度?是否解析这么多页面必然要花那么多时间的?
2、htmlparser解析页面中最花时间的是那个环节。是否是new parser(url)的时候。
请各位帮帮忙!谢谢!如解决马上结贴给分。