由于有很多网址,并且很多都是带有js跳转的动态页面,于是只能使用浏览器对象。
现在的工作方式是,以每个线程配备一个browser对象,所有线程依次从文件中获取需要访问的网址,并且访问时间是被限定的如果超时,则判定访问失败,然后将访问成功与否的结果输出到另一个文件进行汇总。
这样的工作方式就是,当启动50个线程时,就有50个webbrowser在运行
然而现在遇到的问题是,不同的线程数抓取的成功率也会不同。比如现在有100个网址,2个线程时只失败6个;而20个线程时则失败17个。
这是为何? 是网络通信不稳定的结果吗?