怎么样优化网络蜘蛛程序
我要从网上抓取数据ProductID,以及相应的图片,PDF的数据,保存到数据库中,
这个ProductID不能重复,所以我要验证这个ProductID在数据库是否存在。
我现在的做方法是,开十个线程把所有的数据拿到,包括图片和PDF,在插入数据时,我会lock这个方法,并在方法中检查这个ProductID是存在,存在不插入,反之就插入数据,现在速度不快,有两种可能,
一是我把所有的数据拿到手包括图片和PDF,这会用掉不少时间,才去验证ProductID是否存在,
二是每插入一条数据都会打开一个数据连接,感觉这也会用掉不用时间。
我现在的想法是,在拿到ProductID时我就去验证是否存在,就会节约我下载图片和PDF的时间,但是会加大我访问数据库的时间,不知道各位有什么好方法解决