小弟最近在写一个爬虫,从购物网站上怕商品,用到的是HttpClient和htmlparser。
其中还用到了Executor线程并发,主要的问题就是在线程并发这里了,一旦线程数量多了,HttpClient就出现Cookie rejected: "[version: 0][name: msessionid][value: MV3KTEGMZVBTY8BR1UMXAV8VSDKRRXFY][domain: 1mall.com][path: /][expiry: null]". Illegal domain attribute "1mall.com". Domain of origin: "d6.yihaodianimg.com"这个警告,最夸张的一次是我用浏览器打开网站的时候直接屏蔽了这个电脑(不知道服务器屏蔽的是电脑还是ip什么的。。。)。
其中我有设置Cookie和header(User-agent)也是随机产生的。有没有大神解决啊。。我想了下是不是把我的ip伪装一下,设置代理访问网站就可以解决了,但是我又找不到代理ip。也搜了下网上的解决方案,说可以在header表头设置,但是不知道行不行。
求大神救小弟一把吧。。。。。