各位大哥,小弟在这求救了……
首先我说下我自己写的网络爬虫思想:
1.首先,得到一个URL,截取重要字段如:“http://www.163.com” 我截取:“163.com”部分。
2.其次,根据第1个步骤得到的URL,系统分配一个线程给它,然后根据URL去攫取有用的网址,进一步去爬取网络信息。
3.最后,根据攫取的信息,分析内容,截取重要内容保存数据库中。
问题如下:
请问上面的思想有什么问题没有呢?各位大哥,在第2步中,每一个URL都是分配一个线程,然后在一个线程下,又发现新的URL,继续用本线程去爬取,可有会问题?
当线程启动多了,发现如果只是启动一个线程会爬取很多的信息,如果是启动多个线程,发现爬取的信息就少了,请部这个是什么问题呢?
如何解决当前各大网站字符编码的问题?因为当前的各大网站启用的编码不标准,没有通用的,有的使用UTF-8,有的使用GBK2312,等等。如何解决爬行数据乱码问题?
在网站的后台,如何停止正在爬行数据的线程?
下面是图片截图:
