C#实现多任务抓取

xushen8314 2008-11-27 10:34:39

近段时间想自己做个多线程的抓取程序

经过研究抓取问题已经解决，现在想实现多个任务同时抓取，主要是为了提高抓取效率。

本人对C#多线程没有怎么接触过，所以还请各位指点。

具体实现结果：

1、任务列表里有多个任务（如：xxx.com/0001.html,xxx.com/9999.html）

2、要求同时创建多个线程（如：5个），每个线程抓取一个网页地址，如下对应关系：

Thread1 -- xxx.com/0001.html
Thread2 -- xxx.com/0002.html
Thread3 -- xxx.com/0003.html
Thread4 -- xxx.com/0004.html
Thread5 -- xxx.com/0005.html

当线程1-5中某个线程抓取完毕，自动创建一个新的线程对应地址 xxx.com/0006.html

可能涉及到的问题：获取活动线程数，获取状态为未抓取的临近目录

希望各位能够帮忙解答一下，

如能给出类似代码最佳，否则给出相应资料也可。

感激不尽

...全文

586 22 打赏收藏转发到动态举报

写回复

用AI写文章

22 条回复

切换为时间正序

请发表友善的回复…

发表回复

D__00 2010-10-13

打赏
举报

收藏...................

jackeyabc 2008-11-28

打赏
举报

xushen8314 2008-11-28

打赏
举报

思路大致是有了
非常感谢各位

grady.lu 2008-11-27

打赏
举报

俺也正在做这个东东,想法一样啊.

RexZheng 2008-11-27

打赏
举报

使用Queue<T>来存放任务列表。记住出队入队的时候先lock(queue)

实践一下。

易企加_天马行空 2008-11-27

打赏
举报

不用啊，有状态控制的话，不一定要执行完毕才循环，不会出现重复的。
你的那种做法没有必要，干嘛要再去开线程呢？

xushen8314 2008-11-27

打赏
举报

楼上的说法也很有道理
但是好像每次必须10个线程全部执行完毕才能循环

我的想法是如果任务量够的话，保持同时有多个任务执行，其中一个任务执行完毕，马上开启一个线程进行执行，以此类推

易企加_天马行空 2008-11-27

打赏
举报

我的方案不行吗？
其实就是先遍历你要下载的网站的所有下载页面，整一张任务列表，任务有状态等属性，然后开那么10来个线程根据状态去任务列表里获取未处理的任务处理，处理完了更新当前任务状态又去拿任务，如果循环而已。
至于线程控制，最简单的莫过于线程在那里循环不停干活了，如果你想控制线程的开停，while的条件是一个bool变量，要停的话把这个变量变成false就可以了，重新开始就赋值为true再起线程就ok了。

xushen8314 2008-11-27

打赏
举报

但问题是抓取的问题我已经解决，主要就是多线程的控制问题
类似迅雷多任务下载
还请高人指点。。。

xushen8314 2008-11-27

打赏
举报

我目前的代码是





                HttpWebRequest request = WebRequest.Create(new Uri("xxxx.html")) as HttpWebRequest;



                request.CookieContainer = CookieContainer;

                request.Method = "get";

                request.KeepAlive = false;



                HttpWebResponse response;

                try

                {

                    response = request.GetResponse() as HttpWebResponse;

                }

                catch (System.Net.WebException ex)

                {

                    this.SetValue(this.progressBar1.Value + 1);

                    continue;

                }

                Stream stream;

                stream = response.GetResponseStream();





                StreamReader reader = new System.IO.StreamReader(stream, Encoding.Default);

                html = reader.ReadToEnd();

hankwen 2008-11-27

打赏
举报

http://blog.chinahr.com/blog/hankwen/post/83503
不知道对你有帮助不

xushen8314 2008-11-27

打赏
举报

谢谢，我测试一下

bloodish 2008-11-27

打赏
举报

函数弄错了,不好意思,下载文件是:client.DownloadFileAsync()

bloodish 2008-11-27

打赏
举报

WebClient支持异步下载
WebClient client = new WebClient();
client.DownloadDataAsync("http://xxx.com/0001.html ");
client.DownloadFileCompleted += (client_DownloadFileCompleted);
client.DownloadProgressChanged += (client_DownloadProgressChanged);

void client_DownloadProgressChanged(object sender, DownloadProgressChangedEventArgs e)
{

}

void client_DownloadFileCompleted(object sender, AsyncCompletedEventArgs e)
{

}

你可以自己放个List<WebClient>保存下载的实例个数,在DownloadFileCompleted事件里移除WebClient实例

实现上应该比较简单

易企加_天马行空 2008-11-27

打赏
举报

你可以一开始就开辟10-20个线程的样子，不停的做循环。
然后在程序启动时你应该能得到一个网站所有的页，把所有的页的名字以及状态还有时间什么的封装成一个类，然后放到一个线程安全的集合，就是读和更新用lock锁住。
每个线程抓完一个页面就更新它对应与集合里的item的状态为已抓取，完成时间等。然后再遍历这个集合找到item的状态为未抓取的item，把状态变为正在抓取，然后取出页面名字继续抓取，如此循环就可以了。

易企加_天马行空 2008-11-27

打赏
举报

DownloadInfo GetDownloadInfo(ref int currentIndex)
{
lock(_locker)
{
for(int i = currentIndex;i < _downloadInfoList.Count; i ++)
{
DownloadInfo download = _downloadInfoList[i];
if(download.Status == 0)
{
currentIndex = i;
download.Status = 1;
return download;
}
}
return null;
}
}

呵呵，这样应该就对了

易企加_天马行空 2008-11-27

打赏
举报

DownloadInfo GetDownloadInfo(ref int currentIndex)
{
lock(_locker)
{
for(int i = currentIndex;i < _downloadInfoList.Count; i ++)
{
if(download.Status == 0)
{
currentIndex = i;
download.Status = 1;
return download;
}
}
return null;
}
}

public void Run()
{
int index = 0;
while(_threadSwitch)
{
DownloadInfo downloadInfo = GetDownloadInfo(ref index);
if(downloadInfo == null)
{
//此处要加上，防止漏掉了任务，从新从队列里搜索一遍
index = 0;
downloadInfo = GetDownloadInfo(ref index);
if(downloadInfo == null)
{
MessageBox.Show("已经没有可下载的任务了");
break;
}
}
//根据downloadInfo的url开始下载
...

downloadInfo.Status = 2;
}

这两个方法改下，有点问题。

易企加_天马行空 2008-11-27

打赏
举报

public void Run()
{
int index = 0;
while(_threadSwitch)
{
DownloadInfo downloadInfo = GetDownloadInfo(ref index);
if(downloadInfo == null)
{
MessageBox.Show("已经没有可下载的任务了");
break;
}
//根据downloadInfo的url开始下载
...

downloadInfo.Status = 2;
}

易企加_天马行空 2008-11-27

打赏
举报

先调用Init，初始化任务队列，然后调用Start开始下载，少写了一个东西，应该各线程发现任务队列都下载完了，应该通知调用方，这样再调用Stop，再调用Finished，一个网站的下载完毕。
下载另外一个网站重新调用Init，或者一开始把所有需要下载的列表传进去也行。如果需要其他功能，你自己扩展就可以了，思路大致是这样的

易企加_天马行空 2008-11-27

打赏
举报

class Program
{
public class DownloadInfo
{
public string Url;
public int Status;//0-未下载，1-下载中，2-已下载
public DateTime DownloadDateTime;

public DownloadInfo(string url)
{
Url = url;
}
}
object _locker = new object();
private List<DownloadInfo> _downloadInfoList = new List<DownloadInfo>();
DownloadInfo GetDownloadInfo(ref int currentIndex)
{
lock(_locker)
{
for(int i = currentIndex + 1;i < _downloadInfoList.Count; i ++)
{
if(download.Status == 0)
{
currentIndex = i;
download.Status = 1;
return download;
}
}
return null;
}
}
public void Init(string[] allofurlInWebSite)
{
froeach(string url in allofurlInWebSite)
{
_downloadInfoList.Add(new DownloadInfo(url));
}
}

public void Finished()
{
if(_threadSwitch)
{
return;
}
_downloadInfoList.Clear();
for(int i = 0; i < _threads.Length ; i ++)
{
_threads[i] = null;
}
_threads = null;
}

Thread[] _threads = null;
bool _threadSwitch = false;
publc void Start()
{
if(_threads != null)
{
return;
}
threadSwitch = true;
_threads = new Thread[15];
for(int i = 0; i < _threads.Length ; i ++)
{
_threads[i] = new Thread(Run);
_threads[i].Start();
}
}

public void Stop()
{
if(_threads == null)
{
return;
}
_threadSwitch = false;
Thread.Sleep(1000);
for(int i = 0; i < _threads.Length ; i ++)
{
_threads[i] = null;
}
}

_threads = null;
}
public void Run()
{
int index = 0;
while(_threadSwitch)
{
DownloadInfo downloadInfo = GetDownloadInfo(ref index);
//根据downloadInfo的url开始下载
...

downloadInfo.Status = 2;
}
}
}

在回复框里写的，可能有些错误。

加载更多回复（2）

C#多线程抓取数据(艺龙酒店) 各种类以及封装好了