我怎么把www.csres.com网站上的数据全部下载?

忧郁的烟头 2008-11-11 12:22:21

工标网http://www.csres.com/,
上面的标准目录几十W条,我想写一段程序去把上面的标准目录网页全部扒取下来,
我是通过这段程序
string url = "http://www.csres.com/Sort/chsortdetail/all.html";
byte[] buf = new byte[38192];
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream resStream = response.GetResponseStream();
StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
htmlStr = sr.ReadToEnd();

但总是报IIS500错误,但改成其它任何网站都可以读取源HTML,是不是这个网站的IIS做了限制?
后来我偿试用网络蜘蛛,想把整理个网站下到本地,再从本地读取的,可下了200个文件,就不能下载了,提示访问网页超过了最大数,然后就不能访问了该网站了,估计是IP被该网站封了。

我现在还有没有什么好的办法去把该网站的数据读取下来呢?大家帮帮我,谢谢了
...全文
577 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
Adechen 2008-11-11
  • 打赏
  • 举报
回复
http://www.svnhost.cn/Article/Detail-116.shtml
不错的
Adechen 2008-11-11
  • 打赏
  • 举报
回复
http://www.svnhost.cn/Article/Detail-116.shtml
不错的
zpcoder 2008-11-11
  • 打赏
  • 举报
回复

如果只要下载 (而不再乎是否一要用asp.net) 那就下载一个工具软件:

Teleport Pro 网站整站下载器


就 O 了
gengwanshanreally 2008-11-11
  • 打赏
  • 举报
回复
upup!
accomp 2008-11-11
  • 打赏
  • 举报
回复
数据问题吧 或他网页设置什么了,不是很明白,跟着学习

下面是sp1234的demo,在网站下创建一个aspx文件,把下面的代码拷贝进去,然后直接从浏览器上浏览这个页面:

<%@ Page Language="C#" %>

<%@ Import Namespace="System.IO" %>

<script runat="server">
protected void Button1_Click(object sender, EventArgs e)
{
StringWriter wr = new StringWriter();
Server.Execute(this.TextBox1.Text, wr); //你可以使用第三个参数传递页面的更多初始数据
this.Label1.Text = Server.HtmlEncode(wr.ToString());
File.WriteAllText(Server.MapPath(this.TextBox2.Text), wr.ToString());
}
</script>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head runat="server">
<title>演示取得网站中其它网页的源代码只需要两行代码就够了</title>
</head>
<body>
<form id="form1" runat="server" defaultbutton="Button1">
<div>
请输入本网站的页面名称:<asp:TextBox ID="TextBox1" runat="server"></asp:TextBox>
<br />
请输入目标文件名称<asp:TextBox ID="TextBox2" runat="server"></asp:TextBox>
<br />
<asp:Button ID="Button1" runat="server" Text="Button" OnClick="Button1_Click" /><hr />
<asp:Label ID="Label1" runat="server" Text="Label"></asp:Label>
</div>
</form>
</body>
</html>
w161134025 2008-11-11
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 iuhxq 的回复:]
http://www.svnhost.cn/Article/Detail-116.shtml
[/Quote]

这个不错!
Jack123 2008-11-11
  • 打赏
  • 举报
回复
up
sxmonsy 2008-11-11
  • 打赏
  • 举报
回复
我是来接分的
jiang_jiajia10 2008-11-11
  • 打赏
  • 举报
回复
用这个试验一下

WebRequest wrqt = WebRequest.Create("URL");
WebResponse wrse = wrqt.GetResponse();
Stream strM = wrse.GetResponseStream();
StreamReader SR = new StreamReader(strM, Encoding.GetEncoding("UTF-8"));
string strallstrm;
strallstrm = SR.ReadToEnd();
return strallstrm;

我做了测试能获取他的HTML

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧