一个抓取http内容的问题

alicc 2007-04-25 11:31:44

这下问题大了还请各位帮个忙。
我写了下面两个代码，我的电脑上运行是好的，其他的虚拟主机上运行也是好的，但是某些服务器上确出现这样的问题。我是放在同一个iis站点下的（因为都支持asp和asp.net2.0）。1个是用asp的Microsoft.XMLHTTP去读取一个网页的内容，结果一切正常，2个是用asp.net的webclient去读取同一个网页的内容，结果出现错误“不能做任何连接，因为目标机器积极地拒绝它。 ” 这个问题怎么办？是不是用webclient的时候，配置上还要注意什么问题？？？
我附上代码：
asp:
Function GetBody(url)
on error resume next
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", url, False, "", ""
.Send
GetBody = .ResponseBody
End With
Set Retrieval = Nothing
End Function
Response.Write (GetBody("http://www.163.com"))

asp.net:
protected void Page_Load(object sender, EventArgs e)
{

WebClient wc = new WebClient();

using (Stream strm = wc.OpenRead("http://www.163.com"))
{
StreamReader sr = new StreamReader(strm);
String bodyContent = sr.ReadToEnd();

Response.Write(bodyContent);
}

}

...全文

153 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

dongyaodongyao 2007-04-25

打赏
举报

回复

..

zhenjiaobing 2007-04-25

打赏
举报

回复

只能帮你顶。

Java抓取网页数据的两种方法：（1）抓取原网页（2）抓取网页JS返回数据

爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取，搜索引擎大揭密.java爬虫程序。web搜索。爬虫程序。sigar搜索，定时搜索互联网内容信息。

首先一定要知道 Scrapy爬虫框架对新手非常的不友好，或者从某些视频网站上跟着视频学或者说从培训机构里学几天技能掌握的，主要原因有以下两个方面。框架模块内容太多，虽然只是实现了一个简单的爬虫工作，但是实际上完成一个页面的抓取在框架里最少要走8个以上的步骤，但是这些步骤都是基本都是依靠配置文件完成的，没有丰富的爬虫经验，这些模块很多都不知道是做什么的，也不知道怎么配置。基于框架内进行数据抓取仅限于那些通用的网站抓取，你就简单理解为一个完成重复工作的机器人就行了。但是如果是那种反爬比较厉害的网站那就是另外一种情况了，完全是爬虫工程师和网站开发者的一个博弈了，所以这种情况不适合任何一种爬虫框架。对于那些想在工作中摸鱼的Python工程师来说就一定要使用爬虫框架，你会发现省不少力气而且效率真心非常高，不过一切都是在对框架熟练掌握的基础上、和对业务的深刻理解来说来说。但凡说 Scrapy 无用的基本上没有认真阅读过 Scrapy 的源码，对于 Scrapy框架中的众多功能在搭建爬虫系统的时候能想到用几个？而且是基本是没有做过大型的爬虫系统项目的。咱们倒着推这个事，你就知道为什么要用Scrapy框架了。我之前的单位是国家互联网的新闻中心，做的项目中的有一项是复现863课题舆情监控系统中的内容，使用的方法是 Scrapy爬虫框架结合 Django Web 搭建的数据采集系统，抓取的目标对象包括新闻、博客、论坛等等，其中每天目标检测网站成千上万，如果不用框架去做这种数据采集得累死。1.抓取的数据存哪里？单纯Scrapy爬虫脚本写好了执行抓取任务时数据保存到哪里？ES、Mongodb、MySQL？如果做过开发的人都知道存 Mongodb 中，那些说把数据存到 MySQL 的人基本上99%是从培训机构里出来的，因为大多数培训机构爬虫是不讲 Mongodb 的。通过业务计算逻辑把数据传输到生产 ES 环境中。2.几千、几万个爬虫脚本应该怎么管理？很多刚入行的人都觉得爬虫脚本难写，其实并不是这样。最难的是如何管理密密麻麻数不清的爬虫脚本，这里介绍Python如何处理这个事情。管理方式无非集中，Web管理环境、GUI管理环境、手动管理环境，不管是哪一种都需要一定的开发基础和管理思路。比较省事的用别人写好的Scrapy管理框架，比如Gerapy爬虫管理框架。如同这样web直接一键管理爬虫脚本，更多内容看上面的文章，这里就不重复了。3.Scrapy如何面对反爬的？跟大多数单线抓取某个网站解决其反爬一样，只要把反爬的逻辑设置好，比如最简单的更换代理IP，更换header，解析JS生成cookie访问等等，都可以在框架中设置配置文件。4.如何提高代码编写效率以及数据爬取效率？一定要阅读源码，一定要阅读源码，一定要阅读源码你才能知道这个框架里到底有什么内容可以用。5.基于Python各种框架开发的爬虫定制化项目。

使用shell抓取网页内容最近需要下载网页中的所有pdf，做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下准备抓取网页链接：https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html 抓取内容：数据手册下所有PDF文件，例如BZX884S_SER 获取抓取内容由于抓取的内容是不是静态网页，而是请求返回，需要获取数据请求链接通过F12打开浏览器开发者模式

0.前言在火狐浏览器和谷歌浏览器中可以非常方便的调试network（抓取HTTP数据包），但是在360系列浏览器（兼容模式或IE标准模式）中抓取HTTP数据包就不那么那么方便了。虽然也可使用HttpAnalyzer等工，但是毕竟都是收费软件。只需通过合适的过滤和操作，Wireshark也可抓取HTTP请求和响应。下面便说明具体操作。假设在8080端口运行一个HTTP服务器，

62,046

社区成员

669,049

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章