【马上结帐】如何通过程序获得远程抓取过来的页面里的所有连接和连接的字符串

asp_m 2005-12-15 01:18:59
asp或者asp.net都可以,小弟谢谢了
...全文
127 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
尚和空四 2005-12-15
  • 打赏
  • 举报
回复
去看看 telpro
jspadmin 2005-12-15
  • 打赏
  • 举报
回复
哦,是.net的啊,我贴的是asp的,想来.net的应该也是大同小异
asp_m 2005-12-15
  • 打赏
  • 举报
回复
最后一次顶了,谢谢各位了
asp_m 2005-12-15
  • 打赏
  • 举报
回复
有办法吗,谢谢了
asp_m 2005-12-15
  • 打赏
  • 举报
回复
我下载了一些小偷程序,但都不管用,关键的东西还是没有弄出来
我也不要什么高级的,只需要通过程序把抓取过来的页面内容里的每个连接和标题取出来。谢谢,我用的是asp.net+c#
yopy 2005-12-15
  • 打赏
  • 举报
回复
帮顶一下
KimSoft 2005-12-15
  • 打赏
  • 举报
回复
呵呵,楼主去下一些小偷程序的代码看看,会有心得
jspadmin 2005-12-15
  • 打赏
  • 举报
回复
<%
On Error Resume Next
Server.ScriptTimeOut=9999999
Function getHTTPPage(Path)
t = GetBody(Path)
getHTTPPage=BytesToBstr(t,"GB2312")
End function

'首先,进行小偷程序的一些初始化设置,以上代码的作用分别是忽略掉所有非致命性错误,把小偷程序的运行'超时时间设置得很长(这样不会出现运行超时的错误),转换原来默认的UTF-8编码转换成GB2312编码,否则'直接用XMLHTTP组件调用有中文字符的网页得到的将是乱码。

Function GetBody(url)
on error resume next
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", url, False, "", ""
.Send
GetBody = .ResponseBody
End With
Set Retrieval = Nothing
End Function

'然后调用XMLHTTP组件创建一个对象并进行初始化设置。

Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function

Function Newstring(wstr,strng)
Newstring=Instr(lcase(wstr),lcase(strng))
if Newstring<=0 then Newstring=Len(wstr)
End Function

'处理抓取回来的数据需要调用adodb.stream组件并进行初始化设置。
%>

'以下即为页面显示部分

<%
Dim wstr,str,url,start,over,city
'定义一些需要使用到的变量

city = Request.QueryString("id")
'程序传回的ID变量(即用户选择的城市)赋给id

url="http://www.pifoo.com"
'这里设置需要抓取的页面地址,当然你也可以直接指定某个地址而不使用变量

wstr=getHTTPPage(url)
'获取指定页面的全部数据

start=Newstring(wstr," <html>")
'这里设置需要处理的数据的头部,这个变量应视不同情况而设置,具体内容可以通过查看需要抓取的页面的源'代码来确定。因为在这个程序里我们需要抓取整个页面,所以设置为页面全部抓取。注意,设置的内容必须是''页面内容唯一的,不可以重复。

over=Newstring(wstr," </HTML>")
'和start相对应的就是需要处理的数据的尾部,同样的,设置的内容必须是页面中唯一的。

body=mid(wstr,start,over-start)
'设置显示页面的范围

'下面就是动用乾坤挪移+++的时候了,通过replace可以用一些字符替换掉数据中指定的字符。

'body = replace(body,"skin1","天气预报 ")
'body = replace(body,"http://www.pifoo.com","aaa")

'本程序中已经完成了替换的工作,如果有其他需要的话可以继续进行类似的替换操作。

response.write body
%>
KimSoft 2005-12-15
  • 打赏
  • 举报
回复
没有写过相关的东东,只能给你这么多的思路,希望有所帮助。
KimSoft 2005-12-15
  • 打赏
  • 举报
回复
XMLHTTP,然后慢慢分析吧。Flashget里有个站点探测器的东东。倒是很能找的。
一、先用xmlhttp下载网页内容
二、Script
<script>
for (var i = 0; i < document.links.length; i++){
document.writeln(document.links[i]);
}
</script>
asp_m 2005-12-15
  • 打赏
  • 举报
回复
?再顶顶,解决了马上给分,谢谢
asp_m 2005-12-15
  • 打赏
  • 举报
回复
有人吗?小弟求解,马上给分

28,406

社区成员

发帖
与我相关
我的任务
社区描述
ASP即Active Server Pages,是Microsoft公司开发的服务器端脚本环境。
社区管理员
  • ASP
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧