关于网站下载浏览,请求高手指点!!

licloudx 2003-10-17 05:34:25
当要下载www.163.com时,我知道要先下载www.163.com/index.html
可www.cctv.com怎么办?它的主页是www.cctv.com/default.shtml,我怎么能预先知道呢?
总不可能用字典法来试吧??
而且我用HTTP1.1协议的GET命令也不能下载www.cctv.com/default.shtml,下来后是个空文件.
还有象sports.163.com/index.html之类也一样
但又为什么www.163.com/index.html能够下载??
...全文
33 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
celerityok 2004-01-28
  • 打赏
  • 举报
回复
mark!
licloudx 2003-10-21
  • 打赏
  • 举报
回复
我追踪过了,用SOCKET,返回206 Partial content,文件长度为166B,可下到本地是空文件,要是重定向的话,我怎么得到定向后的URL呢?
licloudx 2003-10-20
  • 打赏
  • 举报
回复
可当我用GET / HTTP/1.1直接下www.cctv.com时,是不能得到CCTV的默认主页的,还有象sports.163.com/index.html之类也一样,只有www.163.com可以得到,是否协议请求一定要写得象microran2000的一样?
另外我不想用MFC来实现
microran2000 2003-10-20
  • 打赏
  • 举报
回复
我觉得你说的主页和我们理解的主页可能存在着差异.一般地,当客户端向远程Web服务器请求根路径得到的页面我们称之为主页,即便这个页面很小,也是主页.如果这个在这个页面内通过重定向或者另打开一个另外一个大的页面窗口.这个页面虽然名称是Index(default),也不是主页.
上面的两个网址,我没有跟踪过,你应该跟踪一下,看它是否采用重新定向的方法.这是HTTP应答返回302状态码.
一般HTTP请求的各个域并不是必须的,其顺序除了第一行外不太严格.具体格式和网站要求有关.发送HTTP请求的方法很多.你可以采用原始的SOCKET,也可以采用WININET API,也可以采用xmlhttp组件接口,IE自动化服务,ATL 7.x中还有几个专门负责Http协议的类可供调用.
gjd111686 2003-10-18
  • 打赏
  • 举报
回复
你可以用CHttpFile打开URL,可以自动下载,你再新建文件保存就可以了.
fanfyj 2003-10-18
  • 打赏
  • 举报
回复
up
microran2000 2003-10-18
  • 打赏
  • 举报
回复
看一下下面跟踪得到http协议请求和应答包,你就知道了.对于主页是不需要了解默认文件的.
2003/10/18 15:22:15.152

(send,len=352)
GET / HTTP/1.1
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/vnd.ms-excel, application/msword, application/x-shockwave-flash, */*
Accept-Language: zh-cn
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; MyIE2; .NET CLR 1.1.4322)
Host: www.baidu.com
Connection: Keep-Alive

2003/10/18 15:22:15.593

(WSARecv,len=1024)
HTTP/1.0 200 OK
Date: Sat, 18 Oct 2003 07:21:34 GMT
Server: Apache/1.3.27
Cache-Control: max-age=86400
Expires: Sun, 19 Oct 2003 07:21:34 GMT
Last-Modified: Wed, 15 Oct 2003 01:23:00 GMT
Accept-Ranges: bytes
Content-Length: 3615
Connection: close
Content-Type: text/html

<html><head><title>百度——全球最大中文搜索引擎</title><meta http-equiv=Content-Type content="text/html; charset=gb2312"><style type=text/css>body{font-family:宋体}
td{font-size:12px}
.f14{font-size:14.8px}
.ff{font-family:Verdana;font-size:16px}
.s{text-decoration:none}
.t{color:#ffffff;font-weight:bold;text-decoration:none}
a.t:hover{text-decoration:underline}
.m{color:#000000;cursor:hand;text-decoration:none}
a.m:hover{text-decoration:underline}</style><script><!--
function g(url){
var url;
window.location.href=url;
}//--></script></head><body bgcolor=FFFFFF text=000000 link=0000CC vlink=0000CC alink=FF6600 onload=document.f.word.focus()><center><br><img src=http://img.baidu.com/img/slogo.gif width=174 height=64 border=0><br><im
2003/10/18 15:22:15.593
E:\Program Files\Internet Explorer\IEXPLORE.EXE:
46c: WSARecv(,,,,,,) -> 0

2003/10/18 15:22:15.613
E:\Program Files\Internet Explorer\IEXPLORE.EXE:
46c: WSARecv(,12e328,1,2000,12e33c,0,0)

2003/10/18 15:22:15.613

(WSARecv,len=8192)
g width=1 height=23><br><br><br><table width=750 border=0 cellspacing=0 cellpadding=0><tr height=18 valign=bottom align=center><td width=22> </td><td width=75 bgcolor=#0033cc onClick="g('http://news.baidu.com')" class=m><a href=http://news.baidu.com class=t>新 闻</a></td><td width=30></td><td width=75 bgcolor=#0033cc onClick="g('http://site.baidu.com')" class=m><a href=http://site.baidu.com class=t>网 站</a></td><td width=30></
sevencat 2003-10-17
  • 打赏
  • 举报
回复
http好像是直接用get /http/这样的格式的后面不用加主页了。
onestation 2003-10-17
  • 打赏
  • 举报
回复
默认的首页不一定是index.html,default.shtml,要看服务器的设置.所以可能情况是无限的

.shtml是不能被保存的(IE).
但是你可以在自己的程序中打开,把源文件再写成.html

18,356

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 网络编程
c++c语言开发语言 技术论坛(原bbs)
社区管理员
  • 网络编程
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧