将网页部分内容另存为本地文件

northwolves 2009-09-01 08:49:36

VB6.0 将http://news.csdn.net/ 的人物专访部分（源代码如下）另存为本地文件xxxx.htm ,图片等打包到 xxxx_files，有什么最简单的办法？

 <div class="tabcon">

                        <h5>人物专访<!-- 人物专访 --></h5>

                        

                                                                        <dl>

                        <dt><a href="http://news.csdn.net/a/20090417/210526.html" target="_blank" title="专访龙博Ajax框架创作团队">专访龙博Ajax框架</a></dt>

                        <dd class="img"><img src="http://info-database.csdn.net/Upload/2009-04-27/z2.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>龙博AJAX框架就源于他日常开发中对提高工作效率的渴望。</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://news.csdn.net/a/20090422/210647.html" target="_blank" title="专访Sun公司亚太区主席">专访Sun公司亚太区</a></dt>

                        <dd class="img"><img src="http://info-database.csdn.net/Upload/2009-04-27/z1.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>开源所提倡的开放、分享观念代表了未来技术发展方向。</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://live.csdn.net/" target="_blank" title="UCenter Home开源 助力中国SNS">UCenter Ho</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080606/lgd.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>“选择开源是康盛创想始终坚持与用户共赢的价值观的延续。”</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://live.csdn.net/" target="_blank" title="地震中的程序人生">地震中的程序人生</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080528/jueying.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>“地震是我们无法控制的，甚至还无法准确预测，可是我们不能因为一次地震就一蹶不振。</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://news.csdn.net/n/20080519/116064.html" target="_blank" title="解读互联网虚拟大脑结构图">解读互联网虚拟大脑结</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080522/liufeng.gif" alt="" width="92px" height="68px" /></dd>

                        <dd>关于互联网，有两个问题始终摆在人们面前。发展有没有规律可循？互联网最终结局是什么</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://211.100.26.82/CSDN_Live/tw/cc.htm" target="_blank" title="Cruise持续集成工具与实践">Cruise持续集成</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080519/{3FD3F264-070B-4B39-9F47-E302F71E06B6}2392.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>敏捷工具Cruise最大的优点就是这些先进功能：软件部署、容易使用和build </dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://news.csdn.net/n/20080512/115871.html" target="_blank" title="惠普实验室：创新无国界">惠普实验室：创新无国</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080513/3333.JPG" alt="" width="92px" height="68px" /></dd>

                        <dd>"科学无国界,和国际接轨,学习国际上先进的技术和研发经验是国内IT人才必不可少的</dd>

                        </dl>

                             

                                                                        <dl>

                        <dt><a href="http://news.csdn.net/n/20080504/115647.html" target="_blank" title="透过韩企看SOA解决方案">透过韩企看SOA解决</a></dt>

                        <dd class="img"><img src="http://images.csdn.net/20080504/{ABCD6C4F-305E-4119-BFEC-30DA41E04D6F}副本.jpg" alt="" width="92px" height="68px" /></dd>

                        <dd>可以说，从供需双方的表现来看，SOA已经进入了技术和产品的全面推广期。</dd>

                        </dl>

                             

                                                 

                                                 

                         

                        



                    

                    </div>

...全文

854 18 打赏收藏转发到动态举报

写回复

用AI写文章

18 条回复

切换为时间正序

请发表友善的回复…

发表回复

dingyanwei 2009-09-02

打赏
举报

我用的都是最繁琐的遍历方法。

chinaboyzyq 2009-09-02

打赏
举报

为了通用,修改一下ss = "<body>",修改成ss = "<body"



Sub getWeb()



    Dim X As XMLHTTP

    tmpth = "c:\temp.htm"

    URL = "http://www.baidu.com/"

    Set X = New XMLHTTP

    X.Open "GET", URL, False

    X.send

    s = X.responseText

    ss = "<body"

    arr = Split(s, ss)

    ss = ss & arr(1)

    If Dir(tmpth) <> "" Then Kill tmpth



    Open tmpth For Output As 1

    Print #1, , ss

    Close 1

    WebBrowser1.Navigate2 tmpth

    Set bd = WebBrowser1.Document.body

    Do While bd Is Nothing

        DoEvents

        Set bd = WebBrowser1.Document.body

    Loop

    SendKeys "c:\baidu.htm"

    SendKeys "{ENTER}"

    WebBrowser1.ExecWB OLECMDID_SAVEAS, OLECMDEXECOPT_PROMPTUSER

    Kill tmpth

End Sub

jhone99 2009-09-02

打赏
举报

Private    Sub   SavePicture(szURL,   fName)    '保存图片       

          '网页路径，文件名       

          Dim   x   As   XMLHTTP       

          Dim   oStream   As   ADODB.Stream       

          Dim   xx   As   String       

                

          Set   x   =   New   XMLHTTP       

          x.Open   "GET",   szURL,   False       

          x.send       

          xx   =   app.path   +   "/"       

                Set   oStream   =   New   ADODB.Stream       

                oStream.Type   =   1       

                oStream.Open       

                oStream.Write   x.responseBody       

                oStream.SaveToFile   xx   +   fName       

                oStream.Close       

  End   Sub       

        

 ' 简单实现       

        

  call   SavePicture("http://expert.csdn.net/images/csdn.gif";,"abc.gif")   



'功能：取得网址中的所有链接名称和地址    

'需要要引用 Microsoft   HTML   Object   Library        

        

  Private   Sub   GetLinks()       

  Dim   Doc   As   IHTMLDocument2       

  Dim   All   As   IHTMLElementCollection       

  Dim   L   As   Integer       

  Dim   i   As   Integer       

  Dim   Varl   As   Variant       

        

  Set   Doc   =   WebBrowser1.document       

  Set   All   =    Doc.images   '取图片的连接      doc.links   取文字链接       

  L   =   All.length       

  For   i   =   0   To   L   -   1       

        Set   Varl   =   All.Item(i,   varempty)       

          List1.AddItem    ("地址："   &   Varl.href)    'item.innertext   取文本链接名称        

        Set   Varl   =   Nothing       

  Next   i       

  Set   All   =   Nothing       

  Set   Doc   =   Nothing       

  End   Sub   

   

'然后在查找JPG,BMP等图片文件

chinaboyzyq 2009-09-02

打赏
举报

ldy888的程序在百度中文全是乱码,将程序修改如下:



Sub getWeb()

    Dim X As XMLHTTP

    tmpth = "c:\temp.htm"

    URL = "http://www.baidu.com/"

    Set X = New XMLHTTP

    X.Open "GET", URL, False

    X.send

    s = X.responseText

    ss = "<body>"

    arr = Split(s, ss)

    ss = ss & arr(1)

    If Dir(tmpth) <> "" Then Kill tmpth



    Open tmpth For Output As 1

    Print #1, , ss

    Close 1

    WebBrowser1.Navigate2 tmpth

    Set bd = WebBrowser1.Document.body

    Do While bd Is Nothing

        DoEvents

        Set bd = WebBrowser1.Document.body

    Loop

    SendKeys "c:\baidu.htm"

    SendKeys "{ENTER}"

    WebBrowser1.ExecWB OLECMDID_SAVEAS, OLECMDEXECOPT_PROMPTUSER

    Kill tmpth

End Sub

king06 2009-09-02

打赏
举报

[Quote=引用 8 楼 ldy888 的回复:]
最后完成的，c:\人物专访.htm 对应文件夹下有图片，页面中图片地址也是本机地址。
[/Quote]
高,学习~`

chinaboyzyq 2009-09-02

打赏
举报

一般如下可以完成:
1、取得网页的HTML代码
2、正则取出图片链接地址
3、xmlhttp下载
4、ADO.Stream保存

northwolves 2009-09-02

打赏
举报

[Quote=引用 8 楼 ldy888 的回复:]
最后完成的，c:\人物专访.htm 对应文件夹下有图片，页面中图片地址也是本机地址。
VB codeSub ldy888()Dim XAs XMLHTTP
tmpth="c:\temp.htm"
URL="http://news.csdn.net/"Set X=New XMLHTTP
X.Open"GET", URL,False
X.send
s= X.responseText
ss="<div class=""tabcon"">"
arr=Split(s, ss)
ss= ss& arr(1)Dim bt()AsByte
bt= StrConv(ss,128)If Dir(tmpth)<>""Then Kill tmpth

Open tmpthFor BinaryAs1
Put #1, , bt
Close1
WebBrowser1.Navigate2 tmpthSet bd= WebBrowser1.Document.bodyDoWhile bdIsNothing
DoEventsSet bd= WebBrowser1.Document.bodyLoop
SendKeys"c:\人物专访.htm"
SendKeys"{ENTER}"
WebBrowser1.ExecWB OLECMDID_SAVEAS, OLECMDEXECOPT_PROMPTUSER
Kill tmpthEnd Sub
[/Quote]

Works perfect! Million Thanks!!!

无·法 2009-09-02

打赏
举报

可否找到ie浏览器中另存为这个菜单的外部调用方法？好像以前看到有人发过这样的问题

ldy888 2009-09-02

打赏
举报

最后完成的，c:\人物专访.htm 对应文件夹下有图片，页面中图片地址也是本机地址。



Sub ldy888()



    Dim X As XMLHTTP

    tmpth = "c:\temp.htm"

    URL = "http://news.csdn.net/"

    Set X = New XMLHTTP

    X.Open "GET", URL, False

    X.send

    s = X.responseText

    ss = "<div class=""tabcon"">"

    arr = Split(s, ss)

    ss = ss & arr(1)

    Dim bt() As Byte

    bt = StrConv(ss, 128)

    If Dir(tmpth) <> "" Then Kill tmpth



    Open tmpth For Binary As 1

    Put #1, , bt

    Close 1

    WebBrowser1.Navigate2 tmpth

    Set bd = WebBrowser1.Document.body

    Do While bd Is Nothing

        DoEvents

        Set bd = WebBrowser1.Document.body

    Loop

    SendKeys "c:\人物专访.htm"

    SendKeys "{ENTER}"

    WebBrowser1.ExecWB OLECMDID_SAVEAS, OLECMDEXECOPT_PROMPTUSER

    Kill tmpth

End Sub

lyserver 2009-09-02

打赏
举报



Private Sub Form_Load()

    Me.WebBrowser1.Navigate2 "http://news.csdn.net/"

End Sub



Private Sub WebBrowser1_DocumentComplete(ByVal pDisp As Object, URL As Variant)

    If URL = "http://news.csdn.net/" Then

        Dim fn As Integer

        Dim div As Object

        For Each div In Me.WebBrowser1.Document.getElementsByTagName("DIV")

            If div.className = "tabcon" Then Exit For

        Next

        fn = FreeFile

        Open "c:\myhtml.html" For Output As #fn

        Print #fn, "<html><body>" & div.innerHTML & "</body></html>"

        Close #fn

        MsgBox "人物专访保存完毕！"

    End If

End Sub

ldy888 2009-09-02

打赏
举报

每个网页都不一样，没有通用的代码。
百度的那个取 X.responseText 是不行的，在我这里乱码
该取 X.responseBody

northwolves 2009-09-01

打赏
举报

[Quote=引用 3 楼 modest 的回复:]
WebBrowser1.ExecWB OLECMDID_SAVEAS, OLECMDEXECOPT_PROMPTUSER
[/Quote]
多谢回复。
但这样并未生成*_files目录，htm 文件中仍是其原始链接

northwolves 2009-09-01

打赏
举报

[Quote=引用 2 楼 syssz 的回复:]
将本段代码拷入一个新建的Word空白页,另存为xxxx.htm,将其中的图片直接下载到 xxxx_files,不知是否最简单.
[/Quote]

单个任务这样做没问题。但目前面临的是近万个类似的网页，下载到*.mht 格式没有问题，但下载到*.htm，并未生成xxxx_files 目录，我的代码如下：

Open TEMPFILE For Output As #1    'temp html file used for read by word application

                Print #1, TEMP

                Close #1

                'save as word document



                Set MYDOC = myword.Documents.Open(FileName:=TEMPFILE, Format:=wdOpenFormatAuto)

                If MYDOC.Content.Hyperlinks.Count > 0 Then

                    For K = MYDOC.Content.Hyperlinks.Count To 1 Step -1

                        MYDOC.Content.Hyperlinks(K).Delete

                    Next

                End If

MYDOC.SaveAs folder & "\xxxx.htm", FileFormat:=wdFormatHTML

                MYDOC.Close

                Kill TEMPFILE

northwolves 2009-09-01

打赏
举报

Open TEMPFILE For Output As #1    'temp html file used for read by word application

                Print #1, TEMP

                Close #1

                'save as word document



                Set MYDOC = myword.Documents.Open(FileName:=TEMPFILE, Format:=wdOpenFormatAuto)

                If MYDOC.Content.Hyperlinks.Count > 0 Then

                    For K = MYDOC.Content.Hyperlinks.Count To 1 Step -1

                        MYDOC.Content.Hyperlinks(K).Delete

                    Next

                End If

MYDOC.SaveAs folder & "\xxxx.htm", FileFormat:=wdFormatHTML

                MYDOC.Close

                Kill TEMPFILE