VB 做HTML数据采集,有啥好的方案么??

kinglife2008 2009-05-13 01:46:58

想获取指定网页地址中的数据

譬如

http://www.0515.la/1.html

源代码中

<li class=1>ok1</li>

<li class=2>ok2</li>

<li class=3>ok3</li>

<li class=4>ok4</li>

<li class=3>ok33</li>

<li class=5>ok5</li>

<li class=6>ok6</li>

<li class=6>ok66</li>

<li class=7>ok7</li>

<li class="8">ok8</li>

<li class="9">ok9</li>

<li class="c1">okc1</li>

<li class="c2">okc2</li>

<li class="c3">okc3</li>

我想获取 ok3 ok33 的值
注意这两个文本用的样式类是一样的:



<li class=3>ok3</li> 

<li class=3>ok33</li>

烦躁呢搞了一上午也没弄出来

我现在的思路是用INET opurl获取网页源代码,然后在源代码中处理提取自己需要的字符数据,也不知道行不行包括性能等等各方面

求达人们了解这块的给点思路和实例,小弟想做个采集网页数据的小程序.

...全文

205 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

Tiger_Zhao 2009-05-18

打赏
举报

如果你的 html 在本地，可以考虑用正则。
如果是网页，用 WebBrowser 就不用专门进行下载，直接访问 Document 更方便。

lyserver 2009-05-16

打赏
举报

[Quote=引用 1 楼 SYSSZ 的回复:]
象这种从网页源文件中提取内容的问题用正则匹配比较方便,较容易.
[/Quote]
支持!

liguicd 2009-05-15

打赏
举报

对Document了解比较少的人，力推SYSSZ说的：正则。了解比多的，推荐Tiger_Zhao的WebBrowser。
其实，从学习角度方面讲，建议两个都学学。以后保证你用得到，而且特别是正则，威力无穷哦，嘿嘿...

现在我在做的一个网页蜘蛛（需要解析20W张图片地址）就综合使用了正则和WebBrowser

Tiger_Zhao 2009-05-14

打赏
举报

直接用 WebBrowser 控件

Option Explicit



Private Sub Form_Load()

    WebBrowser1.Navigate2 "http://www.0515.la/1.html"

End Sub



Private Sub WebBrowser1_DocumentComplete(ByVal pDisp As Object, URL As Variant)

    Dim tag As Object

    For Each tag In WebBrowser1.Document.All.tags("li")

        If tag.className = "3" Then

            Debug.Print tag.childNodes(0).Data

        End If

    Next

End Sub