VB 做HTML数据采集,有啥好的方案么??

kinglife2008 2009-05-13 01:46:58
想获取指定网页地址中的数据

譬如

http://www.0515.la/1.html

源代码中
<li class=1>ok1</li>
<li class=2>ok2</li>
<li class=3>ok3</li>
<li class=4>ok4</li>
<li class=3>ok33</li>
<li class=5>ok5</li>
<li class=6>ok6</li>
<li class=6>ok66</li>
<li class=7>ok7</li>
<li class="8">ok8</li>
<li class="9">ok9</li>
<li class="c1">okc1</li>
<li class="c2">okc2</li>
<li class="c3">okc3</li>


我想获取 ok3 ok33 的值
注意 这两个文本用的样式类是一样的:

<li class=3>ok3</li>
<li class=3>ok33</li>



烦躁呢 搞了一上午 也没弄出来

我现在的思路是 用INET opurl获取网页源代码,然后在源代码中处理 提取自己需要的字符数据,也不知道行不行 包括性能等等各方面

求达人们了解这块的 给点思路和实例,小弟想做个采集网页数据的小程序.
...全文
148 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
Tiger_Zhao 2009-05-18
  • 打赏
  • 举报
回复
如果你的 html 在本地,可以考虑用正则。
如果是网页,用 WebBrowser 就不用专门进行下载,直接访问 Document 更方便。
lyserver 2009-05-16
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 SYSSZ 的回复:]
象这种从网页源文件中提取内容的问题用正则匹配比较方便,较容易.
[/Quote]
支持!
liguicd 2009-05-15
  • 打赏
  • 举报
回复
对Document了解比较少的人,力推SYSSZ说的:正则。了解比多的,推荐Tiger_Zhao的WebBrowser。
其实,从学习角度方面讲,建议两个都学学。以后保证你用得到,而且特别是正则,威力无穷哦,嘿嘿...
现在我在做的一个网页蜘蛛(需要解析20W张图片地址)就综合使用了正则和WebBrowser

Tiger_Zhao 2009-05-14
  • 打赏
  • 举报
回复
直接用 WebBrowser 控件
Option Explicit

Private Sub Form_Load()
WebBrowser1.Navigate2 "http://www.0515.la/1.html"
End Sub

Private Sub WebBrowser1_DocumentComplete(ByVal pDisp As Object, URL As Variant)
Dim tag As Object
For Each tag In WebBrowser1.Document.All.tags("li")
If tag.className = "3" Then
Debug.Print tag.childNodes(0).Data
End If
Next
End Sub
SYSSZ 2009-05-13
  • 打赏
  • 举报
回复
象这种从网页源文件中提取内容的问题用正则匹配比较方便,较容易.

1,502

社区成员

发帖
与我相关
我的任务
社区描述
VB 网络编程
社区管理员
  • 网络编程
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧