如何解析 HTML 文件

wljsp 2003-09-29 02:05:35
使用 VB 时,如何解析这个文件,如何得到每个节点,
引用 MSHTML ? 还是 MSXML2 ? 还是什么?

文件如下:

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<HTML>
<HEAD>
<meta name="GENERATOR" content="Microsoft® HTML Help Workshop 4.1">
<!-- Sitemap 1.0 -->
</HEAD><BODY>
<UL>
<LI> <OBJECT type="text/sitemap">
<param name="Name" value="工作记录">
<param name="Local" value="Default.htm">
</OBJECT>
<LI> <OBJECT type="text/sitemap">
<param name="Name" value="2003年1月">
</OBJECT>
<OBJECT type="text/sitemap">
<param name="Merge" value="HY0001.chm::\HY0001.hhc">

</OBJECT>
<LI> <OBJECT type="text/sitemap">
<param name="Name" value="2003年2月">
</OBJECT>
<OBJECT type="text/sitemap">
<param name="Merge" value="HY0002.CHM::\HY0002.hhc">

</OBJECT>
</UL>
</BODY></HTML>
...全文
98 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
wljsp 2003-10-08
  • 打赏
  • 举报
回复
这个方法有问题:
Set y = x.createDocumentFromUrl("http://www.nasa.gov/", vbNullString)
Do Until y.readyState = "complete"
DoEvents
Loop

打开文件(就是上面的文件),居然用了5分钟. 怎么回事?
wljsp 2003-10-08
  • 打赏
  • 举报
回复
谢谢各位,明天结贴、给分。
wljsp 2003-10-08
  • 打赏
  • 举报
回复
我找到了。

Private Sub Command1_Click()
Dim x As New MSHTML.HTMLDocument
Dim y As MSHTML.HTMLDocument

Set y = x.createDocumentFromUrl("http://www.nasa.gov/", vbNullString)

Do Until y.readyState = "complete"
DoEvents
Loop

Dim a As HTMLFrameElement, b As IHTMLElementCollection

Set b = y.All.tags("LI")
For Each a In b
debug.print a.innerHTML
Next
End Sub
opolmzy 2003-10-07
  • 打赏
  • 举报
回复

看看这段话

Microsoft的XML大师Chris Lovett最近在http://www.gotdotnet.com网站上发布了一个新的SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至将它们转换成一个格式规范的结构。SgmlReader派生于XmlReader,这就是说,你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文件。
gen2 2003-10-06
  • 打赏
  • 举报
回复
关注..
wljsp 2003-10-06
  • 打赏
  • 举报
回复
up
wljsp 2003-10-03
  • 打赏
  • 举报
回复
up
wljsp 2003-10-02
  • 打赏
  • 举报
回复
to superlionet(彼岸) 和 wzj7983()
能不能说的详细些?
superlionet 2003-09-30
  • 打赏
  • 举报
回复
mshtml可以搞定,没问题
查微软的platform sdk,里面很全
wljsp 2003-09-30
  • 打赏
  • 举报
回复
up
wzj7983 2003-09-30
  • 打赏
  • 举报
回复
mshtml.HTMLObjectElementClass

61,112

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧