怎样去掉html标记内容，只剩网页中的数据？

qingpingyouxia 2003-02-12 04:33:58

各位过年好！
请问怎么样去掉NMHTTP得到的数据中的HTML标记，只剩下网页中的数据信息，形如：
原始数据:
<HTML>
<BODY>
...
<TR>AAAA</TR>
</BODY>
</HTML>
处理后：
AAAA

有劳了！

...全文

60 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

qingpingyouxia 2003-02-13

打赏
举报

回复

我要对字符进行处理，没有必要先读入TCppWebBrowser中，处理完以后，再删除临时控件对象吧？
请问有没有更直接的办法？例如字串对象直接访问接口？
不过，还是很感谢l_clove(倚天把剑观沧海·天下) 老兄！加分！

l_clove 2003-02-12

打赏
举报

回复

#include <Mshtml.h>

l_clove 2003-02-12

打赏
举报

回复

用CppWebBrowser控件就可以了。把Get（）放在 CppWebBrowser1的OnDocumentComplete()中。
bool __fastcall TForm1::Get(void)
{
IHTMLDocument2 *pDoc=NULL;
IHTMLElement *body;
LPDISPATCH pDisp = NULL;
pDisp =CppWebBrowser1->Document;
if(pDisp)
{
if (SUCCEEDED(pDisp->QueryInterface(IID_IHTMLDocument2, (void**)&pDoc)))
{
pDisp->Release();
wchar_t *txt;
pDoc->get_body(&body);
body->get_outerText(&txt);
pDoc->Release();
body->Release();
Memo1->Text=txt;
return true;
}
}
return false;
}

hnwlk 2003-02-12

打赏
举报

回复

给个思路：
如果固定的<TR>AAAA</TR>格式，可当作字符处理，把<TR>和</TR>之间的字符
取出来。

Thymeleaf是一种用于Java web应用程序的服务器端模板引擎可以将HTML、XML、JavaScript等静态文件与动态数据（如表单数据、数据库中的数据等）结合起来，在服务器端生成动态的Web页面。简而言之，它的主要作用就是在...

在网页开发的世界里，PHP（Hypertext Preprocessor）是一个广泛使用的服务器端脚本语言。它尤其适用于Web开发，并且能够很好地嵌入到HTML中。对于初学者而言，理解PHP的基本语法和如何将PHP代码与HTML内容相结合是...

最近，我一直在研究网页抓取技术。鉴于人工智能领域的快速发展，我尝试构建一个 “通用” 的... 分析给定网页的内容；2. 从相关部分提取文本信息；3. 进行必要的页面交互；4. 重复上述步骤，直至达成目标。使用的工...

HTML是一种标记语言，用于创建网页结构和内容。它定义了不同的标记（或元素）来表示网站中的不同部分，如标题、段落、链接和图像等。HTML 是构建网页的基础。 CSS是一种样式表语言，用于美化网页。它定义了不同的...

最近在搞网页编程，总结了frameset 的一些使用技巧，供大家参考哦，还是先剖析一下框架吧！■ 框架标记欲明白本篇...只需要即可，面所有框架标记需要放在一个总起的 html 档，这个档案只记录了该框架如何分割，不...

网络及通讯开发

1,317

社区成员

8,874

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章