去除html标记

lxsshizishizi 2007-04-12 02:17:57
请问:MFC中如何去除html页面中的html标记。过程是:我将从服务器获得的html代码存入缓存,但它含有很多html标记,我如何处理才能获得象保存为text文档中的数据。请高手指点。
...全文
551 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
lxsshizishizi 2007-04-13
  • 打赏
  • 举报
回复
我也有查看过相关的贴子,也在codeproject里面查了好长时间,但是结果还是不令人满意。大部分的解决方法就象“fairyprince(精灵王子) ”说的那样,但缺点是有很多其他的标签去不干净,而且,遇到表格方式时所分析出来的数据格式就不对了。这直接影响了程序的稳定性,然后另一种解决方案是用正则,看了一下,关于正则java里用的比较多,在MFC中要加入COM,或者其他什么第三方库,有点麻烦,还没试过,我想应该能行的通吧,不过得花点时间,因为时间的问题,我还是采用了去除“<>”的方案,等时间松点的时候看看有没更好的方法了。多谢各位了!如果哪位仁兄有什么好的方法,或意见call me 229844483(QQ),请多指教了!
aj3423 2007-04-12
  • 打赏
  • 举报
回复
用正则表达式很简单就能完成。
woaimm123456 2007-04-12
  • 打赏
  • 举报
回复
IWebBrowser2有这个函数
fairyprince 2007-04-12
  • 打赏
  • 举报
回复
可以查找两个相临的 < > ,即 < 不能出现 < !
然后去除中间所有
fairyprince 2007-04-12
  • 打赏
  • 举报
回复
去除所有<>(包括<>) 中的东东就行了
fadics 2007-04-12
  • 打赏
  • 举报
回复
IWebBrowser2有这个函数的
setsailgo 2007-04-12
  • 打赏
  • 举报
回复
正则表达式
  • 打赏
  • 举报
回复
IWebBrowser2载入页面
然后用 IWebBrowser2::ExecWB 依次执行全选,copy
然后将剪切板中的内容去掉格式,粘贴到txt文档中就可以了
过程是麻烦点,不过肯定可行.

18,356

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 网络编程
c++c语言开发语言 技术论坛(原bbs)
社区管理员
  • 网络编程
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧