求解：boost::regex正则表达式，解析html

别逗我乐 2014-04-07 09:14:26

背景：
本人使用CInternetSession获取网页的html字符串，然后使用CString::Find方法查找，一些标签内容，发现很是麻烦，然后想起来正则表达式，第一次用。。。

网页部分内容：



<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

  <head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

<meta http-equiv="X-UA-Compatible" content="IE=edge" />

<meta name="apple-itunes-app" content="app-id=427927518" />

<meta property="qc:admins" content="2012211377645053116375" />

。。。。。省略若干



  <td class="td4">47,391,112</td>

                    </tr>

                                    <tr class="bgcolor2">

                        <td class="td1">2014-04-05</td>

                        <td class="td2">

                                                <a href="/lottery/draw/view/52?phase=2014087">2014087</a>

                                                </td>

                        <td class="td3"><span class="result">                        <span class="ball_1">0</span>

                    <span class="ball_1">3</span>

                    <span class="ball_1">0</span>   

</span></td>



。。。。。省略和上面类似的，若干表格数据



  </body>

</html>

现象获取（一系列下方标红的数据）：
<td class="td4">47,391,112</td>
</tr>
<tr class="bgcolor2">
<td class="td1">2014-04-05</td>
<td class="td2">
<a href="/lottery/draw/view/52?phase=2014087">2014087</a>
</td>
<td class="td3"> 0
3
0
</td>

跪求指点：
在线等

...全文

198 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

别逗我乐 2014-04-08

打赏
举报

自己解决了，boost可以解决。本来想无满意结贴的。。。

赵4老师 2014-04-08

打赏
举报

推荐使用regtest软件。正则测试工具 v1.1.35

别逗我乐 2014-04-08

打赏
举报

自己顶一下。。。自己顶一下。。。自己顶一下。。。难道，只能使用find方法么

AntiMoron 2014-04-08

打赏
举报

同学，你可以这样写

<td class="td1">\d{4,4}-\d{2,2}-\d{2,2}</td>

etc 然而boost库的regex属于NFA。也就是undetermined finite automata. 其效率着实让人着急。你还是用字符串的方法自己手撸lexme解析吧。

火头军 2014-04-07

打赏
举报

如果真的要解析html ，需要很多正则表达式混用，如果 < 表示标签的开始 css属性怎么解析什么时候结束，遇到注释怎么办遇到section 怎么办等等可以使用开源的库进行解析

正则表达式的用法以及在c++中的使用。相关例子。

Boost 适用于几乎任何现代操作系统，包括 UNIX 和 Windows 变体。 Boost 提供免费的、可移植的同行评审的 C++ 库。重点是可移植库，它与 C++ 标准库配合得很好。

Boost库是C++社区的重要组成部分，它包含了许多独立但功能强大的库模块，涵盖了从字符串处理到多线程编程的各个方面。Boost库的设计目标是为标准C++库提供扩展和补充，并且许多Boost库最终都被纳入C++标准库中。Boost.Asio：用于网络和底层I/O编程。Boost.Filesystem：用于文件和目录操作。Boost.Geometry：提供几何算法和数据结构。Boost.Graph：用于图算法和数据结构。Boost.Regex：提供正则表达式支持。

https://blog.csdn.net/caojinlei_91/article/details/79209362 文件拷贝。3.使用make命令单独生成regex，进入boost_1_37_0\libs\regex\build，选择合适的mak文件。在Library search path(-L)中写入：“BOOST/libs/regex/build/gcc”在eclipse中使用boost.Regex时，在Libraries(-l)中写入：“boost_regex”## Boost工具裁剪。

C++ 语言

65,184

社区成员

250,526

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章