64,683
社区成员
发帖
与我相关
我的任务
分享
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="apple-itunes-app" content="app-id=427927518" />
<meta property="qc:admins" content="2012211377645053116375" />
。。。。。省略若干
<td class="td4">47,391,112</td>
</tr>
<tr class="bgcolor2">
<td class="td1">2014-04-05</td>
<td class="td2">
<a href="/lottery/draw/view/52?phase=2014087">2014087</a>
</td>
<td class="td3"><span class="result"> <span class="ball_1">0</span>
<span class="ball_1">3</span>
<span class="ball_1">0</span>
</span></td>
。。。。。省略和上面类似的,若干表格数据
</body>
</html>
<td class="td1">\d{4,4}-\d{2,2}-\d{2,2}</td>
etc
然而boost库的regex属于NFA。也就是undetermined finite automata.
其效率着实让人着急。
你还是用字符串的方法自己手撸lexme解析吧。