Python 正则表达式求助，过滤采集html中的有效信息

kimsea 2008-01-03 09:39:33

学python一个多星期，现在想写一段采集代码

原代码如下：

<tr align="center" bgcolor="FFFBEF">
<td width="10%" bgcolor="#FFFBEF" class="a12"><a href='fwxx.asp?id=2653' target='_blank'>103幢车库1室</a></td>
<td width="20%" height="25" bgcolor="#FFFBEF"><a href="session_id.asp?id=100" target='_blank'>阳光城花园（怡景苑102#-103#）/阳光城花园</a></td>
<td width="18%" bgcolor="#FFFBEF"><a href="display.asp?id=50" target='_blank'>苏州嘉业房地产开发有限公司</a></td>
<td width="10%" bgcolor="#FFFBEF" class="a12">
金阊区</td>
<td width="12%" bgcolor="#FFFBEF" class="a12">
车库_ </td>
<td width="12%" bgcolor="#FFFBEF" class="a12">0室0厅0卫</td>
<td width="6%" bgcolor="#FFFBEF" class="a12">
13.068
</td>
<td width="8%" bgcolor="#FFFBEF" class="a12">1649.98</td>
</tr>

<tr align="center" bgcolor="FFFBEF">
<td width="10%" bgcolor="#EFEFCE" class="a12"><a href='fwxx.asp?id=2656' target='_blank'>103幢车库6室</a></td>
<td width="20%" height="25" bgcolor="#EFEFCE"><a href="session_id.asp?id=100" target='_blank'>阳光城花园（怡景苑102#-103#）/阳光城花园</a></td>
<td width="18%" bgcolor="#EFEFCE"><a href="display.asp?id=50" target='_blank'>苏州嘉业房地产开发有限公司</a></td>
<td width="10%" bgcolor="#EFEFCE" class="a12">
金阊区</td>
<td width="12%" bgcolor="#EFEFCE" class="a12">
车库_ </td>
<td width="12%" bgcolor="#EFEFCE" class="a12">0室0厅0卫</td>
<td width="6%" bgcolor="#EFEFCE" class="a12">
15.12
</td>
<td width="8%" bgcolor="#EFEFCE" class="a12">1650</td>
</tr>

<tr align="center" bgcolor="FFFBEF">
<td width="10%" bgcolor="#FFFBEF" class="a12"><a href='fwxx.asp?id=2659' target='_blank'>103幢车库9室</a></td>
<td width="20%" height="25" bgcolor="#FFFBEF"><a href="session_id.asp?id=100" target='_blank'>阳光城花园（怡景苑102#-103#）/阳光城花园</a></td>
<td width="18%" bgcolor="#FFFBEF"><a href="display.asp?id=50" target='_blank'>苏州嘉业房地产开发有限公司</a></td>
<td width="10%" bgcolor="#FFFBEF" class="a12">
金阊区</td>
<td width="12%" bgcolor="#FFFBEF" class="a12">
车库_ </td>
<td width="12%" bgcolor="#FFFBEF" class="a12">0室0厅0卫</td>
<td width="6%" bgcolor="#FFFBEF" class="a12">
7.938
</td>
<td width="8%" bgcolor="#FFFBEF" class="a12">1650.04</td>
</tr>

<tr align="center" bgcolor="FFFBEF">
<td width="10%" bgcolor="#EFEFCE" class="a12"><a href='fwxx.asp?id=2549' target='_blank'>75幢车库3室</a></td>
<td width="20%" height="25" bgcolor="#EFEFCE"><a href="session_id.asp?id=81" target='_blank'>阳光城花园（冠云居74#75#77#）/阳光城花园</a></td>
<td width="18%" bgcolor="#EFEFCE"><a href="display.asp?id=50" target='_blank'>苏州嘉业房地产开发有限公司</a></td>
<td width="10%" bgcolor="#EFEFCE" class="a12">
金阊区</td>
<td width="12%" bgcolor="#EFEFCE" class="a12">
车库_ </td>
<td width="12%" bgcolor="#EFEFCE" class="a12">0室0厅0卫</td>
<td width="6%" bgcolor="#EFEFCE" class="a12">
25.2
</td>
<td width="8%" bgcolor="#EFEFCE" class="a12">5000</td>
</tr>

目的是想得到所有<td></td>间的有效信息，可以看到每个<tr>是循环一致的

我自己写的正则如下：

expression2 = re.compile(""".*<td width="10%" bgcolor="#EFEFCE" class="a12"><a href='fwxx.asp\?id=(.*)' target='_blank'>(.*)</a></td>\s+\
<td width="20%" height="25" bgcolor="#EFEFCE"><a href="session_id.asp\?id=(.*)" target='_blank'>(.*)</a></td>\s+\
<td width="18%" bgcolor="#EFEFCE"><a href="display.asp\?id=(.*)" target='_blank'>(.*)</a></td>\s+\
<td width="10%" bgcolor="#EFEFCE" class="a12">\s+(.*)</td>\s+\
<td width="12%" bgcolor="#EFEFCE" class="a12">\s+(.*)</td>\s+\
<td width="12%" bgcolor="#EFEFCE" class="a12">(.*)</td>\s+\
<td width="6%" bgcolor="#EFEFCE" class="a12">\s+(.*)</td>\s+\
<td width="8%" bgcolor="#EFEFCE" class="a12">(.*)</td>""",re.DOTALL) # 匹配页面数据

但是怎么也得不到所有的有效信息，请高手帮忙解决，万分感谢

...全文

1399 17 打赏收藏转发到动态举报

写回复

用AI写文章

17 条回复

切换为时间正序

请发表友善的回复…

发表回复

Mom319 2009-06-17

打赏
举报

<table>
<tr><td width="80" bgcolor="#ECECEC">Day</td><td width="80" bgcolor="#F4F090">Number of visits</td><td width="80" bgcolor="#4477DD">Pages</td><td width="80" bgcolor="#66DDEE">Hits</td><td width="80" bgcolor="#2EA495">Bandwidth</td></tr><tr><td>01 May 2009</td><td>7</td><td>13</td><td>112</td><td>1.90 MB</td></tr>
<tr bgcolor="#EAEAEA"><td>02 May 2009</td><td>7</td><td>12</td><td>12</td><td>4.64 KB</td></tr>
<tr bgcolor="#EAEAEA"><td>03 May 2009</td><td>4</td><td>7</td><td>40</td><td>85.88 KB</td></tr>
<tr><td>04 May 2009</td><td>10</td><td>51</td><td>263</td><td>252.63 MB</td></tr>
<tr><td>05 May 2009</td><td>11</td><td>22</td><td>279</td><td>89.37 MB</td></tr>
<tr><td>06 May 2009</td><td>10</td><td>10</td><td>363</td><td>8.02 MB</td></tr>
<tr><td>07 May 2009</td><td>7</td><td>13</td><td>151</td><td>7.69 MB</td></tr>
<tr><td>08 May 2009</td><td>4</td><td>5</td><td>35</td><td>1.32 MB</td></tr>
<tr bgcolor="#EAEAEA"><td>09 May 2009</td><td>4</td><td>4</td><td>209</td><td>4.06 MB</td></tr>
<tr bgcolor="#EAEAEA"><td>10 May 2009</td><td>3</td><td>3</td><td>3</td><td>2.78 KB</td></tr>
<tr><td>11 May 2009</td><td>6</td><td>6</td><td>67</td><td>4.78 MB</td></tr>
<tr><td>12 May 2009</td><td>6</td><td>6</td><td>6</td><td>5.57 KB</td></tr>
<tr><td>13 May 2009</td><td>8</td><td>10</td><td>163</td><td>2.86 MB</td></tr>
<tr><td>14 May 2009</td><td>3</td><td>3</td><td>528</td><td>10.22 MB</td></tr>
<tr><td>15 May 2009</td><td>2</td><td>27</td><td>251</td><td>226.05 MB</td></tr>
<tr bgcolor="#EAEAEA"><td>16 May 2009</td><td>5</td><td>5</td><td>97</td><td>1.87 MB</td></tr>
<tr bgcolor="#EAEAEA"><td>17 May 2009</td><td>2</td><td>7</td><td>163</td><td>37.65 MB</td></tr>
<tr><td>18 May 2009</td><td>7</td><td>17</td><td>485</td><td>92.14 MB</td></tr>
<tr><td>19 May 2009</td><td>10</td><td>32</td><td>122</td><td>113.13 MB</td></tr>
<tr><td>20 May 2009</td><td>9</td><td>22</td><td>129</td><td>96.10 MB</td></tr>
<tr><td>21 May 2009</td><td>5</td><td>7</td><td>21</td><td>37.15 MB</td></tr>
<tr><td>22 May 2009</td><td>34</td><td>35</td><td>35</td><td>32.47 KB</td></tr>
<tr bgcolor="#EAEAEA"><td>23 May 2009</td><td>136</td><td>136</td><td>136</td><td>124.32 KB</td></tr>
<tr bgcolor="#EAEAEA"><td>24 May 2009</td><td>108</td><td>109</td><td>109</td><td>100.20 KB</td></tr>
<tr><td>25 May 2009</td><td>139</td><td>149</td><td>234</td><td>414.03 KB</td></tr>
<tr><td>26 May 2009</td><td>129</td><td>129</td><td>129</td><td>116.89 KB</td></tr>
<tr><td>27 May 2009</td><td>124</td><td>124</td><td>124</td><td>114.11 KB</td></tr>
<tr><td>28 May 2009</td><td>129</td><td>129</td><td>129</td><td>119.68 KB</td></tr>
<tr><td>29 May 2009</td><td>160</td><td>160</td><td>160</td><td>147.51 KB</td></tr>
<tr bgcolor="#EAEAEA"><td>30 May 2009</td><td>117</td><td>117</td><td>117</td><td>105.76 KB</td></tr>
<tr bgcolor="#EAEAEA"><td>31 May 2009</td><td>125</td><td>125</td><td>125</td><td>115.97 KB</td></tr>
<tr bgcolor="#ECECEC"><td>Average</td><td>42.94</td><td>48.23</td><td>154.74</td><td>31.88 MB</td></tr>
<tr bgcolor="#ECECEC"><td>Total</td><td>1331</td><td>1495</td><td>4797</td><td>988.40 MB</td></tr>
</table>

网页中有个table，想用python 读取每天的数据，请高手帮忙，提供一下正则表达式和代码，谢谢！

UltraBejing 2008-05-01

打赏
举报

以后需再关注，现在先帮你顶一下

meiZiNick 2008-04-30

打赏
举报

不会,帮顶

whycadi 2008-01-04

打赏
举报

我对html这玩意不熟。你说的表状结构是不是在<tr>和</tr>之间的是一个结构体里的？这也简单，只要稍微改改就行了
再次仍然假设内容在字符串s中



import re

#先找到<tr和</tr之间的数据，存为一个列表result1

result1=re.findall(r'<tr.+?</tr',s,re.S)



rule=re.compile(r'<\s*td[^<>]*>(?:\s*<[^<>]*>)*\s*([^<>\s]+)',re.S)

result=[]

for i in result:

    result.append(rule.findall(i))



#OK了，结果result是一个二维列表，下面是打印

for i in result:

    print '-------------------------------'

    for j in i:

        print j

-------------------------------
103幢车库1室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
13.068
1649.98
-------------------------------
103幢车库6室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650
-------------------------------
103幢车库9室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
7.938
1650.04
-------------------------------
75幢车库3室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
25.2
5000

iambic 2008-01-04

打赏
举报

把数据的表状结构丢失了吧？
一般抽取数据不是为了一连串打印出来，更一般的是作为后面的输入。把不同列的东西混在一起不是好的习惯。

whycadi 2008-01-04

打赏
举报

我又试了下，发现上面的写法实际上也多余了，还可以再简单点
仍然假设内容放在字符串s中



import re

rule=re.compile(r'<\s*td[^<>]*>(?:\s*<[^<>]*>)*\s*([^<>\s]+)',re.S)

result=rule.findall(s)

for info in result:

    print info

whycadi 2008-01-04

打赏
举报

改进了一下，更加简化的方式.虽然写起来好像比我在上面贴的那个多了两行。但是这个是一步到位，上面那个实际上是走了三步。因此这个应该快很多
假设内容存放在字符串s中



import re

rule=re.compile(r'<\s*td[^<>]*>(?:\s*<[^<>]*>)*\s*(?P<INFO>[^<>\s]+)',re.S)

pos=0

m=rule.search(s,pos)

while m:

    pos=m.end()

    print m.group('INFO')

    m=rule.search(s,pos)

Jack_Senlan 2008-01-04

打赏
举报

高手啊,佩服!!

kimsea 2008-01-04

打赏
举报

都是高人啊

严重感谢iambic
是个好淫啊...~~~

iambic 2008-01-03

打赏
举报

把你的文件上传下吧，或者贴个url。格式太乱了。

whycadi 2008-01-03

打赏
举报

rc=re.compile(r'<\s*td[^<>]*>(?:\s*<[^<>]*>)*[^<>]*',re.S)
result=rc.findall(s)
for i in result:
i=i[i.rfind('>')+1:-1]
print re.findall(r'\S{1,}',i)[0]

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
103幢车库1室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
13.068
1649.98
103幢车库6室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650
103幢车库9室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
7.938
1650.04
75幢车库3室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
25.2
5000

kimsea 2008-01-03

打赏
举报

自己来顶

所有tr中的循环格式如下：

<td width="10%" bgcolor="#FFFBEF" class="a12"> <a href='fwxx.asp?id=2659' target='_blank'>xxxx</a> </td>
<td width="20%" height="25" bgcolor="#FFFBEF"> <a href="session_id.asp?id=100" target='_blank'> xxxx </a> </td>
<td width="18%" bgcolor="#FFFBEF"> <a href="display.asp?id=50" target='_blank'> xxxx </a> </td>
<td width="10%" bgcolor="#FFFBEF" class="a12">
xxx </td>
<td width="12%" bgcolor="#FFFBEF" class="a12">
xxx </td>
<td width="12%" bgcolor="#FFFBEF" class="a12"> xxxx </td>
<td width="6%" bgcolor="#FFFBEF" class="a12">
xxxx
</td>
<td width="8%" bgcolor="#FFFBEF" class="a12"> xxxx </td>

iambic 2008-01-03

打赏
举报

#ignore link id

rows = html2table(html)

for r in rows:

    for c in r:

        print c

    print



#get link id

rows = html2table(html, True)

for r in rows:

    for c in r:

        print c[0], c[1]

    print

前一半输出（不带链接id）：

74幢车库18室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
27.881
5000

74幢车库21室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
27.522
5000

75幢车库4室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
39.706
5000

94幢车库21室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
18.954
1500

79幢车库12室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
6.696
1649.94

80幢车库3室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
21.6
1500

80幢车库6室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650

102幢车库8室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
3.46
1500

102幢车库10室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
6.554
1649.98

102幢车库18室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
3.46
1500

102幢车库22室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
4.278
1500

103幢车库1室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
13.068
1649.98

103幢车库6室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650

103幢车库9室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
7.938
1650.04

75幢车库3室
阳光城花园（冠云居74#75#77#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
25.2
5000

103幢车库3室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
21.6
1500

103幢车库8室
阳光城花园（怡景苑102#-103#）/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
11.88
1650

10幢2号室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
80.96
17000

10幢6号室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
93.55
17000

10幢7号室
阳光城花园/阳光城花园
苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
80.96
17000

后一半输出（带链接id）：

2546 74幢车库18室
81 阳光城花园（冠云居74#75#77#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
27.881
5000

2548 74幢车库21室
81 阳光城花园（冠云居74#75#77#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
27.522
5000

2550 75幢车库4室
81 阳光城花园（冠云居74#75#77#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
39.706
5000

2559 94幢车库21室
121 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
18.954
1500

2567 79幢车库12室
121 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
6.696
1649.94

2570 80幢车库3室
121 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
21.6
1500

2571 80幢车库6室
121 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650

2638 102幢车库8室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
3.46
1500

2640 102幢车库10室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
6.554
1649.98

2646 102幢车库18室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
3.46
1500

2650 102幢车库22室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
4.278
1500

2653 103幢车库1室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
13.068
1649.98

2656 103幢车库6室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
15.12
1650

2659 103幢车库9室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
7.938
1650.04

2549 75幢车库3室
81 阳光城花园（冠云居74#75#77#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
25.2
5000

2654 103幢车库3室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
21.6
1500

2658 103幢车库8室
100 阳光城花园（怡景苑102#-103#）/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
车库_
0室0厅0卫
11.88
1650

3423 10幢2号室
201 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
80.96
17000

3425 10幢6号室
201 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
93.55
17000

3426 10幢7号室
201 阳光城花园/阳光城花园
50 苏州嘉业房地产开发有限公司
金阊区
商业营业用房_
0室0厅0卫
80.96
17000

iambic 2008-01-03

打赏
举报

#!/usr/bin/env python

import re

import urllib



def html2table(html, useid=False):

    trs = re.findall(r'<tr align="center" bgcolor="FFFBEF">.*?</tr>', html, re.DOTALL)

    rows = []

    for tr in trs:

        if useid:

            x = re.findall(r'>(?:<a [^<>]*id=(\w+)[^<>]*>)?([^<>]*)(?:</a>)?</td>', tr, re.DOTALL)

            x = map(lambda t: [t[0].strip(), t[1].strip()], x)

        else:

            x = re.findall(r'>([^<>]*)(?:</a>)?</td>', tr, re.DOTALL)

            x = map(lambda s: s.strip(), x)

        rows.append(x)

    return rows



url = r'http://www.szfcweb.com/szwsfc/house_select_bottom.asp?action=sumb&pp=20&yt=b&qy=6&page=1'

html = urllib.urlopen(url).read()



#get link id

rows = html2table(html)

for r in rows:

    for c in r:

        print c

    print



#get link id

rows = html2table(html, True)

for r in rows:

    for c in r:

        print c[0], c[1]

    print