正则表达式求教

S_Slan 2018-08-08 08:31:42

这是一段html
text的内容:
<tr>
<td align="center" name="sn" >2018001</td>
<td align="center" name="name" >张三</td>
<td align="center" name="gender" >女</td>
<td align="center" name="age" >20</td>
<td align="center" name="nation" >汉族</td>
<td align="center" name="score" >560</td>
</tr>
<tr>
<td align="center" name="sn" >2018002</td>
<td align="center" name="name" >李四</td>
<td align="center" name="gender" >男</td>
<td align="center" name="age" >21</td>
<td align="center" name="nation" >维吾尔族</td>
<td align="center" name="score" >600</td>
</tr>
<tr>
<td align="center" name="sn" >2018003</td>
<td align="center" name="name" >王麻子</td>
<td align="center" name="gender" >男</td>
<td align="center" name="age" >23</td>
<td align="center" name="nation" >回族</td>
<td align="center" name="score" >669</td>
</tr>
<tr>
<td align="center" name="sn" >2018004</td>
<td align="center" name="name" >李雷</td>
<td align="center" name="gender" >男</td>
<td align="center" name="age" >20</td>
<td align="center" name="nation" >汉族</td>
<td align="center" name="score" >580</td>
</tr>

用<tr>(.*?)</tr> 提取tr之间的内容



patten=r'<tr>(.*?)</tr>'

regex=re.compile(patten)

text=regex.findall(content,re.S|re.M)

返回的结果是空的
把patten=r'<tr>(.*?)</tr>'改为patten=r'<tr>([\s\S]*?)</tr>' 就可以取到数据
.*?和[\s\S]*?有什么区别。为什么会这样？

...全文

194 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

欢乐的小猪 2018-08-08

打赏
举报

import re



content = '''

    <tr>  

    <td align="center" name="sn" >2018001</td>  

    <td align="center" name="name" >张三</td>  

    <td align="center" name="gender" >女</td>  

    <td align="center" name="age" >20</td>  

    <td align="center" name="nation" >汉族</td>  

    <td align="center" name="score" >560</td>  

    </tr>        

    <tr>  

    <td align="center" name="sn" >2018002</td>  

    <td align="center" name="name" >李四</td>  

    <td align="center" name="gender" >男</td>  

    <td align="center" name="age" >21</td>  

    <td align="center" name="nation" >维吾尔族</td>  

    <td align="center" name="score" >600</td>  

    </tr>       

    <tr>  

    <td align="center" name="sn" >2018003</td>  

    <td align="center" name="name" >王麻子</td>  

    <td align="center" name="gender" >男</td>  

    <td align="center" name="age" >23</td>  

    <td align="center" name="nation" >回族</td>  

    <td align="center" name="score" >669</td>  

    </tr>  

    <tr>  

    <td align="center" name="sn" >2018004</td>  

    <td align="center" name="name" >李雷</td>  

    <td align="center" name="gender" >男</td>  

    <td align="center" name="age" >20</td>  

    <td align="center" name="nation" >汉族</td>  

    <td align="center" name="score" >580</td>  

    </tr>  

'''

patten = r'<tr>(.*?)</tr>'

regex = re.compile(patten, re.S)

text = regex.findall(content)

for tr in text:

    print('-----------------------------------------------')

    print(tr)

S_Slan 2018-08-08

打赏
举报



patten=r'<tr>(.*?)</tr>'

regex=re.compile(patten)

text=regex.findall(content,re.S|re.M)

这个re.compile()没有设定flags的值，所以"."不能匹配\n。而之后的regex.findall() 方法，我用错了。应该把re.S|re.M放到re.compile()里面。



patten=r'<tr>(.*?)</tr>'

regex=re.compile(patten,re.S|re.M)

text=regex.findall(content)

wudamen 2018-08-08

打赏
举报

[quote=引用 4 楼 S_Slan 的回复:]
你试一下这样子



import re

com = re.compile(r'<tr>(.*?)</tr>', re.S)

data = re.findall(com, text)

print(data)

S_Slan 2018-08-08

打赏
举报

重新看了一下re的源码，上面代码的两个findall是两个不同的方法

S_Slan 2018-08-08

打赏
举报

我刚才试了一下，按你的来写



data=re.findall(r'<tr>(.*?)</tr>',content,re.S)

data有数据。
而这样写



patten=r'<tr>(.*?)</tr>'

regex=re.compile(patten)

data=regex.findall(content,re.S)

data里什么都没有

S_Slan 2018-08-08

打赏
举报

引用 1 楼 wudamen 的回复:

( .*? ) . 可以匹配除了空白符之外的所有字符，而\s --> 匹配空白字符 \S --> 匹配非空白字符所以能匹配到
如果 . 想匹配到空白字符的话第一个修饰符为re.S

"."网上和书上都是说“匹配除换行符\n外的任意字符”。加了re.S后可任意匹配。

wudamen 2018-08-08

打赏
举报

( .*? ) . 可以匹配除了空白符之外的所有字符，而\s --> 匹配空白字符 \S --> 匹配非空白字符所以能匹配到
如果 . 想匹配到空白字符的话第一个修饰符为re.S

本文分享了使用Avira进行病毒扫描的过程及结果，共扫描了一个目录下的五个文件，发现三个文件被病毒感染，包括JS/Gerico.B、HTML/Small.AE和JS/Dldr.Murlo.C等类型的病毒。

博主尝试使用正则表达式来匹配特定格式的字符串，即从>和一个空格之后到（之前的所有内容。

本文探讨了如何使用正则表达式进行特定字符的替换操作，例如在字符串中仅保留abcd这几个字符，并移除其他所有字符。文章通过具体实例展示了实现这一目标的方法。

本文介绍MySQL8.0中新增的正则匹配函数regexp_replace和regexp_instr的使用方法，通过具体示例展示了如何高效地进行字符串替换及位置查找。

作者在尝试将安卓应用移植到鸿蒙系统时遇到问题，InputType.Number在鸿蒙中不支持小数点和负号输入。华为工程师建议使用正则表达式，但作者尝试多种正则表达式仍无法完美解决，怀疑可能是系统BUG。作者期待华为修复此问题以提高输入体验。

脚本语言

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章