[python] 正则表达式请教

$(FYW) 2018-03-04 08:16:13
str = "<H1>AAAAAAAAAAa</H1> <H2>BBBBBBBBBBbb</H2> <H3>CCCCCCCCCCCc</H2>"

期望将相同的<Hx>...</Hx>提取出来,比如上面中的<H1>AAAAAAAAAAa</H1> 和 <H2>BBBBBBBBBBbb</H2>,
而将<H3>CCCCCCCCCCCc</H2>给滤掉

如果使用pattern2 = re.compile(r'<[hH]([1-6])>.*?</[hH]\1>'),
则print(pattern2.findall(str)) 得到的是 ['1', '2'].
如果改成 pattern2 = re.compile(r'<[hH](?:[1-6])>.*?</[hH]\1>'),则报错。

请问如果想达到期望的目的,这个pattern该怎么写? 谢谢!
...全文
287 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
$(FYW) 2018-03-05
  • 打赏
  • 举报
回复
谢谢两位解答! 似乎没有完全得到想要的string
sanGuo_uu 2018-03-05
  • 打赏
  • 举报
回复
#!/usr/bin/python
# -*- coding: utf-8 -*-

import re

txt="""
<H1>AAAAAAAAAAa</H1>  <H2>BBBBBBBBBBbb</H2>  <H3>CCCCCCCCCCCc</H2>
"""
#patt=re.compile(r"<(?'tag'[hH][1-6])>(.*?)</\k'tag'>",re.S)
patt=re.compile(r"<([hH][1-6])>(.*?)</\1>",re.S)
#findall是匹配小括号里的内容
zz=patt.findall(txt)
print(zz)
[('H1', 'AAAAAAAAAAa'), ('H2', 'BBBBBBBBBBbb')]
陈年椰子 2018-03-05
  • 打赏
  • 举报
回复
pattern2 = re.compile(r'<[hH]([1-6])>(.*?)</[hH]\1>')

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧