[python] 正则表达式请教

$(FYW) 2018-03-04 08:16:13

str = "<H1>AAAAAAAAAAa</H1> <H2>BBBBBBBBBBbb</H2> <H3>CCCCCCCCCCCc</H2>"

期望将相同的<Hx>...</Hx>提取出来，比如上面中的<H1>AAAAAAAAAAa</H1> 和 <H2>BBBBBBBBBBbb</H2>，
而将<H3>CCCCCCCCCCCc</H2>给滤掉

如果使用pattern2 = re.compile(r'<[hH]([1-6])>.*?</[hH]\1>')，
则print(pattern2.findall(str)) 得到的是 ['1', '2'].
如果改成 pattern2 = re.compile(r'<[hH](?:[1-6])>.*?</[hH]\1>')，则报错。

请问如果想达到期望的目的，这个pattern该怎么写？谢谢！

...全文

287 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

$(FYW) 2018-03-05

打赏
举报

谢谢两位解答！似乎没有完全得到想要的string

sanGuo_uu 2018-03-05

打赏
举报

#!/usr/bin/python
# -*- coding: utf-8 -*-

import re

txt="""
<H1>AAAAAAAAAAa</H1>  <H2>BBBBBBBBBBbb</H2>  <H3>CCCCCCCCCCCc</H2>
"""
#patt=re.compile(r"<(?'tag'[hH][1-6])>(.*?)</\k'tag'>",re.S)
patt=re.compile(r"<([hH][1-6])>(.*?)</\1>",re.S)
#findall是匹配小括号里的内容
zz=patt.findall(txt)
print(zz)

[('H1', 'AAAAAAAAAAa'), ('H2', 'BBBBBBBBBBbb')]

陈年椰子 2018-03-05

打赏
举报

pattern2 = re.compile(r'<[hH]([1-6])>(.*?)</[hH]\1>')

第一次碰到这个问题的时候，确实不知道该怎么办，后来请教了一个大神，加上自己的理解，才了解是什么意思，这个东西写python的会经常用到，而且会特别频繁，在此写一篇博客，希望可以帮到一些朋友。例：一个字符串 ...

python 正则表达式，怎样匹配以某个字符串开头，以str ="abcdefg123213qwe" ...qwe$ Python正则表达式的几种匹配用法： 1.测试正则表达式是否匹配字符串的全部或部分 regex=ur"" #正则表达式if re.search(regex, sub...

Python中正则表达式应用非常广泛，如:数据挖掘、数据分析、...Python也提供了re模块利用正则表达式实现文本的匹配、查找和替换等操作。本章介绍正则表达式，注意本章介绍的正则表达式与其他的语言正则表达式是通用的。

转自http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html AstralWind ...Python正则表达式指南 ...本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标

脚本语言

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章