【求助】正则匹配提取文字

jzdriver 2021-06-09 21:29:08

原文

item=

        # <a href="thread-0000-1-1.html" style="font-weight: bold;color: purple">要提取的文字1</a>
        # <a href="thread-0000-1-4.html" style="color: purple">要提取的文字2</a>
        # <a href="thread-0000-1-2.html" style="font-weight: bold;color: blue">要提取的文字3</a>
        # <a href="thread-0000-1-4.html" style="font-weight: bold;color: green">要提取的文字4</a>
        # <a href="thread-0000-1-4.html" style="font-weight: bold;color: red">要提取的文字5</a>
        # <a href="thread-0000-1-7.html" style="color: blue">要提取的文字6</a>

通过

link = re.findall(re.compile(r'<a href="(.*?)"'), item)[0]

正确的获得了 thread-0000-1-1.html 这样的一组链接

但不知道如何获取 “要获取的文字” 这一组数据

拜谢

...全文

865 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

jzdriver 2021-07-07

打赏
举报

多谢亲，，，感激不尽

rrrr336 2021-06-13

打赏
举报

import re
item = \
 '''# <a href="thread-0000-1-1.html" style="font-weight: bold;color: purple">要提取文字1</a>
    # <a href="thread-0000-1-4.html" style="color: purple">要提取的文字2</a>
    # <a href="thread-0000-1-2.html" style="font-weight: bold;color: blue">要提取文字3</a>
    # <a href="thread-0000-1-4.html" style="font-weight: bold;color: green">要提取文字4</a>
    # <a href="thread-0000-1-4.html" style="font-weight: bold;color: red">要提取文字5</a>
    # <a href="thread-0000-1-7.html" style="color: blue">要提取文字6</a>'''
rx = r'(?<=>).+(?=</a>)'
content = re.findall(rx, item)
print(content)
# ['要提取文字1', '要提取的文字2', '要提取文字3', '要提取文字4', '要提取文字5', '要提取文字6']

使用正则匹配模式采集数据正则表达式很强大，利用它我们可以获得一定格式的数据，比如网址，E-mail地址，数字，字母等等．可喜的是，从3.2版开始，火车采集器就支持正则规则的编写了，这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则，一个纯正则，一个参数正则。我们下边分开讲一下。1.纯正则：先看一下图在标签中用正则表达式采内容的格式是这样：开始代码(?正则表达式)结束代码其中在...

想法很好，可偏偏就出了问题，等你打开文档，中文都是乱码，好办，我用notepadd++打开然后转成UTF-8，我以为这下应该问题，结果还是乱码，改成 gbk、gb2312，依然是乱码。这是什么玩意，我也不知道，百度了一下，这个cp437是英语字符集（欧美使用的），里面没有中文，所以解析中文都是乱码。接着，写正则表达式提取文件名，然后传递到OSS查询接口，此时，响应报错，我看了一下请求内容，文件名有乱码，然后，我设置了一下请求编码，改成UTF-8，再次请求，成功返回请求，URL地址中的文件名也没有乱码。

正则表达式匹配html代码的开头、结尾、以及中间，实现对目标标签 Tag 的提取。

正则表达式提取文本信息

我的CSDN主页 My Python 学习个人备忘录我的博文推荐正则练习：提取两个“—”之间的所有字符看到QQ群有人求求助，我也不会，通过对正则的复习和不断试探。在分析了字符串特征，并完全理解了 r’[\s|\s|.]’ 后，成功提取。题目代码运行效果完整代码练习题目回首页代码运行效果回首页 python完整代码 (如果从语句注释不能清楚作用，请评论区留言指教和探讨。????) #/sur/bin/nve python # coding: ut