请教关于python中正则表达式匹配的问题

JWplus91 2024-05-17 18:07:59

import requests
import re
source = requests.get('https://www.zysj.com.cn/lilunshuji/index__2.html').content.decode()

list1=re.findall('<div id="list-content">.*?</div>',source,re.S)
indexlist=re.findall('title="《(.*?)》',list1[0],re.S)

print(list1[0])
print(re.findall('href=".*?" title="《百病自测》"',list1[0],re.S))

这是我的一段代码。想从一个网站中获取指定书名对应的url。前面通过匹配获得的list1数据为：

然后从其中匹配《百病自辩》中的url

print(re.findall('href=".*?" title="《百病自测》"',list1[0],re.S))

按理来说我使用的是非贪婪模式，获得的应该只是href="/lilunshuji/baibingzice/index.html" title="《百病自测》"一小段，为什么实际的匹配结果却是这样？

请各位大神赐教！

...全文

1883 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

计算机专家-学术裁缝 2024-05-20

打赏
举报

你可以这样写:
1、获取书名是这样： >(.*?) 这是正则表达式的规则。
2、获取 url 这样写：。通过这俩个规则，配合 re.findall即可，然后取出下标为 0 的元素就行。希望可以帮到你

本文介绍如何在Python中解决中文匹配问题，通过实例演示将非unicode编码文本转换为unicode编码，编写符合编码要求的正则表达式进行匹配，并打印出正确结果。

本文详细介绍了Python中的正则表达式，包括re模块的match函数、正则表达式的语法，如.*、[a-z]、d等，并展示了如何匹配字符串的起始、结束以及边界。此外，还探讨了数量表示如*、+、?和{m,n}

本文介绍了Python中正则表达式的基本概念和规则，包括贪婪与非贪婪模式的使用，以及反斜杠在正则表达式中的转义问题。通过学习，读者将能够更好地理解和应用正则表达式进行文本匹配。

牛客网剑指 offer 的编程挑战，涉及Python中正则表达式的使用，旨在解决字符串匹配问题。

本文介绍了Python中正则表达式的匹配规则，包括贪婪与非贪婪模式、反斜杠问题等，并提供了实例说明。通过掌握这些规则，开发者可以更有效地在文本中提取所需信息。原生字符串在解决反斜杠困扰方面提供了便利。

TARE机器人自主导航系统

1,150

社区成员

453

社区内容

发帖

与我相关

我的任务

自动驾驶人工智能企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章