为什么正则把源代码采集下来就能匹配到但是直接用网页就不行

zhxzd1 2018-01-28 05:39:32

r=' <p class="productPrice"><em title="188.00"><b>¥</b>188.00</em></p>'

price=re.findall(r'<em.*?>(.*?)</em>',r)

print price

这样输出的时候输出的结果是

['<b>¥</b>188.00']

而上述被我复制到文本的源代码在原来的网页源代码中显示是

 <p class="productPrice">

<a class="tag"><img src="//img.alicdn.com/tfs/TB1hszmmv2H8KJjy0FcXXaDlFXa-60-60.png" title="" /></a>



<em title="188.00"><b>¥</b>188.00</em>



 </p>

我的python代码是

r=requests.get(url,timeout=30)

price=re.findall(r'<em.*?>(.*?)</em>',r.text,re.S)

print price

这时候输出为空

想不明白为什么，向各位大佬求教...
第一次发帖，如有不合规范还望海涵并告知！

...全文

368 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

sanGuo_uu 2018-01-29

打赏
举报

你把r.text先打印出来看看。如果跟你直接的html不同，那就找到原因了

lzw2016 2018-01-29

打赏
举报

不好意思没看到你在findall中写了r.text,但不是正则匹配的原因，把r.text打印出来看看吧，因为有些内容会通过异步加载，并非是在html中显示

lzw2016 2018-01-29

打赏
举报

正则是做字符串匹配，你返回的源码要使用text属性得到字符串

「已注销」 2018-01-28

打赏
举报


result=re.findall(r'<em .*?</b>(.*?)</em>',s,re.DOTALL)
print(result[0])

vc6.0开发，正则表达式匹配，能抓去网页中的内容、图片和资源

【下载代码】下载前面url的页面源代码，可在设置里设置采集页面代码的Charset模式【完全匹配】测试字符串是否和内容匹配，对应正则对象的test方法，返回True或者False 【检索结果】对表达式开始处理，输出所有匹配...

说明：该采集器针对火车头采不了的特定网站定制，如需采集其他网站，需修改源代码；本人代写采集规则，发布模块，定制各种软件，擅长破解各种防采集；源码为VS2008编写，因本人... 使用正则表达式匹配需采集的字符

正则表达式测试工具，也可以做为一般数据处理工具。有时我们经常需要对html页面源代码进行分析，所以工具提供了直接采集html的功能。输入网址，然后点击后面的按钮采集得到html。接着就在下面输入正则表达式，点击...

正则巅峰一个超强字符串处理工具，之所以取名叫“正则巅峰”，是因为它主要就是靠正则，将正则真正融入，无须依赖什么开发工具或者某个语言即可直接使用正则处理你手头文本数据相关的事务，真正将正则应用达到了一个...

脚本语言

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章