请教大神我的正则不匹配问题出在哪

qq_29140533 2016-03-08 11:15:27

准备爬内涵段子，筛选出点赞数大于5000的段子打印出来我的正则匹配是pattern = re.compile('<h1.*?class="title">.*?<p.*?>(.*?)</p>.*?</h1>(.*?)<li.*?class="digg-wrapper">.*<span.*?class="digg">(.*?)</span>.*?</li>',re.S)第一个（.*?）表示段子，第二个（.*?）表示点赞数，但为程序运行后反馈为响应。还有这样后经常会CPU占用率百分之百，让我不得不重新启动，求大神赏脸解答

...全文

124 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

panghuhu250 2016-03-10

打赏
举报

估计是像这样: http://ju.outofmemory.cn/entry/178152 用的.*?太多了. 如果你需要这么大的灵活性的话(这儿也许有空格, 哪儿可以有或没有属性...), 建议使用html解析的程序包(lxml, beautifulsoup等). 反之, 只有文件格式固定时, re才更方便.


pat = '<p>(.*?)</p>.*?<span class="digg">([0-9]*)</span>'
re.findall(pat, html)

第一次碰到这个问题的时候，确实不知道该怎么办，后来请教了一个大神，加上自己的理解，才了解是什么意思，这个东西写python的会经常用到，而且会特别频繁，在此写一篇博客，希望可以帮到一些朋友。例：一个字符串 ...

python 正则表达式，怎样匹配以某个字符串开头，以str ="abcdefg123213qwe" 比如要匹配以abc开头，以qwe结尾，要怎样写呢?匹配以某个字符串开头，以某个字符串结尾的情况的正则表达式:^abc.*?qwe$ Python正则表达式...

也是在工作中必不可缺少的知识点其中包含了正则，正则实战匹配数据，面向对象，面向对象实战，TCP、UDP底层通信协议，测试模块、高阶函数、发送邮件短信、虚拟环境搭建的使用等，让你从基础到进阶，从懵懂到熟练，...

表达式: ^[0-9]+(\.[0-9]{1,2}[^0]$|\.[1-9]$) 测试用例: 2.2 2.200 2.020 2.0 ...匹配到:2.2,2.02,2.222 ...解释:第一个加号前是整数部分,后面非0...有没有大神,请教一下其他写法.最多3位就{1,2},加上后面的非0即可. ...

脚本语言

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章

请教大神 我的 正则不匹配 问题出在哪

请教大神我的正则不匹配问题出在哪