Python 正则表达 re.findall 选取无class得段落选不出来求大神帮忙

三木主公 2016-04-19 03:33:44

求大神帮帮忙！
我现在想爬取某财经网站的内容（http://www.yuncaijing.com/concept），碰到了这样的一个段落。

这个段落，我试了半天都取不到。
我用的是 re包
用 re.findall('<p>(.*?)</p>', html),其中html是我趴下来的内容。
谢谢~

...全文

321 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

TaiJi1985 2016-04-24

打赏
举报

回复

我现在爬取网页，一般都用pyquery。如果你知道jquery，就知道这东西有多强大了。。。它自带的强大选择器可以很快定位到你要爬取的内容。。


#!/usr/bin/python
# -*- coding: UTF-8 -*-
from pyquery import PyQuery as pq
import urllib
u = 'http://www.7dsw.com/toplastupdate/1.html'
p = urllib.urlopen(u)
pp = p.read().decode('gbk')
d = pq(pp)
sep = d('#newscontent ul a').text()
for s in sep.split(' '):
    print s

上面代码中的 '#newscontent ul a 语法和css或者jquery是一致的。。。。。

竹聿Simon 2016-04-20

打赏
举报

回复

我一般都是用： pattern = re.compile('<p>(.*?)</p>', re.S) re.findall(pattern,html) 因为在正则表达式里面，点号（.）是匹配换行符以外的任意字符，用re.S处理后则可以匹配所有了。

三木主公 2016-04-19

打赏
举报

回复

还是不行选不出来，我猜可能是跟前面那些好多空格有关系。。。

xSeeker~ 2016-04-19

打赏
举报

回复

试下 re.findall(u'<p>(.*?)</p>', html),可以吗正则匹配的内容含有中文，要加前缀u

屎克螂 2016-04-19

打赏
举报

回复

re.findall('<p>(.|\s)*?</p>', html)

learn-python-the-hard-way中文版，o基础学习python！||随手上传是种美德

正则表达式中re.match、re.search、re.findall的用法和区别 re.match 用法 re.match语法：re.match(pattern,string,flags=0) pattern:表示正则表达式 string：要匹配的字符 flags：控制匹配的方式 **re.match匹配方式：**从字符起始位置匹配，若起始位置匹配不成功返回none。即只匹配起始位置 impor...

在Python中，正则表达式是一种强大的工具，用于在文本中查找、匹配和处理模式。re 模块提供了许多函数来处理正则表达式，其中和是常用的两个函数，用于在字符串中查找匹配的模式。本文将深入介绍这两个函数的用法，以及详细的使用示例。用于查找第一个匹配的子串，而则用于查找所有匹配的子串。通过在正则表达式模式中定义适当的规则，使得我们可以有效地在文本中查找并处理各种模式。这两个函数是处理文本匹配和搜索的重要工具，在文本处理和数据提取中非常有用。

一.findall 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。 1. #!/usr/bin/python3 import re if __name__ == '__main__': line = "Cats are smarter than dogs Cats are smarter than do0gs Cats are smar...

Cooking Regex微信公众号正则表达式学习目录 re.match re.fullmatch re.search re.sub re.subn re.split re.findall re.finditer re.compile re.purge re.escape 阅读本文章时，已默认您对正则表达式有了一定的了解。该教程是对Pytho...

37,741

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章