python提取网页，正则表达式没有任何内容

yt438936731 2017-07-23 05:40:20

想提取这一章的所有内容。
http://www.quanshuwang.com/book/9/9055/9674263.html

用的是谷歌浏览器或者edge
我用了如下的代码：
html = urllib.urlopen('http://www.quanshuwang.com/book/9/9055/9674263.html').read() #打开这个网页
text = html.decode('gbk').encode('utf-8')#转码
reg = r'style5();</script>(.*?)<script type="text/javascript">style6' #提取内容，发现出错，提取不到
reg = re.compile(reg)
print re.findall(reg,text)

发现返回[]，空的列表，找不出问题出在哪里，麻烦大神帮忙看一下

...全文

348 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

yt438936731 2017-07-23

打赏
举报

yt438936731 2017-07-23

打赏
举报

谢谢，两位的回复都可以

混沌鳄鱼 2017-07-23

打赏
举报


#coding=utf-8

import urllib
import re

html = urllib.urlopen('http://www.quanshuwang.com/book/9/9055/9674263.html').read() 
text = html.decode('gbk')

reg = r'<script type="text/javascript">style5\(\);</script>([\s\S]*?)<script type="text/javascript">style6' 
pattern = re.compile(reg)
match = pattern.findall(text)
if match:
    for txt in match:
        print txt

chuifengde 2017-07-23

打赏
举报

reg = r'style5\(\);</script>(.*?)<script type="text/javascript">style6' #提取内容，发现出错，提取不到
print re.findall(reg,text,re.DOTALL)

正则表达式是对字符串提取的一套规则，我们把这个规则用正则里面的特定语法表达出来，去匹配满足这个规则的字符串。正则表达式具有通用型，不仅python里面可以用，其他的语言也一样适用。python中re模块提供了正则表达式的功能，常用的有四个方法(match、search、findall)都可以用于匹配字符串match匹配字符串match方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。例子。

我们在做接口自动化的时候，处理接口依赖的相关数据时，通常会使用正则表达式来进行提取相关的数据，今天在这边和大家聊聊如何在python中使用正则表达式。正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。按某种规则匹配的表达式被称之为正则表达式，在python使用正则表达式，可以使用官方库re来实现，学

这篇文章主要是介绍Python爬取网页信息时，经常使用的正则表达式及方法。它是一篇总结性文章，实用性比较大，主要解决自己遇到的爬虫问题，也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点，这就更方便了，但本文更多的是介绍基于正则的底层爬取分析。涉及内容如下：常用正则表达式爬取网页信息及HTML分析总结 1.获取<t...

通过使用正则表达式，我们可以方便地从HTML源代码中提取出我们需要的数据。然而，在处理复杂的HTML结构时，使用专门的HTML解析库会更加方便和可靠。现在我们已经获取到了网页的HTML源代码，接下来我们可以使用正则表达式来提取我们需要的数据。接下来，我们需要获取网页的HTML源代码。除了提取链接，我们还可以使用正则表达式来提取其他类型的数据，比如提取电子邮件地址、日期、价格等等。以上示例只是展示了正则表达式的一小部分功能，正则表达式的语法非常强大，可以根据不同的需求进行灵活的匹配和提取。

什么是正则表达式正则表达式，是简单地字符的序列，可指定特定的搜索模式。正则表达式已存在很长一段时间，并且它本身就是计算机科学的一个领域。在 Python中，使用Python的内置re模块处理正则表达式操作。在本节中，我将介绍创建正则表达式并使用它们的基础知识。您可以使用以下步骤实现正则表达式：指定模式字符串。将模式字符串编译为正则表达式对象。使用正则表达式对象在字符串中搜索模式。可选：从字符串中...

脚本语言

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章