python提取网页,正则表达式没有任何内容

yt438936731 2017-07-23 05:40:20
想提取这一章的所有内容。
http://www.quanshuwang.com/book/9/9055/9674263.html
用的是谷歌浏览器或者edge
我用了如下的代码:
html = urllib.urlopen('http://www.quanshuwang.com/book/9/9055/9674263.html').read() #打开这个网页
text = html.decode('gbk').encode('utf-8')#转码
reg = r'style5();</script>(.*?)<script type="text/javascript">style6' #提取内容,发现出错,提取不到
reg = re.compile(reg)
print re.findall(reg,text)

发现返回[],空的列表,找不出问题出在哪里,麻烦大神帮忙看一下
...全文
311 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
yt438936731 2017-07-23
  • 打赏
  • 举报
回复
yt438936731 2017-07-23
  • 打赏
  • 举报
回复
谢谢,两位的回复都可以
混沌鳄鱼 2017-07-23
  • 打赏
  • 举报
回复

#coding=utf-8

import urllib
import re

html = urllib.urlopen('http://www.quanshuwang.com/book/9/9055/9674263.html').read() 
text = html.decode('gbk')

reg = r'<script type="text/javascript">style5\(\);</script>([\s\S]*?)<script type="text/javascript">style6' 
pattern = re.compile(reg)
match = pattern.findall(text)
if match:
    for txt in match:
        print txt
chuifengde 2017-07-23
  • 打赏
  • 举报
回复
reg = r'style5\(\);</script>(.*?)<script type="text/javascript">style6' #提取内容,发现出错,提取不到
print re.findall(reg,text,re.DOTALL)

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧