一个失败的python爬虫

Happy画板 2017-11-15 04:10:50
我要爬取百度经验目录前3页:
import re
import urllib.request

def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html


def getTitle(html):
reg = r'title="([.*\S]*)" target='
imgre = re.compile(reg);
imglist = re.findall(imgre, html)
return imglist

url = "https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn="
for i in range(0,3*7,7):
i = str(i)
a = url+i
print('本页的链接是:\n',a)
html = getHtml(a)
html = html.decode('UTF-8')
print("本页目录如下")
for i in getTitle(html):
print(i)

过几天就可能变成前四页,因为作者可能续写新的文章。
目前的运行结果是:
本页的链接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=0
本页目录如下
怎么把视频或者动态图倒序播放?
怎么用网络画板绘制隐函数图像?
怎么认识置换与置换矩阵之间的关系?
怎么处理大量数据的拟合(线性规划处理)?
平面上的点阵与矩阵乘法的关系
怎么使用AudioGenerator函数?
怎么安装urllib3
本页的链接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=7
本页目录如下
怎么用数学手册计算器绘制两个函数的图像?
网络画板怎么实现图形填充色的动态变化?
txt文件太长,打不开怎么办?
怎么用计算机检验矩阵乘法满足结合律?
python里面字符串的操作方法有什么?
怎么在手机上玩木棍拼图的游戏?
音频基础——怎么查看音频的基本参数?
本页的链接是:
https://jingyan.baidu.com/user/npublic/?uid=d1b612bceb0dc22ba8ffe137&pn=14
本页目录如下
怎样记住颜色表
undertale第一关怎么过
指南者导航如何升级
手机怎么设置圆柱旋转?
阿里鲁班智能设计平台怎么用
怎么在手机上发表小说赚钱?

这是一个失败的爬虫,因为第三页有一篇文章的标题没有爬出来。这篇文章的标题是:《怎么在电脑上安装VS Code软件?》
因为标题里面有一个空格[/size]而导致匹配失败。

我想知道,怎么能够无遗漏的爬取所有的文章的标题?
...全文
170 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

2,209

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 其他数据库
社区管理员
  • 其他数据库社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧