百度贴吧小说爬取源码

liujiayi555 2016-12-05 12:28:02

#_*_ coding:utf-8_*_
import re,urllib2,urllib
class BDTB:
#地址，只看楼主，多页，
baseUrl='http://tieba.baidu.com/p/3905339699?see_lz=&pn='
#获取源代码
def getPage(self,pageNum):#该页帖子的代码
try:
url=self.baseUrl+str(pageNum)#获取源代码
request=urllib2.Request(url)
response=urllib2.urlopen(request)
return response.read()
except Exception,e:
print e
#匹配标题
def Title(self,pageNum):
html=self.getPage(pageNum)#调用方方，获取源代码
reg=re.compile(r'title="【非原创】(.*?)"')
items=re.findall(reg,html)#返回的是列表
for item in items:
f = open('liujiayi.txt','w')#打开文件的模式
f.write('标题'+'\t'+item)
f.close()
return items
#匹配正文
def Text(self,pageNum):
html=self.getPage(pageNum)#调用方方，获取源代码
reg=re.compile(r'class="d_post_content j_d_post_content "> (.*?)</div><br>',re.S)
req=re.findall(reg,html)
if pageNum==1:
req=req[1:]#第一段不要
for i in req:#去渣子
removeAddr=re.compile('<a.*?>|</a>')
removeaddr=re.compile('<img.*?>')
removeAdd=re.compile('http.*?.html')
i=re.sub(removeAddr," ",i)
i=re.sub(removeaddr," ",i)
i=re.sub(removeAdd," ",i)
i=i.replace('<br>','')#替换
print i# 完全没有杂质的正文内容
f=open('liujiayi.txt','a')
f.write('\n\n'+i)#换行
f.close()

bdtb=BDTB()#调用
print '爬虫正在启动......'
try:
for i in range(1,15):
print '正在抓取第%s页的小说'%(i)
bdtb.Title(i)
bdtb.Text(i)
except Exception,e:
print e

...全文

429 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

ScottX1 2016-12-07

打赏
举报

回复

出来的内容要进行重新编码，如下： .decode("utf-8")

zy_dream 2016-12-06

打赏
举报

回复

爬取时是否遇到过这种乱码问题，求解

ppchaos 2016-12-06

打赏
举报

回复

python 3的吗？

今天主要分享如何抓取网页信息，并生成txt文件内容！Python抓取网页技能——Python抓取网页就是我们常看见的网络爬虫，我们今天所要用到的就是我们Python中自带的模块，用这些模块将网页内容爬取下来，并生成一个txt文件。（一）实例思路：我们所需要用到的模块：urllib2—urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以u...

#coding:utf-8 import urllib2 import re class BDTB: baseUrl='http://tieba.baidu.com/p/4896490947?see_lz=1#/pn=' #打开网址，获取源码，返回response对象内容 def getPage(self,pageNum): try:

Python爬虫实例--爬取百度贴吧小说写在前面本篇文章是我在简书上写的第一篇技术文章，作为一个理科生，能把仅剩的一点文笔拿出来献丑已是不易，希望大家能在指教我的同时给予我一点点鼓励，谢谢。一.介绍小说吧：顾名思义，是一个小说爱好者的一个聚集地。当然这不是重点，重点是，我们要做的事情便是将小说吧中以帖子连载形式的小说用爬虫给拿下来保存到本地这个项目是我曾初学pyt...

最近在微信里看了一个小说叫《阴阳代理人》的，看到一半，发现断了，作者说把后面的部分放到了百度贴吧，去了贴吧发现，文章看起来比较费劲，乱糟糟的，所以为了我的小说，弄个了爬虫，去给我弄下来。#!/user/bin/envpython #-*-coding:utf-8-*- importurllib2 importurllib importre #小说章节类 cla...

Python（五）编程小实例抓取网页信息，并生成txt文件内容！ Python抓取网页技能——Python抓取网页就是我们常看见的网络爬虫，我们今天所要用到的就是我们Python中自带的模块，用这些模块将网页内容爬取下来，并生成一个txt文件。（一）实例思路：我们所需要用到的模块： urllib2—urllib2是Python的一个获取URLs(Un...

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章