新手学习python写了个爬虫，为什么爬不下来数据

Jerry__du 2018-09-09 10:03:53

import requests
from lxml import etree
import re
import pymysql
import time

conn = pymysql.connect(host='localhost', user='root', passwd='admin', db='mydb',
port=3306, charset='UTF8')
cursor = conn.cursor()

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1;WOW64)AppleWebKit/ 537.36 (KHTML,like Gecko) Chrome/56.0.2924.87 Safari/ 537.36'
}
def get_movie_url (url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
movie_hrefs=selector.xpath('//div[@class="hd"]/a/@href')
for movie_href in movie_hrefs:
get_movie_info (movie_href)

def get_movie_info(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
try:
name = selector.xpath('//*[@id="content"]/h1/span[1]/text()')[0]
director = selector.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
actors = selector.xpath('//*[@id="info"]/span[3]/span[2]')[0]
actor = actors.xpath('string(.)')
style = re.findall ('<span property="v:genre">(.*?)</span>',html.text,re.S)[0]
country = re.findall ('<span class="p1">制片国家/地区:</span>(.*?)<br/>',html.text,re.S)[0]
release_time = re.findall ('上映日期：</span>.*?>(.*?)</span>',html.text,re.S)[0]
time = re.findall('上映日期：</span>.*?>(.*?)</span>', html.text, re.S)[0]
score = selector.xpath('//*[@id="interest_sect1"]/div[1]/div[2]/strong/text()')[0]
cursor.execute(
"insert into doubanmovie (name,director,actor,style,country,release_time,time,score)values(%s,%s,%s,%s,%s,%s,%s,%s)",
(str(name), str(director), str(actor),str(style), str(country), str(release_time),str (time), str(score)))

except IndexError:
pass

if __name__ == '_main_':
urls = [ 'https://movie.douban.com/top250?start{ }'.format(str(i))
for i in range(0,250,25)]
for url in urls:
get_movie_url(url)
time.sleep(2)
conn.commit()

...全文

1094 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

裸睡的雨 2018-09-29

打赏
举报

回复

main这是哪里写的代码，

嘻哈路过 2018-09-19

打赏
举报

回复

使用open去将爬去的内容存储在文件中，看一下就知道了

机智的小路飞 2018-09-11

打赏
举报

回复

你这个脚本在跑的时候根本没有运行
if __name == "__main__":
这样才对，你的没有__main__写成_main_了

oyljerry 2018-09-10

打赏
举报

回复

先看看你拿到什么数据了，是不是页面是ajax返回内容的

最近学习了一下python的基础知识，大家一般对“爬虫”这个词，一听就比较熟悉，都知道是爬一些网站上的数据，然后做一些操作整理，得到人们想要的数据，但是怎么写一个爬虫程序代码呢？相信很多人是不会的，今天写一...

本文将为大家提供一份详细的新手入门教程，带大家从入门到精通Python爬虫技能。一、爬虫是什么？网络爬虫又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者。它是一种按照一定的规则，自动...

python为什么叫爬虫？爬虫一般是指网络资源的抓取，由于python的脚本特性，易于配置对字符的处理非常灵活，python有丰富的网络抓取模块，因此两者经常联系在一起python就被叫作爬虫。爬虫可以抓取某个网站或者某个...

Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有所耳闻，会觉得是一个高大上的东西，仿佛九阳神功和乾坤大挪移一样，和别人说“老子会爬虫”，就感觉特别有逼格，但是又不知从何入手，这里，...

使用python编写网络爬虫前言1、为何使用爬虫2、编写爬虫的知识要求3、确定爬虫使用的工具库4、确定要获取的数据集4.1 分析Url地址变化4.2 获取目标数据集所在的HTML区域如何插入一段漂亮的代码片生成一个适合你的...

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章