求大神指导，python问题，期待您的回答，万分感谢！

handami 2018-05-22 10:31:11

下面是一段爬虫代码，运行没有报错，但没有爬出来任何东西
#enconding:utf-8
import requests
from lxml import etree

def getNewsURLLIST(baseURL,headers):
x=requests.get(baseURL,headers)
x.encoding = "utf-8"
html = x.content

selector =etree.HTML(html)
contents = selector.xpath('//div[@id="content_right"]/div[@class="content_list"]/ul/li[div]')
for eachlink in contents:
url = eachlink.xpath('div/a/@href')[0]
title = eachlink.xpath('div/a/text()')[0]
ptime = eachlink.xpath('div[@class="dd_time"]/text()')[0]
yield title,url,ptime

if __name__=='__main__':
urltemplate = 'http://www.chinanews.com/scroll-news/{0}/{1}{2}/news.shtml'
testurl = urltemplate.format('2018','5','21')
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
print (testurl)
urllist = getNewsURLLIST(testurl,header)
for title,url,ptime in urllist:
print (title,url,ptime)

...全文

981 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

handami 2018-05-22

打赏
举报

看这个吧，那个有些错误，谢谢 #enconding:utf-8 import requests from lxml import etree def getNewsURLLIST(baseURL,headers): x=requests.get(baseURL,headers) x.encoding = "utf-8" html = x.content selector =etree.HTML(html) contents = selector.xpath('//div[@id="content_right"]/div[@class="content_list"]/ul/li') for eachlink in contents: url = eachlink.xpath('/div[@class="dd_bt"/a/@href')[0] title = eachlink.xpath('/div[@class="dd_bt"/a/text()')[0] ptime = eachlink.xpath('/div[@class="dd_time"]/text()')[0] yield title,url,ptime # def getNewsContent(urlliast): # for title,url,ptime in urllist: # x=requests.get(url) # x.encoding="utf-8" # html = x.contnet # selector = etree.HTML(html) # contents =selector.xpath('/div[@class="left_zw"]/p/text()') # news = '\r\n'.join(contents) # yield title,url,ptime,news if __name__=='__main__': urltemplate = 'http://www.chinanews.com/scroll-news/mil/{0}/{1}{2}/news.shtml' testurl = urltemplate.format('2018','05','21') header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} print (testurl) # # urllist = getNewsURLLIST(testurl,header) # # for title,url,ptime in urllist: # # print (title,url,ptime) # # newscontents = getNewsContent(urllist) # # f = open('news.txt','w') # # w = lambda x:f.write(x+u'\r\n') # # for title,url,ptime,news in newscontents: # # w(u'~'*100) # # w(title) # # w(url) # # w(ptime) # # w(news) # f.close()

handami 2018-05-22

打赏
举报

现在网址输入没有问题了，就是抓不出来内容啊 #enconding:utf-8 import requests from lxml import etree def getNewsURLLIST(baseURL,headers): x=requests.get(baseURL,headers) x.encoding = "utf-8" html = x.content selector =etree.HTML(html) contents = selector.xpath('//div[@id="content_right"]/div[@class="content_list"]/ul/li') for eachlink in contents: url = eachlink.xpath('/div[@class="dd_lm"/a/@href')[0] title = eachlink.xpath('/div[@class="dd_bt"/a/text()')[1] ptime = eachlink.xpath('/div[@class="dd_time"]/text()')[2] yield title,url,ptime # def getNewsContent(urlliast): # for title,url,ptime in urllist: # x=requests.get(url) # x.encoding="utf-8" # html = x.contnet # selector = etree.HTML(html) # contents =selector.xpath('/div[@class="left_zw"]/p/text()') # news = '\r\n'.join(contents) # yield title,url,ptime,news if __name__=='__main__': urltemplate = 'http://www.chinanews.com/scroll-news/mil/{0}/{1}{2}/news.shtml' testurl = urltemplate.format('2018','05','21') header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} print (testurl)

chuifengde 2018-05-22

打赏
举报

testurl = urltemplate.format('2018','5','21')===>>testurl = urltemplate.format('2018','05','21')

oyljerry 2018-05-22

打赏
举报

月份前要加0


urltemplate =  'http://www.chinanews.com/scroll-news/{0}/{1:02d}{2}/news.shtml'

handami 2018-05-22

打赏
举报

嗯嗯，好像确实是网址出了问题，但是我想要建立网址模板，来获取不同日期的网页，这个该怎么办到呢？

天愚 2018-05-22

打赏
举报

你的网址不对啊

chuifengde 2018-05-22

打赏
举报

一楼的代码，改那个日期部分，得到下面的内容
http://www.chinanews.com/scroll-news/2018/0521/news.shtml
国际 http://www.chinanews.com/world.shtml 5-21 23:58
国际 http://www.chinanews.com/world.shtml 5-21 23:56
国际 http://www.chinanews.com/world.shtml 5-21 23:52
港澳 http://www.chinanews.com/compatriot.shtml 5-21 23:51
港澳 http://www.chinanews.com/compatriot.shtml 5-21 23:51
社会 http://www.chinanews.com/society.shtml 5-21 23:01
国际 http://www.chinanews.com/world.shtml 5-21 23:00
社会 http://www.chinanews.com/society.shtml 5-21 22:50
财经 http://finance.chinanews.com/economic.shtml 5-21 22:45
国内 http://www.chinanews.com/china.shtml 5-21 22:33
国内 http://www.chinanews.com/china.shtml 5-21 22:30
体育 http://www.chinanews.com/sports.shtml 5-21 22:25
文化 http://www.chinanews.com/wenhua.shtml 5-21 22:23
财经 http://finance.chinanews.com/economic.shtml 5-21 22:02
财经 http://finance.chinanews.com/economic.shtml 5-21 22:01

经常听到五险一金，税前税后这些名词，那么究竟是什么意思...切蛋糕，总体积Mπ，N层，要求下面层的高度和半径都大于上一层，求最小表面积（不包括底层）Sπ，如果不存在反感则结果为0用数学语言表达就是：r1^2*h1+……

但是也许你的室友是一个有打破沙锅问到底精神求是学子，因此你最好继续准好回答以下这几个问题。 1. “凭啥？” 你室友可能会问：“凭啥你喊一句话我就帮你记？我的小本本不要钱么？”。为了激励大家帮我...

增加神经网络层数，确实可能提高模型的泛化性能，但不能绝对地说更深的网络能带来更小的错误率，还是要根据实际应用来判断，比如会导致过拟合等问题，因此只能选C。 7.说明Lp范数间的区别 L1范数：向量中各个元素...

万分感谢！ #腾讯# #背调# 签中广核之后的焦虑今天下午两点半接到oc，告诉我岗位是中广核研究院的全资子公司中广核南方科技有限公司的网络工程师，当时一激动就接下来了，后来签约的时候了解了下base在福田，当时 ...

以及作品截图(我有带) 、（2）拿到了offer 结果四级没过拿到了offer 结果四级没过求评价：海康求求各位路过的朋友有没有了解海康慧影的fpga一般是做什么的，有发展前景吗，十分紧急，鼠鼠在这万分感谢了感觉这...