求教：python爬取淘宝页面的图片，网页已经爬取成功，但无法匹配到图片，不知道什么问题，是正则表达式的问题吗？

abbrieviation 2019-07-11 10:57:05

import urllib.request
import re

'''get access to taobao'''

words="连衣裙"

keywords=urllib.request.quote(words)

#fake header
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)

'''climb the webs and corresponding pictures'''

for i in range(1,3):
url = 'http://s.taobao.com/list?&q='+keywords+'&cat=16&style=grid&seller_type=taobao&bcoffset=0&s='+str(i*60)

data=urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
#此处以上均成功

pat='"pic_url":"//(.*?).jpg"'
pics=re.compile(pat).findall(data)

for j in range (0, len(pics)):
thispic=pics[j]
thispicurl="https://"+thispic
file='E:/python/练习文件/results/taobao_pictures/'+str(i)+str(j)+'.html'
urllib.request.urlretrieve( thispicurl, filename=file )

...全文

148 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

一、校验数字的表达式数字：^[0-9]*$n位的数字：^\d{n}$至少n位的数字：^\d{n,}$m-n位的数字：^\d{m,n}$零和非零开头的数字：^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$正数、负数、和小数：^(\-|\+)?\d+(\

由于需求原因，需要匹配提取中文，大量google下，并没有我需要的。花了一个小时大概测试，此utf8中文通过，特留文。参考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-4

【求教】python爬取到的智联网址链接不全提取 @href属性部分Python代码输出结果求教非常感谢！！！提取 @href属性部分Python代码 html = requests.get(url,headers=headers_1) selector = etree.HTML(html.text) infos = selector.xpath('//div[@class="joblist-box__item clearfix"]') for info in inf

今天遇到一个字符串，怎么匹配空格都不成功！！！我把空格复制到test.properties文件显示“\u3000” ，这是什么？这是全角空格！！！查了一下 \s 不支持全角1、"\s"匹配的是哪一种空格?正则表达式中\s匹配任何空白字符，包括空格、制表符、换页符等等；中文全角空格\s 并不能匹配中文全角空格。\s 只能匹配下面六种字符(详见 java.util.regex.Patt...

哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛

37,743

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章