小白求指点

SVIP_ 2017-05-25 05:20:34
这个网址 http://www.dataoke.com/qlist/?px=zh&tqg_jhs=calculate

有很多商品, 我想抓取每个商品的链接, 文字, 价格
 <li>
<a href="/index.php?r=p/d&id=2495359&u=511624" class="img" >
<img src="https://img.alicdn.com/imgextra/i1/TB1e5egKXXXXXbOXVXXXXXXXXXX_!!2-item_pic.png_240x240.jpg" alt="">
</a>
<a href="/index.php?r=p/d&id=2495359&u=511624" class="title">
<div class="text">伊斯卡尔 新生儿宝宝外出罐奶粉</div>
</a>
<div class="price-wrapper">
<span class="price">¥<b>39</b></span>
<span class="text">券后</span>
</div>
</li>


取出 /index.php?r=p/d&id=2495359&u=511624, 伊斯卡尔 新生儿宝宝外出罐奶粉, 39

求正则式的写法 搞了一下午搞不出
...全文
181 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
SVIP_ 2017-05-26
  • 打赏
  • 举报
回复
引用 1 楼 u012536120 的回复:
我看到的代码,跟你列出来的有点不同
# -*- coding:utf-8 -*-

import urllib2
import re

url='http://www.dataoke.com/qlist/?px=zh&tqg_jhs=calculate'
req=urllib2.Request(url)
res=urllib2.urlopen(req)
html=res.read()
html=html.decode('utf-8')
#print html

pattern=re.compile(r'class="goods-info".*?href="(.*?)".*?-->(.*?)</a>.*?</i>(.*?)</b>',re.S)
results=pattern.findall(html)

for result in results:
	print result[0],result[1],result[2]
非常感谢 可用
SVIP_ 2017-05-26
  • 打赏
  • 举报
回复
引用 2 楼 u012536120 的回复:
为什么要抓 dataoke 啊? 我看到之前也有个人抓这个网站,我还以为是来发广告的
抓聚划算的商品
sanGuo_uu 2017-05-25
  • 打赏
  • 举报
回复
为什么要抓 dataoke 啊? 我看到之前也有个人抓这个网站,我还以为是来发广告的
sanGuo_uu 2017-05-25
  • 打赏
  • 举报
回复
我看到的代码,跟你列出来的有点不同
# -*- coding:utf-8 -*-

import urllib2
import re

url='http://www.dataoke.com/qlist/?px=zh&tqg_jhs=calculate'
req=urllib2.Request(url)
res=urllib2.urlopen(req)
html=res.read()
html=html.decode('utf-8')
#print html

pattern=re.compile(r'class="goods-info".*?href="(.*?)".*?-->(.*?)</a>.*?</i>(.*?)</b>',re.S)
results=pattern.findall(html)

for result in results:
	print result[0],result[1],result[2]

37,722

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧