社区
C#
帖子详情
关于用正则针对京东数据的采集
ferrari
2013-05-23 10:41:48
http://list.jd.com/737-794-1706-0-0-0-0-0-0-0-1-1-1-1-2-2811-33.html
现在其它的数据都可以抓了,就是商品标题中红色字体的好像在HTML中为空,但是到页面浏览的时候就可以显示。不知道如何抓,请高手指教。高分相送。
...全文
285
12
打赏
收藏
关于用正则针对京东数据的采集
http://list.jd.com/737-794-1706-0-0-0-0-0-0-0-1-1-1-1-2-2811-33.html 现在其它的数据都可以抓了,就是商品标题中红色字体的好像在HTML中为空,但是到页面浏览的时候就可以显示。不知道如何抓,请高手指教。高分相送。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
12 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hfdsoft
2013-06-24
打赏
举报
回复
IE9,F12,切到网络。点开始捕获,再切到商品页刷新一下。。然后找类型为text/json的项。。
hfdsoft
2013-05-23
打赏
举报
回复
装IE9,按F12,网络,开始监听,你就知道它页面加载的时候做了些神马了。 好吧,Chrome神马的也行,但我只会用IE。
hfdsoft
2013-05-23
打赏
举报
回复
那个红色的字是页面加载完后,再次通过ajax获取的,不但它是,下面的优惠信息神马的也是。 地址格式:string.Format("http://jprice.360buy.com/adslogan/{0}-setproductadwords.ad",商品ID)
ferrari
2013-05-23
打赏
举报
回复
嗯,一样的。列表页是因为截掉了没有全部显示,点到详细页就有全部显示了。 想抓这部分红字,不知道如何获取。
游戏人间
2013-05-23
打赏
举报
回复
<font>标记后面不是有吗?
q107770540
2013-05-23
打赏
举报
回复
页面在显示时, 能率(NORITZ) GQ-1150FE 11升 燃气热水器(天然气)后边就已经没有红色字体了啊 只有: 能率11升燃热优惠500元送高档水壶疯抢仅限今日1天 燃热销量冠军 六大精良工艺 四季智能恒温 从此洗澡不再忽冷忽热!
ferrari
2013-05-23
打赏
举报
回复
商品标题中的,比如第一个商品 能率(NORITZ) GQ-1150FE 11升 燃气热水器(天然气)
优惠500元送高档水壶疯抢
这个红色的字抓不到,有什么办法可以抓吗?
bdmh
2013-05-23
打赏
举报
回复
你指哪个红色字体,那么多,有些不是静态的文字,需要用模拟提交的方式获取内容
ferrari
2013-05-23
打赏
举报
回复
用IE9抓了一些信息,但是怎么看得出是上面这个接口?
51Crack
2013-05-23
打赏
举报
回复
http://jprice.jd.com/adslogan/482589-setproductadwords.ad RAW: setproductadwords({"AdWordList":[{"waretitle":"\u4F18\u60E0\u0035\u0030\u0030\u5143\u9001\u9AD8\u6863\u6C34\u58F6\u75AF\u62A2\u4EC5\u9650\u4ECA\u65E5\u0031\u5929\u0020\u71C3\u70ED\u9500\u91CF\u51A0\u519B\u0020\u516D\u5927\u7CBE\u826F\u5DE5\u827A\u0020\u56DB\u5B63\u667A\u80FD\u6052\u6E29\u0020\u4ECE\u6B64\u6D17\u6FA1\u4E0D\u518D\u5FFD\u51B7\u5FFD\u70ED\uFF01","wid":482589}]}) JSON: waretitle=优惠500元送高档水壶疯抢仅限今日1天 燃热销量冠军 六大精良工艺 四季智能恒温 从此洗澡不再忽冷忽热!
ferrari
2013-05-23
打赏
举报
回复
明白了。非常感谢。高分送上。以后希望能跟你多学习!
ferrari
2013-05-23
打赏
举报
回复
谢谢楼上的,请问你是怎么看出来的,用什么工具还是其它方法?麻烦指点一下。感觉太NB了。
带你学会使用
正则
表达式
内容简介:
正则
表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE)。计算机科学的一个概念。
正则
表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,
正则
表达式通常被用来检索、替换那些符合某个模式的文本。 本门课程主要讲解
正则
表达式的引用场景和一些基础用法,让大家对
正则
表达式有一个清晰地认识。 为什么需要掌握
正则
表达式?
正则
表达式非常灵活、而且功能非常强大,它可以迅速地用极简单的方式达到字符串的复杂控制。而对于刚接触的人来说,
正则
表达式比较晦涩难懂。这门课程可以非常快速的帮助大家理解
正则
表达式,以及掌握如何在实际场景中用到它。课程大纲: 为了让大家快速系统了解
正则
表达式知识,我为您总结了思维导图,帮您梳理学习重点,建议收藏!
Python网络爬虫四大选择器(
正则
表达式、BS4、Xpath、CSS)总结
Python网络爬虫四大选择器(
正则
表达式、BS4、Xpath、CSS)总结 0.前言 相关实战文章:
正则
表达式、BeautifulSoup、Xpath、CSS选择器分别抓取
京东
网的商品信息。 网络爬虫:模拟客户端批量发送网络请求,批量接收请求对应的
数据
,按照一定的规则,自动抓取互联网信息的程序,进行
数据
采集
,并进行持久化存储。其他用途:百度搜索, 12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器 都是爬虫技术。 爬虫的用途 1.金融 金融新闻/
数据
制定投资策
js之
正则
表达式
js的起源:减轻服务器的压力,在客户端对用户提交的
数据
进行验证=>弹框报错、红色报错、错误
数据
删除、提交给服务端、完成响应
正则
语法:特殊的字符去指代一个特定含义 Regular Expression 针对该网页中的
正则
应用举例说明:Ant Design Pro <input type="text" pattern=""> 开发思路: 1.验证合法性 2.业务处理 3.
数据
传输 在字符串中获取匹配...
如何快速掌握 Python
数据
采集
与网络爬虫技术
摘要: 本文详细讲解了 python 网络爬虫,并介绍抓包分析等技术,实战训练三个网络爬虫案例,并简单补充了常见的反爬策略与反爬攻克手段。通过本文的学习,可以快速掌握网络爬虫基础,结合实战练习,写出一些简单的爬虫项目。 本次的分享主要围绕以下五个方面: 一、
数据
采集
与网络爬虫技术简介 二、网络爬虫技术基础 三、抓包分析 四、挑战案例 五、推荐内容 一、
数据
采集
与网络爬虫技术简介 网络爬虫是用于
数据
...
01.04第一篇之集群搭建&
数据
采集
模块
第4 章集群搭建&
数据
采集
模块 4.0 虚拟机准备 4.0.1 虚拟机内存分配 1)从hadoop100的快照中克隆出3台虚拟机,并分配好内存 建议内存不低于4G,尤其是hadoop102,作为主机,后续可能要8G才能较顺利运行 机子 建议内存 Hadoop102 8G 作为主节点 Hadoop103 2G Hadoop104 2G 2)原始虚拟机的已经创建好了root和user的账号&密码如下: root: xxxxxxxx atguigu: 12345
C#
110,538
社区成员
642,577
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章