java怎样抓取网页代码中动态(Ajax)显示的数据？

一只从零开始学习的小蜗牛 2015-01-07 11:12:31

目的：获得商品的促销价格（实时价格）
我的思路：
以下面这个链接为例：
http://item.taobao.com/item.htm?spm=a230r.1.14.72.OJMBD3&id=42302206603&ns=1&abbucket=11#detail
点击F12开发者工具，点击network

点击蓝色框中的链接，就可以进入到下面页面：

这样就能获取到促销的价格了
但问题是，上面能够显示促销价格的页面，当我把他的地址复制后，在一个新的页面中无法打开，好桑心！这是熟么问题呢？求大神们指导

那个无法打开的网址：
http://detailskip.taobao.com/json/sib.htm?itemId=42302206603&sellerId=713417480&u=1&p=1&rcid=50006842&sts=471404544,1170936092094889988,216243150891548800,5136922622296067&chnl=pc&price=96800&shopId=&vd=1&skil=false&pf=1&al=false&ap=0&ss=0&free=1&st=1&ct=1&prior=1&ref=

...全文

414 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

mooonchen 2015-01-12

打赏
举报

回复

提醒楼主，ajax能跨域访问么

一只从零开始学习的小蜗牛 2015-01-09

打赏
举报

回复

引用 2 楼 kk_124 的回复:

你这个可以去看看淘宝的开发API接口。这么复制只能是猜参数啊~

主要是我想要获取多个电商的信息，做毕业设计~~所以想找一个比较通用的方法

普凡 2015-01-09

打赏
举报

回复

你这个可以去看看淘宝的开发API接口。这么复制只能是猜参数啊~

一只从零开始学习的小蜗牛 2015-01-07

打赏
举报

回复

小女子是初学者，请各位大神多多帮忙

Nutch Htmlunit Plugin 重要说明：当前项目基于Nutch 1.X系列已停止更新维护，转向Nutch 2.x系列版本的新项目：http://www.oschina.net/p/nutch-ajax 项目简介基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic HTML information from fetch pages including AJAX requests as it will ignore all AJAX requests. This plugin will use Htmlunit to fetch whole page content with necessary dynamic AJAX requests. It developed and tested with Apache Nutch 1.8, you can try it on other Nutch version or refactor the source codes as your design. 主要特性常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面，可以直接用protocol-htmlunit插件抓取。特殊的AJAX请求页面抓取: 诸如淘宝/天猫的页面采用了独特的Kissy Javascript组件，导致htmlunit无法直接感知到需要等待Kissy发起的请求完成，通过等待页面加载解析内容判断处理实现此类页面数据抓取。基于页面滚动的AJAX请求页面抓取: 诸如淘宝/天猫的商品详情页面会基于页面滚动发起商品描述信息的加载，通过protocol-htmlunit扩展处理可以实现此类页面数据抓取。运行体验由于Nutch运行是基于Unix/Linux环境的，请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个工程代码后，进行本地git下载目录： cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫入库url文件目录; crawl为爬虫输出目录; false本应为solr索引url参数，此处设置为false不做solr索引处理; 1为爬虫执行回数运行结束后可以看到天猫商品页面的价格/描述/滚动加载的图片等所有信息都已经完整获取到。运行日志输入示例参考：http://git.oschina.net/xautlx/nutch-htmlunit/wikis/Log 扩展插件说明 protocol-htmlunit: 基于Htmlunit实现的AJAX页面Fetcher插件 parse-s2jh: 基于XPath解析页面元素内容; 基于数据库模式输出解析到结构化数据; 对于个别复杂类型AJAX页面定制判断页面加载完成的回调判断逻辑 index-s2jh: 追加设置需要额外传递给solr索引的属性数据; 设定不需要索引的页面规则; 欢迎关注作者其他项目： S2JH - 基于SSH的企业Web应用开发框架 12306 Hunter - （功能已失效不可用，不过还可以当作Swing开发样列参考只用）Java Swing C/S版本12306订票助手，用处你懂的标签：nutch

毕业设计源码java 欢迎尊敬的访客，此页面旨在概述在 . 邀请学生为此存储库做出贡献。这可以帮助具有相似主题的学生聚在一起并分享想法。这是一个公共存储库。文章复制：程序员在 Java 中使用继承做什么？文章复制：高效构建 JavaScript IDE 服务的近似调用图基于解析生成的测试数据的上下文无关语法比较评估用于 Android 应用程序自动化测试的 GUI 抓取效率将源代码质量映射到用户行为进化：软件进化中检测警告标志的自动方法并发执行中的当前重构：安全与否？由身体和环境传感器组成的传感器网络架构，提供无缝集成使用 PDG 和切片检测过程间克隆移动软件工程的挑战主题：待办事项使用 Rascal 测量 PHP 应用程序的软件指标从单行不受限制的自然语言文本中解释特定领域的上下文作为搜索查询输入分布式数据库中的数据复制算法进化：生成有意义的单位名称测试：基于爬行的自动回归测试丰富的互联网应用——案例研究。用于对 Ajax Web 应用程序进行基于不变量的自动化测试的测试套件语法推理在 Rascal 中实现 PDG 库

Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也详细介绍一下。首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-网络爬虫当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入http://www.lining0806.com/，你就会看到宁哥的小站首页。简单来说这段过程发生了以下四个步骤：查找域名对应的IP地址。向IP对应的服务器发送请求。服务器响应请求，发回网页内容。浏览器解析网页内容。网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。抓取这一步，你要明确要得到的内容是什么？是HTML源码，还是Json格式的字符串等。 1. 最基本的抓取抓取大多数情况属于get请求，即直接从对方服务器上获取数据。首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。 Requests： import requests response = requests.get(url) content = requests.get(url).content print "response headers:", response.headers print "content:", content Urllib2： import urllib2 response = urllib2.urlopen(url) content = urllib2.urlopen(url).read() print "response headers:", response.headers print "content:", content Httplib2： import httplib2 http = httplib2.Http() response_headers, content = http.request(url, 'GET') print "response headers:", response_headers print "content:", content 此外，对于带有查询字段的url，get请求一般会将来请求的数据附在url之后，以?分割url和传输数据，多个参数用&连接。 data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests：data为dict，json import requests response = requests.get(url=url, params=data) Urllib2：data为string import urllib, urllib2 data = urllib.urlencode(data) full_url = url+'?'+data response = urllib2.urlopen(full_url) 相关参考：网易新闻排行榜抓取回顾参考项目：网络爬虫之最基本的爬虫：爬取网易新闻排行榜 2. 对于登陆情况的处理 2.1 使用表单登陆这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。 data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests：data为dict，json import requests response = requests.post(url=url, data=data) Urllib2：data为string import urllib, urllib2 data = urllib.urlencode(data) req = urllib2.Request(url=url, data=data) response = urllib2.urlopen(req) 2.2 使用cookie登陆使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。 import requests requests_session = requests.session() response = requests_session.post(url=url_login, data=data) 若存在验证码，此时采用response = requests_session.post(url=url_login, data=data)是不行的，做法应该如下： response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陆 response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！ response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！相关参考：网络爬虫-验证码登陆参考项目：网络爬虫之用户名密码及验证码登陆：爬取知乎网站 3. 对于反爬虫机制的处理 3.1 使用代理适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。 proxies = {'http':'http://XX.XX.XX.XX:XXXX'} Requests： import requests response = requests.get(url=url, proxies=proxies) Urllib2： import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # 安装opener，此后调用urlopen()时都会使用安装过的opener对象 response = urllib2.urlopen(url) 3.2 时间设置适用情况：限制频率情况。 Requests，Urllib2都可以使用time库的sleep()函数： import time time.sleep(1) 3.3 伪装成浏览器，或者反“反盗链” 有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。 headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问，适用于拒绝爬虫的网站 headers = {'Referer':'XXXXX'} headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'} Requests： response = requests.get(url=url, headers=headers) Urllib2： import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req) 4. 对于断线重连不多说。 def multi_session(session, *arg): retryTimes = 20 while retryTimes>0: try: return session.post(*arg) except: print '.', retryTimes -= 1 或者 def multi_open(opener, *arg): retryTimes = 20 while retryTimes>0: try: return opener.open(*arg) except: print '.', retryTimes -= 1 这样我们就可以使用multi_session或multi_open对爬虫抓取的session或opener进行保持。 5. 多进程抓取这里针对华尔街见闻进行并行抓取的实验对比：Python多进程抓取与 Java单线程和多线程抓取相关参考：关于Python和Java的多进程多线程计算方法对比 6. 对于Ajax请求的处理对于“加载更多”情况，使用Ajax来传输很多数据。它的工作原理是：从网页的url加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载更多的内容，“填充”到网页里。这就是为什么如果你直接去爬网页本身的url，你会找不到页面的实际内容。这里，若使用Google Chrome分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制Request URL)，循环过程。如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json格式数据(str)进行正则匹配。json格式数据中，需从'\uxxxx'形式的unicode_escape编码转换成u'\uxxxx'的unicode编码。 7. 自动化测试工具Selenium Selenium是一款自动化测试工具。它能实现操纵浏览器，包括字符填充、鼠标点击、获取元素、页面切换等一系列操作。总之，凡是浏览器能做的事，Selenium都能够做到。这里列出在给定城市列表后，使用selenium来动态抓取去哪儿网的票价信息的代码。参考项目：网络爬虫之Selenium使用代理登陆：爬取去哪儿网站 8. 验证码识别对于网站有验证码的情况，我们有三种办法：使用代理，更新IP。使用cookie登陆。验证码识别。使用代理和使用cookie登陆之前已经讲过，下面讲一下验证码识别。可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别，将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功，可以再次更新验证码识别，直到成功为止。参考项目：Captcha1 爬取有两个需要注意的问题：如何监控一系列网站的更新情况，也就是说，如何进行增量式爬取？对于海量数据，如何实现分布式爬取？分析抓取之后就是对抓取的内容进行分析，你需要什么内容，就从中提炼出相关的内容来。常见的分析工具有正则表达式，BeautifulSoup，lxml等等。存储分析出我们需要的内容之后，接下来就是存储了。我们可以选择存入文本文件，也可以选择存入MySQL或MongoDB数据库等。存储有两个需要注意的问题：如何进行网页去重？内容以什么形式存储？ Scrapy Scrapy是一个基于Twisted的开源的Python爬虫框架，在工业中应用非常广泛。相关内容可以参考基于Scrapy网络爬虫的搭建，同时给出这篇文章介绍的微信搜索爬取的项目代码，给大家作为学习参考。参考项目：使用Scrapy或Requests递归抓取微信搜索结果

网络交互挖掘研究与创新项目 ###Telecom Saint-Etienne - FI3 :copyright: 2014/2015 ：成员：里亚希·切迪布赫鲁纳赛尔艾哈迈德·巴查·阿卜杜勒克里姆推介会该研究和创新项目的主要目标是抓取具有不同配置文件的网站。一开始，该程序充当爬虫，然后将与 Javascript 相关的特征（例如 AJAX 请求或 Javascript 事件）存储在 NoSQL 图形数据库中。此后，我们通过 API 使用这些数据，根据其特征和其他指标对这些网站进行分类。关键词：Java8——数据挖掘——Selenium——NoSQL——Neo4J——ChromeDriver 如何使用它？该项目使用了一些依赖项，幸运的是我们使用Maven管理了它。还有一些配置要做，比如安装Neo4J数据库，chrome驱动（Mac版本在项目“src/main/resource

第一部分基本介绍 1、前言服务端渲染实现原理机制：在服务端拿数据进行解析渲染，直接生成html片段返回给前端。然后前端可以通过解析后端返回的html片段到前端页面，大致有以下两种形式： 1、服务器通过模版引擎直接渲染整个页面，例如java后端的vm模版引擎，php后端的smarty模版引擎。 2、服务渲染生成html代码块, 前端通过AJAX获取然后使用js动态添加。 2、服务端渲染的优劣服务端渲染能够解决两大问题： 1、seo问题，有利于搜索引擎蜘蛛抓取网站内容，利于网站的收录和排名。 2、首屏加载过慢问题，例如现在成熟的SPA项目中，打开首页需要加载很多资源，通过服务端渲染

62,614

社区成员

307,326

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章