社区
Web 开发
帖子详情
急!用户提出了难以解决的问题,如何从外部网站获取数据后进行再处理?
expeditioner
2007-09-05 06:00:55
用户提出了难以解决的问题,如何从外部网站获取数据后进行再处理?
从用户提供的几个外部网站上可以通过网站提供的页面进行信息查询,然后将查询结果页面中的数据列表部分取出,再将这些数据进行整理(分类、排序),最后在自己的网站页面上展现,这种问题好象从来没有听说过,请大家帮忙。先谢谢了。
...全文
309
20
打赏
收藏
急!用户提出了难以解决的问题,如何从外部网站获取数据后进行再处理?
用户提出了难以解决的问题,如何从外部网站获取数据后进行再处理? 从用户提供的几个外部网站上可以通过网站提供的页面进行信息查询,然后将查询结果页面中的数据列表部分取出,再将这些数据进行整理(分类、排序),最后在自己的网站页面上展现,这种问题好象从来没有听说过,请大家帮忙。先谢谢了。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
20 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
qq4004229
2008-04-14
打赏
举报
回复
好一直用正则一页一页分析.有时候还要用迅雷来辅助一下
joejoe1991
2007-09-08
打赏
举报
回复
我看着好像不太难啊
提交请求 得到响应页面的代码 用正则表达式分析
capturesource
2007-09-08
打赏
举报
回复
无所谓思路了,简单点说,就是把别人页面的取回来分析而已,重要的是响应速度,不是每次都到别人网站抓取,可以在服务器上缓存,根据网站访问的频率或者根据别人网站的更新频率定时更新缓存就可以了.
lxh198308
2007-09-07
打赏
举报
回复
偶也再来关注一下!
httpclient postmethod getmethod ?
讲讲思路。
xlyyc
2007-09-07
打赏
举报
回复
httpclient加上正则分析,需要具体情况具体写实现.
expeditioner
2007-09-07
打赏
举报
回复
网络蜘蛛 是不是可以相对较好的解决这个问题?
大家有熟悉 java 与 网络蜘蛛 联合实现某些功能的案例吗?麻烦大家给点提示即可,我目前正在分析其是否可行。谢谢了。
ZMFKPLJ
2007-09-07
打赏
举报
回复
webService
capturesource
2007-09-07
打赏
举报
回复
你的页面接受输入的参数,在接口里面针对每个网站的提交方式分别用GET POST得到第一页,处理返回的字符串并判断有无分页,有则截取参数循环取下一页,无则直接返回处理结果.
expeditioner
2007-09-07
打赏
举报
回复
借助google或百度搜索引挚可以实现吗?正在研究这方面。请大家帮忙.
wwwfwww
2007-09-06
打赏
举报
回复
这个的确很麻烦
download到本地然后处理吧
capturesource
2007-09-06
打赏
举报
回复
我是专门做这个的,可惜需要大量的jar包来实现.....
主要用到httpclient postmethod getmethod
achao818
2007-09-06
打赏
举报
回复
mark
MayAutumn
2007-09-06
打赏
举报
回复
//想从页面中取出总页数,再组成链接地址访问不同分页数据
----------------------------------------------------------
你说的我也想过,可是现在分页一般都是同一地址的链接,想获取分页的东西看来还是很困难~
banditgao
2007-09-06
打赏
举报
回复
你这个最好是劝说用户放弃这个想法 依赖外部网站 如果人家改版了 不办了 你从哪搞数据
如果是一些专门提供数据的网站还行
expeditioner
2007-09-06
打赏
举报
回复
谢谢.
是的,确实有分页的问题,想从页面中取出总页数,再组成链接地址访问不同分页数据,正在分析是否可行。
这种问题是不是很常见,有没有相应的解决方案?
yown
2007-09-06
打赏
举报
回复
解决办法:
1,先获取网页内容
2,对网页内容分析,把相应数据取出来
MayAutumn
2007-09-06
打赏
举报
回复
偶也再来关注一下!
httpclient postmethod getmethod ?
讲讲思路。
expeditioner
2007-09-06
打赏
举报
回复
谢谢大家
to capturesource(),得知您是专门做这个的,想请教数据分页该怎么处理?根据不同网站页面的特点用代码去找总页数?
MayAutumn
2007-09-05
打赏
举报
回复
我帮你从网上找的一段程序:
public static String readHtmlFile(String urlPath)
{
String htmlFile = "";
try
{
URL url = new URL(urlPath);
URLConnection urlConnection = url.openConnection();
urlConnection.setAllowUserInteraction(false);
InputStream urlStream = urlConnection.getInputStream();
InputStreamReader sr = new InputStreamReader(urlStream, "GBK");
int byteRead = 0;
char[] buffer = new char[8192];
while ((byteRead = sr.read(buffer, 0, 8192)) != -1)
{
String str = new String(buffer,0,byteRead);
String r = "(<td align='center'>)(.*)(</td>)";
Pattern s = Pattern.compile(r);
Matcher m = s.matcher(str);
boolean T = m.matches();
if(T)
{
htmlFile=htmlFile+m.group(2);
}
htmlFile+=new String(buffer,0, byteRead);
}
}
catch (IOException e)
{
System.out.println("error :" + e.getMessage());
}
}
这段代码中只有正则那儿改对了就OK了!
可是,我也想问个问题,如果这个数据是分页显示的,那怎么读取?
livan1038
2007-09-05
打赏
举报
回复
也没有什么头绪,帮楼主顶一下
商业数据的获取与清洗
目录 分析需求的数据化 数据描述 内部数据
外部
数据 逻辑描述 表态数据 动态数据 数据词典 数据源前期准备 PowerBI获取
外部
数据 方法一:直接抓取表格数据 方法二:使用示例抓取数据 方法三:抓取JSON格式 方法四:批量抓取数据 MySQL内部获取 可视化连接软件NAVICAT 数据库与数据仓库 数据库 数据仓库 举例 数据的导入 导入Excel文件数据 XLS与XLSX区别 导入文本文件数据 导入数据库数据 当下比较主流的数据库介绍 连接...
数据
处理
方法整理【目前最全】
在大数据技术、深度学习方法广泛应用中,对于具有大容量、多样性、信息丰富和价值高等特点的海量数据
进行
处理
分析是一个重要步骤,因此汇总一些数据
处理
的方法及操作,来对于数据
进行
统计、分析和充分挖掘,分析数据的价值信息。
【数据中台】数据中台架构搭建百科全书
0、前言 当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。 数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷
问题
。 数据中台是国内学者
提出
的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,以中台事业部集中数据搜索,技术及产品,数据共享等多个部门的功能。其他组织或企业建设数据中台不一定需
(论文加源码)基于DEAP脑电数据集的脑电情绪识别(利用生成对抗性网络
进行
特征提取和数据扩充)
情绪识别是脑机交互中一个具有挑战性的
问题
。脑电图(EEG)提供了关于由于情绪刺激而产生的大脑活动的独特信息。与情绪识别任务中的面部表情、语调或语音相比,这是大脑信号最显著的优势之一。然而,由于缺乏脑电数据和高维脑电记录,难以建立高精度的有效分类器。在本研究中,分别
提出
了数据扩充和特征提取技术来解决数据缺乏和数据高维的
问题
。在本研究中,所
提出
的方法基于深度生成模型和一种称为条件Wasserstein GAN(CWGAN)Conditional Wasserstein GAN的数据增强策略。
【大数据
处理
技术】期末复习整理
所用教材:《大数据技术原理与应用——概念、存储、
处理
、分析与应用(第2版)》,由厦门大学计算机科学系林子雨编著。 教材官网:http://dblab.xmu.edu.cn/post/bigdata/ 慕课:http://www.icourse163.org/course/XMU-1002335004 内容总结自PPT: 第一篇:大数据基础 第1章 大数据概述 第2章 大数据
处理
架构Hadoop 第二篇 大数据存储与管理 第3章 分布式文件系统HDFS 第4章 分布式数据库HBase 第5章 No
Web 开发
81,095
社区成员
341,712
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章