请问下大型数据处理问题？

小小小小蜗牛 2012-03-26 03:30:18

加精

今天老大给了我一个问题，让我郁闷鸟，没的点头绪。是这样的
有两种数据都是网站数据，1（一个是QQ，搜狐，雅虎，淘宝，中华新闻网等我们熟悉的门户网站），2(还有一个是几百万的数据都是网站类型的) ，要我用整理出1类网站在2中的比例或者说是1中没有的网站的比例弄出来，老大明天要我给他，应该有什么快速的方法吧求高手指教

...全文

14483 40 打赏收藏转发到动态举报

写回复

40 条回复

切换为时间正序

请发表友善的回复…

发表回复

Amyhunt 2021-06-24

打赏
举报

回复

海淀去上地某互联网企业高薪招聘大数据平台总监，简历请发lihui5898100@163.com，求推荐自荐和转发。

qq_39219617 2021-06-05

打赏
举报

回复

a

美女剑豪提着肉来了 2013-05-16

打赏
举报

回复

引用 25 楼 zhuwei827 的回复:

可能我没说清楚那么我放些数据网址网址名称所属分类类型所属 news.qq.com 腾讯门户首页腾讯 view.news.qq.com 新闻新闻腾讯 mil.qq.com/mil_index.htm 军事新闻新闻腾讯 news.qq.com/china_index.shtml 国内新闻新闻腾讯 news.qq.com/world_index.shtml 国际新闻新闻腾讯 health.qq.com 健康新闻新闻腾讯 t.news.qq.com 微博新闻新闻腾讯另一个表2 host domain zh.3g.qq.com qq.com 211.138.113.170:80 113.170:80 dfzq.3g.qq.com qq.com pasture.z.qq.com qq.com 117.135.128.18:8080 128.18:8080 timg01.baidu-1img.cn baidu-1img.cn 113.18.4.53:80 4.53:80 211.140.17.83 111.12.12.235 book.sina.cn sina.cn kz-2-cust.opera-mini.net:80 opera-mini.net:80 111.12.12.239 info60.z.qq.com qq.com w4.mail.qq.com qq.com w4.mail.qq.com qq.com marry51.3g.qq.com qq.com 120.196.211.142:8080 211.142:8080 b2.wap.soso.com soso.com 221.130.15.30:9080 15.30:9080 imgt4.baidu.com baidu.com 120.193.9.130 timg01.baidu-1img.cn baidu-1img.cn q16.3g.qq.com qq.com ebook12.3g.qq.com qq.com go2.10086.cn 10086.cn ebook12.3g.qq.com qq.com 218.207.182.244:80 182.244:80 go2.10086.cn 10086.cn 218.207.182.244:80 182.244:80 10.0.0.172 blog.sina.cn sina.cn qqshow-user.tencent.com tencent.com 111.12.12.231 w19.mail.qq.com qq.com fwd.3g.qq.com:8080 qq.com:8080 找一下 2表中数据在1的比例比如 qq.com 一表中有那就是记录有没有记录没有在算出比例这个可以有sql语句弄出来么

第一步：算出表2数据在表1存在的量 : select count(*) 表2数据在表1存在的量 from 表2 where exist（ select 'x' from 表1 where 条件）；第二步：表1数据总量： select count(*) 表1数据量 from 表1；第三步：用第一步算出来的数除以第二步算出来的数就是所占比例： select 表2数据在表1存在的量 /表1数据量 from dual; 鄙人愚见，不知道楼主的表结构，所以不知道是表1存在表2的关系还是表2存在表1的关系，请大家指教~

美女剑豪提着肉来了 2013-05-16

打赏
举报

回复

第一步：算出表2数据在表1存在的量 : select count(*) 表2数据在表1存在的量 from 表2 where exist（ select 'x' from 表1 where 条件）；第二步：表1数据总量： select count(*) 表1数据量 from 表1；第三步：用第一步算出来的数除以第二步算出来的数就是所占比例： select 表2数据在表1存在的量 /表1数据量 from dual; 鄙人愚见，不知道楼主的表结构，所以不知道是表1存在表2的关系还是表2存在表1的关系，请大家指教~

a864610877 2012-04-05

打赏
举报

回复

不知道你们在说什么

a110207842 2012-04-01

打赏
举报

回复

http://passport.csdn.net/account/active?user=a110207842&active=3C16EB50B2D0ADD49C85C28E296EA635

a110207842 2012-04-01

打赏
举报

回复

ever5861 2012-03-31

打赏
举报

回复

学习了~~

咔啪咔啪 2012-03-31

打赏
举报

回复

我是来围观36楼头像的。。。

line_us 2012-03-29

打赏
举报

回复

很快就能得到结果

VCXIAOHEI 2012-03-29

打赏
举报

回复

[Quote=引用 34 楼的回复:]
引用 24 楼 xuzuning 的回复:
关联查询，不会很慢。不就是几百万条记录吗？

是啊，才几百万
索引好，几亿都很快的
[/Quote]
+1
个人理解也是关联查询……

文子 2012-03-29

打赏
举报

回复

这个问题还不至于涉及到大数据量吧

rolance84 2012-03-29

打赏
举报

回复

I DON'T KNOW

齐鲁瞻海 2012-03-28

打赏
举报

回复

有没有定时备份SQL数据库的源码啊？

zhangmeeno 2012-03-28

打赏
举报

回复

几百万是没啥难度啊，感觉哈哈

xiaoxiangqing 2012-03-28

打赏
举报

回复

意思还没怎么弄明白

haitao 2012-03-28

打赏
举报

回复

[Quote=引用 24 楼 xuzuning 的回复:]
关联查询，不会很慢。不就是几百万条记录吗？
[/Quote]

是啊，才几百万
索引好，几亿都很快的

lan70 2012-03-28

打赏
举报

回复

嘛意思的

小小小小蜗牛 2012-03-28

打赏
举报

回复

算了我弄明白了一个instr函数就OK 啦郁闷

lmc158 2012-03-28

打赏
举报

回复

考虑一下 Hibernate的缓存技术。。

加载更多回复（20）

【spark论文翻译】An Architecture for Fast and General Data Processing on Large Cluster 大型集群上的快速和通用数据处理架构。CSDN CODE翻译社区出品。之前上传的版本图表有问题，这版已经修复。请更新谢谢。

1. 大数据处理之一：采集大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL...

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。本部分内容全面涵盖了Spark生态系统的概述及其编程模型，深入内核的研究，Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践，Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员，甚至对于研究Spark的在校学员，都是非常值得学习的。

具体的大数据处理方法确实有很多，但是根据笔者长时间的实践，总结了一个普遍适用的大数据处理流程，并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步，分别是采集、导入...

有时候更多数据处理从语言角度，调用不同api处理数据。但是从业务的角度想就很少了，最近从业务的角度了解了下常见数据处理的方法，总结如下：

数据库开发

8,028

社区成员

1,361

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章