请问下大型数据处理问题?

小小小小蜗牛 2012-03-26 03:30:18
加精
今天老大给了我一个问题 ,让我郁闷鸟,没的点头绪。是这样的
有两种数据都是网站数据,1(一个是QQ,搜狐,雅虎,淘宝,中华新闻网等我们熟悉的门户网站),2(还有一个是几百万的数据都是网站类型的) ,要我用整理出1类网站在2中的比例 或者说是1中没有的网站的比例弄出来,老大明天要我给他,应该有什么快速的方法吧 求高手指教
...全文
14483 40 打赏 收藏 转发到动态 举报
写回复
用AI写文章
40 条回复
切换为时间正序
请发表友善的回复…
发表回复
Amyhunt 2021-06-24
  • 打赏
  • 举报
回复

海淀去上地某互联网企业高薪招聘大数据平台总监,简历请发lihui5898100@163.com,求推荐自荐和转发。

qq_39219617 2021-06-05
  • 打赏
  • 举报
回复

a

  • 打赏
  • 举报
回复
引用 25 楼 zhuwei827 的回复:
可能我没说清楚 那么我放些数据网址 网址名称 所属分类 类型 所属 news.qq.com 腾讯门户首页 腾讯 view.news.qq.com 新闻 新闻 腾讯 mil.qq.com/mil_index.htm 军事新闻 新闻 腾讯 news.qq.com/china_index.shtml 国内新闻 新闻 腾讯 news.qq.com/world_index.shtml 国际新闻 新闻 腾讯 health.qq.com 健康新闻 新闻 腾讯 t.news.qq.com 微博新闻 新闻 腾讯 另一个表2 host domain zh.3g.qq.com qq.com 211.138.113.170:80 113.170:80 dfzq.3g.qq.com qq.com pasture.z.qq.com qq.com 117.135.128.18:8080 128.18:8080 timg01.baidu-1img.cn baidu-1img.cn 113.18.4.53:80 4.53:80 211.140.17.83 111.12.12.235 book.sina.cn sina.cn kz-2-cust.opera-mini.net:80 opera-mini.net:80 111.12.12.239 info60.z.qq.com qq.com w4.mail.qq.com qq.com w4.mail.qq.com qq.com marry51.3g.qq.com qq.com 120.196.211.142:8080 211.142:8080 b2.wap.soso.com soso.com 221.130.15.30:9080 15.30:9080 imgt4.baidu.com baidu.com 120.193.9.130 timg01.baidu-1img.cn baidu-1img.cn q16.3g.qq.com qq.com ebook12.3g.qq.com qq.com go2.10086.cn 10086.cn ebook12.3g.qq.com qq.com 218.207.182.244:80 182.244:80 go2.10086.cn 10086.cn 218.207.182.244:80 182.244:80 10.0.0.172 blog.sina.cn sina.cn qqshow-user.tencent.com tencent.com 111.12.12.231 w19.mail.qq.com qq.com fwd.3g.qq.com:8080 qq.com:8080 找一下 2表中数据在1的比例 比如 qq.com 一表中有 那就是记录有 没有记录没有 在算出比例 这个可以有sql语句弄出来么
第一步:算出表2数据在表1存在的量 : select count(*) 表2数据在表1存在的量 from 表2 where exist( select 'x' from 表1 where 条件 ); 第二步:表1数据总量 : select count(*) 表1数据量 from 表1; 第三步:用第一步算出来的数除以第二步算出来的数就是所占比例: select 表2数据在表1存在的量 /表1数据量 from dual; 鄙人愚见,不知道楼主的表结构,所以不知道是表1存在表2的关系还是表2存在表1的关系,请大家指教~
  • 打赏
  • 举报
回复
第一步:算出表2数据在表1存在的量 : select count(*) 表2数据在表1存在的量 from 表2 where exist( select 'x' from 表1 where 条件 ); 第二步:表1数据总量 : select count(*) 表1数据量 from 表1; 第三步:用第一步算出来的数除以第二步算出来的数就是所占比例: select 表2数据在表1存在的量 /表1数据量 from dual; 鄙人愚见,不知道楼主的表结构,所以不知道是表1存在表2的关系还是表2存在表1的关系,请大家指教~
a864610877 2012-04-05
  • 打赏
  • 举报
回复
不知道你们在说什么
a110207842 2012-04-01
  • 打赏
  • 举报
回复
http://passport.csdn.net/account/active?user=a110207842&active=3C16EB50B2D0ADD49C85C28E296EA635

a110207842 2012-04-01
  • 打赏
  • 举报
回复
ever5861 2012-03-31
  • 打赏
  • 举报
回复
学习了~~
咔啪咔啪 2012-03-31
  • 打赏
  • 举报
回复
我是来围观36楼头像的。。。
line_us 2012-03-29
  • 打赏
  • 举报
回复
很快就能得到结果
VCXIAOHEI 2012-03-29
  • 打赏
  • 举报
回复
[Quote=引用 34 楼 的回复:]
引用 24 楼 xuzuning 的回复:
关联查询,不会很慢。不就是几百万条记录吗?

是啊,才几百万
索引好,几亿都很快的
[/Quote]
+1
个人理解也是关联查询……
文子 2012-03-29
  • 打赏
  • 举报
回复
这个问题还不至于涉及到大数据量吧
rolance84 2012-03-29
  • 打赏
  • 举报
回复
I DON'T KNOW
齐鲁瞻海 2012-03-28
  • 打赏
  • 举报
回复
有没有定时备份SQL数据库的源码啊?
zhangmeeno 2012-03-28
  • 打赏
  • 举报
回复
几百万 是没啥难度啊,感觉 哈哈
xiaoxiangqing 2012-03-28
  • 打赏
  • 举报
回复
意思还没怎么弄明白
haitao 2012-03-28
  • 打赏
  • 举报
回复
[Quote=引用 24 楼 xuzuning 的回复:]
关联查询,不会很慢。不就是几百万条记录吗?
[/Quote]

是啊,才几百万
索引好,几亿都很快的
lan70 2012-03-28
  • 打赏
  • 举报
回复
嘛意思的
小小小小蜗牛 2012-03-28
  • 打赏
  • 举报
回复
算了 我弄明白了 一个instr函数就OK 啦 郁闷
lmc158 2012-03-28
  • 打赏
  • 举报
回复
考虑一下 Hibernate的缓存技术。。
加载更多回复(20)
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员,甚至对于研究Spark的在校学员,都是非常值得学习的。

8,028

社区成员

发帖
与我相关
我的任务
社区描述
高性能数据库开发
社区管理员
  • 高性能数据库开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧