如何计算大量数据的平均值

刚---总--- 2012-08-13 02:33:47
具体需求是这样的:在过去的一段时间内,有大量的价格数据,为了给客户有一定的提示,要求把过去的一段时间内的价格平均值显示给客户。但问题是这段时间内的数据量可能会很大,不可能全部加起来求和然后算平均值。各位大仙,有没有什么好的算法来计算。跪求啊
...全文
2795 20 打赏 收藏 转发到动态 举报
写回复
用AI写文章
20 条回复
切换为时间正序
请发表友善的回复…
发表回复
神农氏 2013-09-17
  • 打赏
  • 举报
回复
18楼正解。
SaintLance 2013-09-17
  • 打赏
  • 举报
回复
Avg(n)为前n项平均值,data[n]为第n项数据(n从1开始) Avg(n)=(n-1)/n*Avg(n-1)+data[n]/n 可以避免大数溢出,但要用浮点运算,n极大是还是会丢精度
nice_cxf 2012-08-13
  • 打赏
  • 举报
回复
都用数据库了还有啥考虑的,显然是用数据库计算就可以了
就算是mysql,几十万条数据的平均值也根本用不了多少时间
www_adintr_com 2012-08-13
  • 打赏
  • 举报
回复
[Quote=引用 13 楼 的回复:]

你试试不就知道了?Just do it引用 12 楼 的回复:
我只是在想如果用数据库来算平均值,会不会给数据库带来很大的压力
[/Quote]

现在的 CPU 每秒计算上亿次, 慢的都是 IO, 自己取数据来算是把时间浪费在IO和数据的拷贝上面了, 计算花的时间不过一点零头.

过早的优化是万恶之源, 等程序写出来后发现真的慢后再去分析性能的瓶颈和优化办法也不迟. 在这之前的优化都没有任何意义.
pathuang68 2012-08-13
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]

价格不单单是一种价格,所以没办法在启动的时候预先将各种价格的平均值都计算一遍。
只能在客户查的时候给提供他要查询的价格的平均价
不过谢谢~
[/Quote]
我怎么发现就像股票数据哈,股票数据的处理方式都是每天交易结束时,把平均算好的,临时算肯定太慢啦。比如一只股票的价格变化时这样的:

即时价格 均值
1
2 (1 + 2) / 2 = 1.5
3 1.5 / 3 * 2 + 3 / 3 * 1 = 2
4 2 / 4 * 3 + 4 / 4 * 1 = 2.5
5 2.5 / 5 * 4 + 5 / 5 * 1 = 3
6 3 / 6 * 5 + 6 / 6 * 1 = 3.5
7 3.5 / 7 * 6 + 7 / 7 * 1 = 4

所以第n天的均值价格通式就是:
前一天的均值 / n * (n - 1) + 当天的即时价格 / n
pathuang68 2012-08-13
  • 打赏
  • 举报
回复 2
给一个简单的思路:

假定是偶数个数字:
1 2 3 4 5 6 7 8
-------------------------------------------- 第一轮计算每两个数的平均值
1.5 3.5 5.5 7.5
-------------------------------------------- 第二轮计算每两个数的平均值
2.5 6.5
-------------------------------------------- 第三轮计算每两个数的平均值
4.5 <-- 这就是最后的平均值

如果是奇数个数字
1 2 3 4 5 6 7 8 9
----------------------------------------------------- 第一轮计算每两个数的平均值,最后一个数字不算
1.5 3.5 5.5 7.5 9
----------------------------------------------------- 第二轮计算每两个数的平均值,最后一个数字不算
2.5 6.5 9
----------------------------------------------------- 第三轮计算每两个数的平均值,最后一个数字不算
4.5(权重是8/9) 9(权重是1/9)

所以平均值 = 4.5 / 9 * 8 + 9 / 9 * 1 = 5 (注意要先除后乘,防止溢出)


这种问题适合用递归的解法,如果每两个数分为一组的话,递归的次数大致是log2(数字的个数),1百万的个数据,递归不超过20次,1千万个数据递归不会超过24次,1亿个数据递归不会超过27次。

当然,比如有6个数这样的情况,也需要特殊处理一下。所以当数据量很大的时候,要尽量选择2的多少次方个数据(比如1024个数据)进行分段运算,剩余不足1024个数据,可以用暴力解法,而且这样也很适合用并行计算来大幅度提高性能。

比如有1~18这18个数,我们就可以上面的方法先算前面16数的平均值,即8.5,它占最后平均值的16/18,最后两个数则各占最终平均数的1/18,所以最终的平均数为:
8.5 / 18 * 16 + (17 + 18) / 18 * 1 = 9.5

大致思路就是这样,仅供参考。
翅膀又硬了 2012-08-13
  • 打赏
  • 举报
回复
你试试不就知道了?Just do it[Quote=引用 12 楼 的回复:]
我只是在想如果用数据库来算平均值,会不会给数据库带来很大的压力
[/Quote]
刚---总--- 2012-08-13
  • 打赏
  • 举报
回复
我只是在想如果用数据库来算平均值,会不会给数据库带来很大的压力
刚---总--- 2012-08-13
  • 打赏
  • 举报
回复
怎么个批量法?
翅膀又硬了 2012-08-13
  • 打赏
  • 举报
回复
同意,不过感觉你的数据量不是很大吧,一天变一次价格,10年才3000多次。[Quote=引用 5 楼 的回复:]
平均值这种东西,数据量大的话采样就行了。比如有1亿数据,采上1万个求平均就够了。
[/Quote]
www_adintr_com 2012-08-13
  • 打赏
  • 举报
回复
https://www.google.com.hk/search?q=%E8%BF%87%E6%97%A9%E7%9A%84%E4%BC%98%E5%8C%96
ma100 2012-08-13
  • 打赏
  • 举报
回复
查数据库的时候批量吞吐, 别一条一条查
www_adintr_com 2012-08-13
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 的回复:]

程序还没写,我觉得会很慢~
因为我得先从数据库查询数据,如果数据量大的话,这个过程就会比较慢....所以在数据库进行查询的时候就不可能将过去一周或者几周的数据都查询回来进行平均值的计算。
[/Quote]

数据库查询的时候就可以把平均值求好啊...
比如:
select avg(privce) from some_table where time between 'xxxx-xx-xx hh:mm:ss' and 'xxxx-xx-xx hh:mm:ss' 就行了.

刚---总--- 2012-08-13
  • 打赏
  • 举报
回复
那我应该如何采这1万个呢?求教~
千树之影 2012-08-13
  • 打赏
  • 举报
回复
平均值这种东西,数据量大的话采样就行了。比如有1亿数据,采上1万个求平均就够了。
刚---总--- 2012-08-13
  • 打赏
  • 举报
回复
程序还没写,我觉得会很慢~
因为我得先从数据库查询数据,如果数据量大的话,这个过程就会比较慢....所以在数据库进行查询的时候就不可能将过去一周或者几周的数据都查询回来进行平均值的计算。
www_adintr_com 2012-08-13
  • 打赏
  • 举报
回复
是你的程序写出来后发现计算平均值很慢? 还是你没有写就猜想计算会很慢?
刚---总--- 2012-08-13
  • 打赏
  • 举报
回复
价格不单单是一种价格,所以没办法在启动的时候预先将各种价格的平均值都计算一遍。
只能在客户查的时候给提供他要查询的价格的平均价
不过谢谢~
图灵狗 2012-08-13
  • 打赏
  • 举报
回复
程序启动的时候先算一遍,然后数据变化的时候,只加减变化的部分,这样就不会在关键的时候耗时过长了。
本课程是PowerBI系列课程之DAX函数专题讲解,包含以下内容 1.  DAX函数基础知识什么是DAX函数数学函数:ABS、DIVIDE、MOD、RAND、ROUND、FIXED等日期和时间函数: CALENDAR、CALENDARAUTO、MONTH、YEAR、DATE、DT等信息函数:USERNAME、USERPRINCIPALNAME、HASONEFILTER、HASONEVALUE、ISFILTERED、ISCROSSFILTERED、ISINSCOPE、ISBLANK、SELECTEDMEASURE、SELECTEDMEASURENAME等逻辑函数:AND、OR、IF、IFERROR、SWITCH、TRUE、FALSE、COALESCE(官方文档含糊不清-结合实例)等关系函数:CROSSFILTER、RELATED、RELATEDTABLE等筛选器函数:FILTER、CALCULATE、ALL、ALLEXCEPT、ALLSELECTED、EARLIER、KEEPFILTERS、REMOVEFILTERS、SELECTEDVALUE、LOOKUPVALUE等父子函数:PATH、PATHCONTAINS、PATHITEM、PATHLENGTH等统计函数:AVERAGE、COUNT、MAX、MIN、SUM等迭代统计函数:AVERAGEX、COUNTX、MAXX、MINX、SUMX、RANKX等表函数: FILTERS 、ADDCOLUMNS、 SELECTCOLUMNS、 CROSSJOIN、 EXCEPT、 GENERATE、 GROUPBY、 SUMMARIZE、 SUMMARIZECOLUMNS、 TOPN、 TREATAS、 UNION、 VALUES、DISTINCT、DATATABLE、NATUALINNERJOIN、NATRUALLEFTOUTERJOIN等文本函数: EXACT、MID、 FIND、 LEN、 REPT、 LOWER、 UPPER、 UNICHAR等时间智能函数:DATEADD、DATESMTD、FIRSTDATE、LASTDATE、SAMEPERIODLASTYEAR等财务函数:2020.7之后发布的,和Excel中财务函数相似,网页和demo pbix简单介绍其他函数:BLANK、ERROR、IFERROR等 DAX函数初体验:Max、Sum、Divide、if、Values等值函数表函数以及表和列的概念DAX函数术语、语法、运算符DAX运算符和引擎中字母大小写问题DAX编程注释和快捷键DAX与Excel函数的共同点和区别(PPT)DAX、xmSQL与SQL表达式的区别(PPT)DAX函数的自学途径 2.  PowerBI中数据建模知识维度建模关系传递和交叉筛选器方向-理解表关系(1v1, 1vM, Mv1,MvM)两个方向上应用安全筛选器关闭关系自动检测新建计算列新建度量值新建计算表:辅助表(五种方式)、日历表数据类型讲解数据格式控制:%、$、千位分隔符、小数位、日期格式Format函数自定义数据格式Convert函数做数据类型转换解决中文数字单位 万 的显示问题Date和DT函数定义固定日期值显示和隐藏列DAX代码分析器阅读DAX表达式方法:从上至下、由内到外(注意Calculate的计算顺序)调试DAX表达式方法:分布输出或VAR输出3.  DAX函数原理 Vertipaq列式数据库原理理解度量值和计算列理解行上下文和筛选上下文:Calculate示意图行上下文中使用VAR替代EARLIERVAR变量在定义时的上下文中计算VAR变量是采用惰性计算(使用时计算)理解扩展表和RELATED函数理解数据沿袭Lineage 4.  开始感知DAX函数的强大DAX函数实现特殊符号的使用DAX函数实现切片器默认当前月或天DAX函数使切片器默认代表无任何选择DAX函数使切片器仅显示有数据的选项DAX函数使切片器反向筛选和计算DAX函数使切片器之间取并集DAX函数使关系中多端的切片器筛选一端的切片器 DAX函数实现年月共同决定数据排序DAX函数实现动态图表标题DAX函数实现动态图表配色和图标DAX函数实现动态纵坐标DAX函数实现动态横坐标5.  理解重点DAX函数重中之重FILTER 和 CALCULATE和CALCULATETABLE详解调节器REMOVEFILTERS和ALL、ALLEXCEPT函数调节器ALL、ALLSELECTED和ISINSCOPE占比分析调节器AllSELECTED和KEEPFILTERS的比较调节器USERELATIONSHIP激活关系调节器TREATAS动态建立关系调节器CROSSFILTER改变筛选器方向重点之ISFILTERED和ISCROSSFILTERED重点之HASONEVALUE和ISINSCOPE的区别重点之表函数SELECTEDCOLUMNS和ADDCOLUMNS重点之表函数NATUALINNERJOIN和NATRUALLEFTOUTERJOIN重点之表函数FILTERS和VALUES比较重点之VALUES和DISTINCT的区别重点之分组函数SUMMARIZECOLUMNS详解重点之函数LOOKUPVALUE vs RELATED vs VLOOKUP 重点之集合函数UNION、INTERSECT、EXCEPT重点之集合函数CROSSJOIN和GENERATE 笛卡尔积重点之值合并、列合并、表合并CONCATENATEX重点之BLANK行产生的原因和BLANK相关函数重点之COALESCE函数处理空重点之FIRSTNOBLANK和FIRSTNOBLANKVALUE函数重点之使用VAR变量表中的列重点之Error和IfError函数6.  实际案例-日期时间和时间智能相关关键点-日期表和事实表关联问题时间智能-同比环比分析时间智能-累计聚合、滚动聚合、移动平均时间智能-期初期末库存分析日期分析-计算任意所选月份的环比日期分析-周的同比环比和周聚合日期分析-指定月份的同比环比和季度环比日期分析-计算季末或季末月份的数据日期分析-趋势图中根据最近月份取TopN日期分析-动态指定某个日期区间分析日期分析-动态任意区间段做数据对比日期分析-实现两个日期列的范围筛选日期分析-按工作日计算日期差日期分析-计算最近两次购买日期差日期分析-根据历史数据做销售预测日期时间函数和时间智能函数使用总结7.  实际案例-DAX函数进阶进阶-解决列排序对计算的影响进阶-实现切片器筛选之间的OR逻辑进阶-矩阵Matrix中高亮显示最大值最小值进阶-DAX列转行 vs 矩阵列转行和逆透视进阶-非日期类型的累计聚合进阶-排名逻辑的4种实现-RANKX详解进阶-分组内排名的实现和理解迭代函数进阶-TopN/BottomN和Others的实现进阶-TopN中实现动态指标进阶-TopN中实现N的动态进阶-分组内动态TopN和Others 进阶-商品折上折-迭代函数SUMX详解 进阶-分析客户购买行为进阶-找出无购买行为的客户进阶-客户购买商品关联度分析 进阶-新客户分析进阶-流失客户分析进阶-回流客户分析进阶-客户购买频次和区间分析进阶-RFM客户价值分析进阶-帕累托分析进阶-盈亏平衡分析报表性能优化思路(PPT)  

64,327

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧