社区
数据结构与算法
帖子详情
有什么好的算法可以定量分析两组数据的差异程度?
samansakk
2008-11-25 03:03:53
两组数据量纲一致,个数相等,个数大概从几个~几百个都可能。
比如一组数据是:
1.1357
1.0688
1.1962
1.2401
1.2872
1.3774
1.2980
1.2831
另一组数据也是类似的。
想比较它们之间的差异程度。
我有试过类似K均值加权平均,将 |(Xi-Yi)|的和除以个数作为差异值,
也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。
不知道还有什么更合适的算法?
谢谢!
...全文
4689
11
打赏
收藏
有什么好的算法可以定量分析两组数据的差异程度?
两组数据量纲一致,个数相等,个数大概从几个~几百个都可能。 比如一组数据是: 1.1357 1.0688 1.1962 1.2401 1.2872 1.3774 1.2980 1.2831 另一组数据也是类似的。 想比较它们之间的差异程度。 我有试过类似K均值加权平均,将 |(Xi-Yi)|的和除以个数作为差异值, 也试过假设检验中的KS检验算法,将P值作为差异值。 但两种方式得到的结果都不太好。 不知道还有什么更合适的算法? 谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
samansakk
2008-12-06
打赏
举报
回复
两组数每个位置都是一一对应的。
比如第1个位置的差异,第2个位置的差异
最后综合成整组的差异。
[Quote=引用 9 楼 litaoye 的回复:]
是比较2组长度为N的组间差异,还是比较N对数的差异?
组间差异可以用一些距离算法,一对数的差异算法太多了。
引用 8 楼 samansakk 的回复:
引用 7 楼 litaoye 的回复:
如果有超过2组的数据,可以用协方差矩阵来做。
不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]
hityct1
2008-11-27
打赏
举报
回复
说说应用背景,数据的含义吧。否则不好说。
绿色夹克衫
2008-11-26
打赏
举报
回复
如果有超过2组的数据,可以用协方差矩阵来做。
samansakk
2008-11-26
打赏
举报
回复
[Quote=引用 7 楼 litaoye 的回复:]
如果有超过2组的数据,可以用协方差矩阵来做。
[/Quote]
不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
绿色夹克衫
2008-11-26
打赏
举报
回复
是比较2组长度为N的组间差异,还是比较N对数的差异?
组间差异可以用一些距离算法,一对数的差异算法太多了。
[Quote=引用 8 楼 samansakk 的回复:]
引用 7 楼 litaoye 的回复:
如果有超过2组的数据,可以用协方差矩阵来做。
不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]
samansakk
2008-11-25
打赏
举报
回复
[Quote=引用 1 楼 dlyme 的回复:]
不知道,胡说一下:
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点(比方说数据分布应该符合什么样的分布函数),从数据中提取出“特征值”来再进行比较,这是比较科学且合理的办法。
如果单纯比较两组数据的差异,我看不出有什么意义。
回到这个问题本身,将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些?
或者可以从两组数据的均值和方差入手考虑。
[/Quote]
不能排序,因为我分析的这组数据是一对一的,不能错位。
不知道有没现成的,但比较复杂点的算法可以借鉴?
samansakk
2008-11-25
打赏
举报
回复
[Quote=引用 2 楼 test4ever 的回复:]
引用楼主 samansakk 的帖子:
也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。
不知道你是怎么判断结果好还是不好的?
[/Quote]
我有N*2组数据,
按道理,两种方式应该要得到的差异显著的数据组应该是接近的,不过两种方式得到的重合不是太大。
绿色夹克衫
2008-11-25
打赏
举报
回复
可以用极差、方差、标准差,来衡量样本的变异程度。
jbluesun
2008-11-25
打赏
举报
回复
看一下概率论里面的correlation,也许可以。
test4ever
2008-11-25
打赏
举报
回复
[Quote=引用楼主 samansakk 的帖子:]
也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。
[/Quote]
不知道你是怎么判断结果好还是不好的?
大王派我去巡山
2008-11-25
打赏
举报
回复
不知道,胡说一下:
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点(比方说数据分布应该符合什么样的分布函数),从数据中提取出“特征值”来再进行比较,这是比较科学且合理的办法。
如果单纯比较两组数据的差异,我看不出有什么意义。
回到这个问题本身,将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些?
或者可以从两组数据的均值和方差入手考虑。
统计学中
两组
数据
如何进行
差异
性(相关性)分析?
在确定分析方法前,我们需要了解手中的
数据
类型,这是最基础也是有必要的,在所有的
数据
类型中,我们将
数据
类型分为分类变量也为定类变量和连续变量也称为定量变量,那么什么是定类变量?什么是定量变量?定类变量通俗的讲数字大小不具有比较意义,比如性别中1代表男,2代表女,仅仅代表类别,在比如下图中,1代表底妆2代表唇妆等等,仅是类别关系。
全网最全—
差异
性分析方法汇总与pk
在
数据
研究中,常见的
数据
关系可以分为四类,分析是相关关系,因果关系、
差异
关系以及其它。本次所进行研究的关系为
差异
关系。对于
差异
性分析方法常见可以分为三类:参数检验、非参数检验以及可视化图形。一般
差异
分析方法常见的参数检验方法一般有方差分析和t检验,对于方差分析是一个大类,t检验也是,对于这些参数检验的大体选择:一般常见的分为方差分析和t检验,如果按照
数据
类型和
数据
格式进行选择,可以汇总如上图。以下分别进行说明方差分析和t检验。
Python
数据
分析-互联网常见9种
数据
分析方法
基于位置的归因模型,也叫U型归因模型,是一种重视最初带来线索和最终促成成交渠道的模型,一般它会给首次和末次互动渠道各分配40%的权重,给中间的渠道分配20%的权重,也可以根据实际情况来调整这里的比例。这是最简单、直接,也是应用最为广泛的归因模型。
数据
分析之
数据
预处理、分析建模、可视化
概述:简介、思路、发展历程、应用领域、开发流程;
数据
类型:结构化与非结构化、定性与定量、截面
数据
与时间序列
数据
;
数据
来源:外部来源、内部来源;
数据
预处理:
数据
清洗、
数据
集成、
数据
规约、
数据
变换;
数据
分析模型:对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等;
数据
分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等;
数据
可视化:Excel、PowerBI、Tableau、Python;
数据
特征分析方法总结
数据
特征分析方法总结 21世纪是大
数据
的时代,因为这些大
数据
中蕴含着时代发展的信息。如何科学地分析
数据
特征是
数据
分析师必须掌握的基础技能之一。因此,我今天主要希望通过理论推导并实现一些常用的
数据
特征分析方法来加强对
数据
特征处理的能力。 分布分析 分布分析:研究
数据
的分布特征和分布类型,分为定量
数据
和定性
数据
,并通过这两种类型来区分基本统计量。 常用指标为:极差、频率分布情况、分组组距及组数 # 读取
数据
data = pd.read_csv('data/深圳罗湖二手房信息.csv', engine='pyt
数据结构与算法
33,007
社区成员
35,326
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章