有什么好的算法可以定量分析两组数据的差异程度？

samansakk 2008-11-25 03:03:53

两组数据量纲一致，个数相等，个数大概从几个~几百个都可能。
比如一组数据是：
1.1357
1.0688
1.1962
1.2401
1.2872
1.3774
1.2980
1.2831

另一组数据也是类似的。
想比较它们之间的差异程度。

我有试过类似K均值加权平均，将 |(Xi-Yi)|的和除以个数作为差异值，
也试过假设检验中的KS检验算法，将P值作为差异值。
但两种方式得到的结果都不太好。

不知道还有什么更合适的算法？
谢谢！

...全文

4689 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

samansakk 2008-12-06

打赏
举报

两组数每个位置都是一一对应的。
比如第１个位置的差异，第２个位置的差异
最后综合成整组的差异。

[Quote=引用 9 楼 litaoye 的回复:]
是比较2组长度为N的组间差异，还是比较N对数的差异？
组间差异可以用一些距离算法，一对数的差异算法太多了。

引用 8 楼 samansakk 的回复:
引用 7 楼 litaoye 的回复:
如果有超过2组的数据，可以用协方差矩阵来做。

不涉及到多维，每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]

hityct1 2008-11-27

打赏
举报

说说应用背景，数据的含义吧。否则不好说。

绿色夹克衫 2008-11-26

打赏
举报

如果有超过2组的数据，可以用协方差矩阵来做。

samansakk 2008-11-26

打赏
举报

[Quote=引用 7 楼 litaoye 的回复:]
如果有超过2组的数据，可以用协方差矩阵来做。
[/Quote]
不涉及到多维，每次只比较2组。只是我有N*2组数据需要比较。

绿色夹克衫 2008-11-26

打赏
举报

是比较2组长度为N的组间差异，还是比较N对数的差异？
组间差异可以用一些距离算法，一对数的差异算法太多了。

[Quote=引用 8 楼 samansakk 的回复:]
引用 7 楼 litaoye 的回复:
如果有超过2组的数据，可以用协方差矩阵来做。

不涉及到多维，每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]

samansakk 2008-11-25

打赏
举报

[Quote=引用 1 楼 dlyme 的回复:]
不知道，胡说一下：
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点（比方说数据分布应该符合什么样的分布函数），从数据中提取出“特征值”来再进行比较，这是比较科学且合理的办法。
如果单纯比较两组数据的差异，我看不出有什么意义。

回到这个问题本身，将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些？
或者可以从两组数据的均值和方差入手考虑。
[/Quote]

不能排序，因为我分析的这组数据是一对一的，不能错位。
不知道有没现成的，但比较复杂点的算法可以借鉴？

samansakk 2008-11-25

打赏
举报

[Quote=引用 2 楼 test4ever 的回复:]
引用楼主 samansakk 的帖子:

也试过假设检验中的KS检验算法，将P值作为差异值。
但两种方式得到的结果都不太好。

不知道你是怎么判断结果好还是不好的？
[/Quote]

我有N*2组数据，
按道理，两种方式应该要得到的差异显著的数据组应该是接近的，不过两种方式得到的重合不是太大。

绿色夹克衫 2008-11-25

打赏
举报

可以用极差、方差、标准差，来衡量样本的变异程度。

jbluesun 2008-11-25

打赏
举报

看一下概率论里面的correlation，也许可以。

test4ever 2008-11-25

打赏
举报

[Quote=引用楼主 samansakk 的帖子:]

也试过假设检验中的KS检验算法，将P值作为差异值。
但两种方式得到的结果都不太好。

[/Quote]

不知道你是怎么判断结果好还是不好的？

大王派我去巡山 2008-11-25

打赏
举报

不知道，胡说一下：
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点（比方说数据分布应该符合什么样的分布函数），从数据中提取出“特征值”来再进行比较，这是比较科学且合理的办法。
如果单纯比较两组数据的差异，我看不出有什么意义。

回到这个问题本身，将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些？
或者可以从两组数据的均值和方差入手考虑。