有什么好的算法可以定量分析两组数据的差异程度?

samansakk 2008-11-25 03:03:53
两组数据量纲一致,个数相等,个数大概从几个~几百个都可能。
比如一组数据是:
1.1357
1.0688
1.1962
1.2401
1.2872
1.3774
1.2980
1.2831

另一组数据也是类似的。
想比较它们之间的差异程度。

我有试过类似K均值加权平均,将 |(Xi-Yi)|的和除以个数作为差异值,
也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。

不知道还有什么更合适的算法?
谢谢!
...全文
4689 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
samansakk 2008-12-06
  • 打赏
  • 举报
回复
两组数每个位置都是一一对应的。
比如第1个位置的差异,第2个位置的差异
最后综合成整组的差异。

[Quote=引用 9 楼 litaoye 的回复:]
是比较2组长度为N的组间差异,还是比较N对数的差异?
组间差异可以用一些距离算法,一对数的差异算法太多了。

引用 8 楼 samansakk 的回复:
引用 7 楼 litaoye 的回复:
如果有超过2组的数据,可以用协方差矩阵来做。

不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]
hityct1 2008-11-27
  • 打赏
  • 举报
回复
说说应用背景,数据的含义吧。否则不好说。
绿色夹克衫 2008-11-26
  • 打赏
  • 举报
回复
如果有超过2组的数据,可以用协方差矩阵来做。
samansakk 2008-11-26
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 litaoye 的回复:]
如果有超过2组的数据,可以用协方差矩阵来做。
[/Quote]
不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
绿色夹克衫 2008-11-26
  • 打赏
  • 举报
回复
是比较2组长度为N的组间差异,还是比较N对数的差异?
组间差异可以用一些距离算法,一对数的差异算法太多了。

[Quote=引用 8 楼 samansakk 的回复:]
引用 7 楼 litaoye 的回复:
如果有超过2组的数据,可以用协方差矩阵来做。

不涉及到多维,每次只比较2组。只是我有N*2组数据需要比较。
[/Quote]
samansakk 2008-11-25
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 dlyme 的回复:]
不知道,胡说一下:
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点(比方说数据分布应该符合什么样的分布函数),从数据中提取出“特征值”来再进行比较,这是比较科学且合理的办法。
如果单纯比较两组数据的差异,我看不出有什么意义。

回到这个问题本身,将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些?
或者可以从两组数据的均值和方差入手考虑。
[/Quote]

不能排序,因为我分析的这组数据是一对一的,不能错位。
不知道有没现成的,但比较复杂点的算法可以借鉴?
samansakk 2008-11-25
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 test4ever 的回复:]
引用楼主 samansakk 的帖子:

也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。



不知道你是怎么判断结果好还是不好的?
[/Quote]

我有N*2组数据,
按道理,两种方式应该要得到的差异显著的数据组应该是接近的,不过两种方式得到的重合不是太大。
绿色夹克衫 2008-11-25
  • 打赏
  • 举报
回复
可以用极差、方差、标准差,来衡量样本的变异程度。
jbluesun 2008-11-25
  • 打赏
  • 举报
回复
看一下概率论里面的correlation,也许可以。
test4ever 2008-11-25
  • 打赏
  • 举报
回复
[Quote=引用楼主 samansakk 的帖子:]

也试过假设检验中的KS检验算法,将P值作为差异值。
但两种方式得到的结果都不太好。

[/Quote]

不知道你是怎么判断结果好还是不好的?
  • 打赏
  • 举报
回复
不知道,胡说一下:
两组数据描述的应该是“同一类”信息。结合这类信息本身的特点(比方说数据分布应该符合什么样的分布函数),从数据中提取出“特征值”来再进行比较,这是比较科学且合理的办法。
如果单纯比较两组数据的差异,我看不出有什么意义。

回到这个问题本身,将两组数据排序之后再“将 |(Xi-Yi)|的和除以个数作为差异值”是不是会好一些?
或者可以从两组数据的均值和方差入手考虑。

33,007

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧