请教如何通过计算判断两组数据的比例组成是否接近

lz675244643 2017-04-24 11:08:39
在已知一组标准推荐数据的情况下,如何判断测量所得的其它N组数据与该组数据比例匹配接近程度,是否有科学权威的比较方法
具体例子: 国家推荐18~50年龄段男性人均膳食摄入量(mg/d)为
K 2000 Na 1500 Ca 800 P 720 Mg 330
目前测出2种水果中含量(mg/100g)分别为
A : K 227 Na 0.84 Ca 24.5 P 14.2 Mg 9.42
B : K 253 Na 1.14 Ca 42.6 P 15.3 Mg 21.25
需要判断哪种水果的比例组成与推荐膳食摄入量更为接近,要如何计算
目前本人想到的方法是——将某类水果中各元素所占比例算出,再分别与推荐摄入中该元素的比例相比(除),得到一个比值F后,用1去减F, 进行绝对值运算后得到一个绝对值,把该水果的所有元素算出的绝对值相加得到一个数。最终比较A水果和B水果这个数值的大小,越小的则与推荐的比例组成越接近。
1. 请问该方法是否可行
2. 是否有其它科学权威的数学比较方法(类似与氨基酸评分模式)
3. 对于数据数量级的差异是否需要进行标准化
请教大神~
...全文
2844 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
lz675244643 2017-05-09
  • 打赏
  • 举报
回复
引用 13 楼 sdhexu 的回复:
他的原理是求在n维空间内两点间的距离。与你的待测点距离越近的点越相似,这在几何和数学上是无容置疑的,不会是你的数据不同导致错误的结果。你80%的和0.8%的两组数据,肯定是有差距的啊。
谢谢您的回答,我的问题比如说原始数据是A 80%和B 0.8%,现有两组数据分别是——A 75% B 0.8A 80% B 5.8%,两组都是相差5%,用公式计算出来距离是一样的,对于第一组来说A变化了5%,但第二组虽然B也变化了5%,却是比原始大了7倍,这种原始数据间权重存在较大差异,会不会对我们衡量最终各成分比例平衡情况同原始情况的符合程度造成影响?
示申○言舌 2017-05-02
  • 打赏
  • 举报
回复
引用 13 楼 sdhexu 的回复:
他的原理是求在n维空间内两点间的距离。与你的待测点距离越近的点越相似,这在几何和数学上是无容置疑的,不会是你的数据不同导致错误的结果。你80%的和0.8%的两组数据,肯定是有差距的啊。

示申○言舌 2017-05-02
  • 打赏
  • 举报
回复
他的原理是求在n维空间内两点间的距离。与你的待测点距离越近的点越相似,这在几何和数学上是无容置疑的,不会是你的数据不同导致错误的结果。你80%的和0.8%的两组数据,肯定是有差距的啊。
示申○言舌 2017-05-02
  • 打赏
  • 举报
回复
引用 11 楼 lz675244643 的回复:
[quote=引用 9 楼 sdhexu 的回复:] [quote=引用 8 楼 sdhexu 的回复:] [quote=引用 7 楼 sdhexu 的回复:] 我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
最重要的是单位一致,然后用公式就行了。可以将将标准量百分比化,也可以把待匹配量质量化,只要两者统一,就可以匹配近似程度。[/quote] 拿你自己举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 这个是可以很容易算出来的。 设有一组数据: K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 这个也是可以很容易算出来的。 那么相似度为: √( 20-20)^2+(15-15)^2+(8-8)^2+(3-3)^2 = 0 ,近似度为0,就是完全相等。 [/quote] 多次回帖,谢谢您了。 明白了 单位一致就可以比 我可以将每种元素含量占总含量的百分比算出来 然后直接将百分比带入公式即可 √( 测量得到元素x1占总量百分比 - 推荐中元素x1占总量百分)^2+测量得到元素xm所测的-推荐中元素xm占总量百分比) 拿最初举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素占总体百分比是 37.7% 28.3% 15.1% 13.2% 5.7% 设有一组数据: A : K 227 Na 0.84 Ca 24.5 P 14.2 Mg 9.42 各元素占总体百分比是 82.26% 0.30% 8.88% 5.15% 3.41% B : K 253 Na 1.14 Ca 42.6 P 15.3 Mg 21.25 各元素占总体百分比是 75.91% 0.34% 12.78% 4.59% 6.38% 那么相似度为: A: √( 37.7%-82.26%)^2+(28.3%-0.30%)^2+(15.1%-8.88%)^2+(13.2%-5.15%)^2 +(5.7%%-3.41%)^2 = 0.54 B: √( 37.7%-75.91%)^2+(28.3%-0.34%)^2+(15.1%-12.78%)^2+(13.2%-4.59%)^2 +(5.7%%-6.38%)^2= 0.48 由此可见,B的比例与推荐更为匹配 对么? 那还是想请问您,不同元素所占比例差异较大的情况下,用这种方法判断时会不会对评估有影响呢?(比如有的占到80%多,另外一种只占到0.3%,那他们变化的差异对结果的影响程度会不会不同)[/quote] 额。。。如果你觉得百分比不好算,你可以把所有百分比同时乘以100,得到一个大一点的小数去计算啊。 这本质上是一个数学问题。
lz675244643 2017-05-01
  • 打赏
  • 举报
回复
引用 9 楼 sdhexu 的回复:
[quote=引用 8 楼 sdhexu 的回复:] [quote=引用 7 楼 sdhexu 的回复:] 我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
最重要的是单位一致,然后用公式就行了。可以将将标准量百分比化,也可以把待匹配量质量化,只要两者统一,就可以匹配近似程度。[/quote] 拿你自己举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 这个是可以很容易算出来的。 设有一组数据: K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 这个也是可以很容易算出来的。 那么相似度为: √( 20-20)^2+(15-15)^2+(8-8)^2+(3-3)^2 = 0 ,近似度为0,就是完全相等。 [/quote] 多次回帖,谢谢您了。 明白了 单位一致就可以比 我可以将每种元素含量占总含量的百分比算出来 然后直接将百分比带入公式即可 √( 测量得到元素x1占总量百分比 - 推荐中元素x1占总量百分)^2+测量得到元素xm所测的-推荐中元素xm占总量百分比) 拿最初举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素占总体百分比是 37.7% 28.3% 15.1% 13.2% 5.7% 设有一组数据: A : K 227 Na 0.84 Ca 24.5 P 14.2 Mg 9.42 各元素占总体百分比是 82.26% 0.30% 8.88% 5.15% 3.41% B : K 253 Na 1.14 Ca 42.6 P 15.3 Mg 21.25 各元素占总体百分比是 75.91% 0.34% 12.78% 4.59% 6.38% 那么相似度为: A: √( 37.7%-82.26%)^2+(28.3%-0.30%)^2+(15.1%-8.88%)^2+(13.2%-5.15%)^2 +(5.7%%-3.41%)^2 = 0.54 B: √( 37.7%-75.91%)^2+(28.3%-0.34%)^2+(15.1%-12.78%)^2+(13.2%-4.59%)^2 +(5.7%%-6.38%)^2= 0.48 由此可见,B的比例与推荐更为匹配 对么? 那还是想请问您,不同元素所占比例差异较大的情况下,用这种方法判断时会不会对评估有影响呢?(比如有的占到80%多,另外一种只占到0.3%,那他们变化的差异对结果的影响程度会不会不同)
lz675244643 2017-05-01
  • 打赏
  • 举报
回复
引用 9 楼 sdhexu 的回复:
我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
最重要的是单位一致,然后用公式就行了。可以将将标准量百分比化,也可以把待匹配量质量化,只要两者统一,就可以匹配近似程度。[/quote] 拿你自己举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 这个是可以很容易算出来的。 设有一组数据: K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 这个也是可以很容易算出来的。 那么相似度为: √( 20-20)^2+(15-15)^2+(8-8)^2+(3-3)^2 = 0 ,近似度为0,就是完全相等。 [/quote] 多次回帖,谢谢您了。 明白了 单位一致就可以比 我可以将每种元素含量占总含量的百分比算出来 然后直接将百分比带入公式即可 √( 测量得到元素x1占总量百分比 - 推荐中元素x1占总量百分)^2+测量得到元素xm所测的-推荐中元素xm占总量百分比) 拿最初举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素占总体百分比是 37.7% 28.3% 15.1% 13.2% 5.7% 设有一组数据: A : K 227 Na 0.84 Ca 24.5 P 14.2 Mg 9.42 各元素占总体百分比是 82.26% 0.30% 8.88% 5.15% 3.41% B : K 253 Na 1.14 Ca 42.6 P 15.3 Mg 21.25 各元素占总体百分比是 75.91% 0.34% 12.78% 4.59% 6.38% 那么相似度为: A: √( 37.7%-82.26%)^2+(28.3%-0.30%)^2+(15.1%-8.88%)^2+(13.2%-5.15%)^2 +(5.7%%-3.41%)^2 = 0.54 B: √( 37.7%-75.91%)^2+(28.3%-0.34%)^2+(15.1%-12.78%)^2+(13.2%-4.59%)^2 +(5.7%%-6.38%)^2= 0.48 由此可见,B的比例与推荐更为匹配 对么? 那还是想请问您,不同元素所占比例差异较大的情况下,用这种方法判断时会不会对评估有影响呢?(比如有的占到80%多,另外一种只占到0.3%,那他们变化的差异对结果的影响程度会不会不同)
示申○言舌 2017-04-26
  • 打赏
  • 举报
回复
引用 8 楼 sdhexu 的回复:
[quote=引用 7 楼 sdhexu 的回复:] 我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
最重要的是单位一致,然后用公式就行了。可以将将标准量百分比化,也可以把待匹配量质量化,只要两者统一,就可以匹配近似程度。[/quote] 拿你自己举的例子: K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 这个是可以很容易算出来的。 设有一组数据: K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 这个也是可以很容易算出来的。 那么相似度为: √( 20-20)^2+(15-15)^2+(8-8)^2+(3-3)^2 = 0 ,近似度为0,就是完全相等。
示申○言舌 2017-04-26
  • 打赏
  • 举报
回复
引用 7 楼 sdhexu 的回复:
我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
最重要的是单位一致,然后用公式就行了。可以将将标准量百分比化,也可以把待匹配量质量化,只要两者统一,就可以匹配近似程度。
示申○言舌 2017-04-26
  • 打赏
  • 举报
回复
我给你说的是一种计算匹配相似度的算法,他本质上是适应任意模型的,但你的数据如果不能直接匹配,你可能需要进行一些转化。 比如: 如果你的指标是一个Na元素含有量的百分比,但你需要跟一个确切的质量去匹配近似度,那么,你首先就得根据给定的质量和含有量百分比先计算出Na的含有量,然后去跟目标匹配,只要两者单位一致,就可以进行计算。
lz675244643 2017-04-26
  • 打赏
  • 举报
回复
引用 5 楼 sdhexu 的回复:
[quote=引用 3 楼 lz675244643 的回复:] [quote=引用 2 楼 sdhexu 的回复:] [quote=引用 1 楼 sdhexu 的回复:] 这其实是求多维空间内两点间的距离的问题。 为了便于理解,假设指标只有两个,只分析k和na的情况,那么事实上任何一个数据可以想象成由k作为水平轴(x)和由na作为垂直轴(y)的坐标系内的一个点。分析两个数据的相似性就是求这两个点之间的距离,用两点间距离公式 √( x^2 + y^2 ),距离越小越相似。 扩展到m个指标,你可以当做是m维空间。 公式仍然适用:√( 指标1的平方+指标2的平方+...指标m的平方)
如上图所示,只考虑两种指标的情况下,假设一组数据是k 1.05,na 1.12,则如同图上黑点所描述。显然红色的点比蓝色点更接近黑点,就是距离更短,也就是更具相似性。 将两维空间扩展到m维即可。[/quote] 首先谢谢您的回复,看到您的回答,按照您的计算方法是只要比较距离的差值,即 √( 指标1所测的-指标1推荐的)平方+(指标2所测的-指标2推荐的)平方+...(指标m所测的-指标m推荐的)平方 最终看哪个更小即可对么? 但目前我关注的重点不是两组数据数的大小的相似性,而是关注我所测数据整体来看各部所占比例,与对比参考数据各指标所占比例的相似性,也就是说百分比相似性的对比。应该怎么说这个词,恩,就是哪个的组成和推荐更匹配? 比如,我目前看到的推荐是 K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 目前测出2种水果中含量(mg/100g)分别为 A : K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 B : K 250 Na 110 Ca 18 P 26 Mg 96 各元素比例是125 :55: 9 :13: 48 由此可见,虽然B的含量多,但A在比例的均衡性上更加接近推荐的比例,因此在这方面A更优 这只是在比例差异比较明显的情况下,在相差不是很明显比如我最开始提问举的例子中的数据,这时候有没有可能通过数学计算,得到一个最终的数据去比较?不知您的方法是否对我的问题可行。 还是谢谢了 [/quote] 只是把数据改成了比值而已,用比值当做坐标点其实还是一样的。[/quote] 您的意思是用比例的数据去比较么 还是说是否约到最简对它结果没有影响 ? 公式还是 √( 指标1所测的-指标1推荐的)平方+(指标2所测的-指标2推荐的)平方+...(指标m所测的-指标m推荐的)平方?代入数据还是原始数据?
示申○言舌 2017-04-25
  • 打赏
  • 举报
回复
引用 3 楼 lz675244643 的回复:
[quote=引用 2 楼 sdhexu 的回复:] [quote=引用 1 楼 sdhexu 的回复:] 这其实是求多维空间内两点间的距离的问题。 为了便于理解,假设指标只有两个,只分析k和na的情况,那么事实上任何一个数据可以想象成由k作为水平轴(x)和由na作为垂直轴(y)的坐标系内的一个点。分析两个数据的相似性就是求这两个点之间的距离,用两点间距离公式 √( x^2 + y^2 ),距离越小越相似。 扩展到m个指标,你可以当做是m维空间。 公式仍然适用:√( 指标1的平方+指标2的平方+...指标m的平方)
如上图所示,只考虑两种指标的情况下,假设一组数据是k 1.05,na 1.12,则如同图上黑点所描述。显然红色的点比蓝色点更接近黑点,就是距离更短,也就是更具相似性。 将两维空间扩展到m维即可。[/quote] 首先谢谢您的回复,看到您的回答,按照您的计算方法是只要比较距离的差值,即 √( 指标1所测的-指标1推荐的)平方+(指标2所测的-指标2推荐的)平方+...(指标m所测的-指标m推荐的)平方 最终看哪个更小即可对么? 但目前我关注的重点不是两组数据数的大小的相似性,而是关注我所测数据整体来看各部所占比例,与对比参考数据各指标所占比例的相似性,也就是说百分比相似性的对比。应该怎么说这个词,恩,就是哪个的组成和推荐更匹配? 比如,我目前看到的推荐是 K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 目前测出2种水果中含量(mg/100g)分别为 A : K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 B : K 250 Na 110 Ca 18 P 26 Mg 96 各元素比例是125 :55: 9 :13: 48 由此可见,虽然B的含量多,但A在比例的均衡性上更加接近推荐的比例,因此在这方面A更优 这只是在比例差异比较明显的情况下,在相差不是很明显比如我最开始提问举的例子中的数据,这时候有没有可能通过数学计算,得到一个最终的数据去比较?不知您的方法是否对我的问题可行。 还是谢谢了 [/quote] 只是把数据改成了比值而已,用比值当做坐标点其实还是一样的。
tanta 2017-04-25
  • 打赏
  • 举报
回复
你这个有点类似比例调整后的实验数据的拟合。 我建议:1、首先进行数据的归一化,将所有数据按一定比例调整;2、按最小二乘法进行拟合。
lz675244643 2017-04-24
  • 打赏
  • 举报
回复
引用 2 楼 sdhexu 的回复:
[quote=引用 1 楼 sdhexu 的回复:] 这其实是求多维空间内两点间的距离的问题。 为了便于理解,假设指标只有两个,只分析k和na的情况,那么事实上任何一个数据可以想象成由k作为水平轴(x)和由na作为垂直轴(y)的坐标系内的一个点。分析两个数据的相似性就是求这两个点之间的距离,用两点间距离公式 √( x^2 + y^2 ),距离越小越相似。 扩展到m个指标,你可以当做是m维空间。 公式仍然适用:√( 指标1的平方+指标2的平方+...指标m的平方)
如上图所示,只考虑两种指标的情况下,假设一组数据是k 1.05,na 1.12,则如同图上黑点所描述。显然红色的点比蓝色点更接近黑点,就是距离更短,也就是更具相似性。 将两维空间扩展到m维即可。[/quote] 首先谢谢您的回复,看到您的回答,按照您的计算方法是只要比较距离的差值,即 √( 指标1所测的-指标1推荐的)平方+(指标2所测的-指标2推荐的)平方+...(指标m所测的-指标m推荐的)平方 最终看哪个更小即可对么? 但目前我关注的重点不是两组数据数的大小的相似性,而是关注我所测数据整体来看各部所占比例,与对比参考数据各指标所占比例的相似性,也就是说百分比相似性的对比。应该怎么说这个词,恩,就是哪个的组成和推荐更匹配? 比如,我目前看到的推荐是 K 2000 Na 1500 Ca 800 P 700 Mg 300 各元素比例是20:15:8:7:3 目前测出2种水果中含量(mg/100g)分别为 A : K 20 Na 15 Ca 8 P 7 Mg 3 各元素比例是20:15:8:7:3 B : K 250 Na 110 Ca 18 P 26 Mg 96 各元素比例是125 :55: 9 :13: 48 由此可见,虽然B的含量多,但A在比例的均衡性上更加接近推荐的比例,因此在这方面A更优 这只是在比例差异比较明显的情况下,在相差不是很明显比如我最开始提问举的例子中的数据,这时候有没有可能通过数学计算,得到一个最终的数据去比较?不知您的方法是否对我的问题可行。 还是谢谢了
示申○言舌 2017-04-24
  • 打赏
  • 举报
回复
引用 1 楼 sdhexu 的回复:
这其实是求多维空间内两点间的距离的问题。

为了便于理解,假设指标只有两个,只分析k和na的情况,那么事实上任何一个数据可以想象成由k作为水平轴(x)和由na作为垂直轴(y)的坐标系内的一个点。分析两个数据的相似性就是求这两个点之间的距离,用两点间距离公式 √( x^2 + y^2 ),距离越小越相似。
扩展到m个指标,你可以当做是m维空间。
公式仍然适用:√( 指标1的平方+指标2的平方+...指标m的平方)


如上图所示,只考虑两种指标的情况下,假设一组数据是k 1.05,na 1.12,则如同图上黑点所描述。显然红色的点比蓝色点更接近黑点,就是距离更短,也就是更具相似性。

将两维空间扩展到m维即可。
示申○言舌 2017-04-24
  • 打赏
  • 举报
回复
这其实是求多维空间内两点间的距离的问题。 为了便于理解,假设指标只有两个,只分析k和na的情况,那么事实上任何一个数据可以想象成由k作为水平轴(x)和由na作为垂直轴(y)的坐标系内的一个点。分析两个数据的相似性就是求这两个点之间的距离,用两点间距离公式 √( x^2 + y^2 ),距离越小越相似。 扩展到m个指标,你可以当做是m维空间。 公式仍然适用:√( 指标1的平方+指标2的平方+...指标m的平方)

33,007

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧