浮点数比较辨析

FireBurn 2013-09-06 01:51:12

前一段时间在看《C++反汇编与逆向分析技术揭密》中浮点数类型，谈到浮点数的比较，书中给出了一段浮点数比较的代码。



float fTemp = 0.0001f;

if(fFloat >= -fTemp && fFloat <= fTemp)

{

//fTemp等于0



}

当时对于这段代码不太理解，难道0.00005就可以当作0吗。后来在网上又看到了另一段代码，才彻底理解了浮点数比较。



#include <stdio.h>

#include <stdlib.h>

 

main()

{

    float d1, d2, d3, d4;

 

    d1 = 194268.02;

    d2 = 194268;

    d4 = 0.02;

     

    d3 = d1 - d2;

    if (d3 > d4)

       printf(">0.02\n");

    else if (d3 < d4)

       printf("<0.02\n");

    else

       printf("=0.02\n");    

 

    printf("%f - %f = %f \n", d1,d2,d3);

 

    system("pause");

}

我稍作了修改，在VC6.0上得到的输出是这样的。



<0.02

d4 = 0.020000

194268.015625 - 194268.000000 = 0.015625

下面具体分析一下为什么会有这样的结果。
首先简单介绍一下float类型的IEEE编码。下面引自《C++反汇编与逆向分析技术揭密》P21：
“float类型在内存中4字节（32）位。最高位用于表示符号；在剩余的31位中，从右向左取8位用于表示指数，其余用于表示尾数。”
即：31位为符号位，23～30为科学计数法指数部分，0～22为科学计数法尾数部分。

下面分析各个变量：
d1=194268.02，通过调试器查看到它在内存中的十六进制值为483D B701，表示成二进程编码为
0100 1000 0011 1101 1011 0111 0000 0001
按照上面介绍的编码格式分开指数和尾数。
指数
1001 0000=144
144-127=17（指数位数在编码后加了127，所以这里相应的要减掉）
尾数
.011 1101 1011 0111 0000 0001
在开头补上1，把小数点右移17位，得到二进制数
101111011011011100.000001

d2=194268
十六进程值：483D B700
二进制编码：0100 1000 0011 1101 1011 0111 0000 0000
指数
1001 0000=144
144-127=17
尾数
.011 1101 1011 0111 0000 0000
最后得到二进制数
101111011011011100.000000

d3=d1-d2
十六进程值：3C80 0000
二进制编码：0011 1100 1000 0000 0000 0000 0000 0000
指数
0111 1001=121
121-127=-6
尾数
.0
在开头补上1，把小数点左移6位，得到二进制数
0.000001

最后
d4=0.02
十六进程编码：3CA3 D70A
二进制值：0011 1100 1010 0011 1101 0111 0000 1010
指数
0111 1001=121
121-127=-6
尾数
.01000111101011100001010
在开头补上1，把小数点左移6位，得到二进制数
0.0000011000111101011100001010

可以看到d3确实小于d4，之所以出现上面的现象，原因有两条
1、小数部分使用的长度不一样，可以看到d4的尾数（23位）全部用于表示0.02这个小数，而d3保存的是d1-d2的结果，实际小数部分同d1一样，只占了6位。
2、在这个例子中更关键的是0.02这个十进制数在转换二进制过程中产生了无穷值（就好象三分之一是0.3333.....）。正因为如此，在上面的例子中把float类型改成double类型，不影响结果，d3仍然小于d4。
大家可以换一个值测试，比如d1=194268.0234375;d4=0.0234375;看看结果如何。

...全文

229 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

To_be_sky 2013-09-06

打赏
举报

在很多程序中时不建议比较float型数的。误差肯定是有的

max_min_ 2013-09-06

打赏
举报



大多数电脑都是用二进制来表示浮点和整数的，在十进制里，0.1是个简单、精确的小数，
但是用二进制表示起来确实一个循环小数0.00011001100……，
所以在对一些二进制无法精确的表示的小数进行赋值或读入，再输出的话，
也就是从十进制转为二进制转为十进制，得到的数值是不一致的，
这是用于编译器二进制/十进制转换例程的精度引起的！

赵4老师 2013-09-06

打赏
举报

用10进制小数不能精确表示某些三进制小数0.1(3)=0.33333333333……(10) 同理，用二进制小数也不能精确表示某些10进制小数。 include\float.h ... #define DBL_DIG 15 /* # of decimal digits of precision */ #define DBL_EPSILON 2.2204460492503131e-016 /* smallest such that 1.0+DBL_EPSILON != 1.0 */ #define DBL_MANT_DIG 53 /* # of bits in mantissa */ #define DBL_MAX 1.7976931348623158e+308 /* max value */ #define DBL_MAX_10_EXP 308 /* max decimal exponent */ #define DBL_MAX_EXP 1024 /* max binary exponent */ #define DBL_MIN 2.2250738585072014e-308 /* min positive value */ #define DBL_MIN_10_EXP (-307) /* min decimal exponent */ #define DBL_MIN_EXP (-1021) /* min binary exponent */ #define _DBL_RADIX 2 /* exponent radix */ #define _DBL_ROUNDS 1 /* addition rounding: near */ #define FLT_DIG 6 /* # of decimal digits of precision */ #define FLT_EPSILON 1.192092896e-07F /* smallest such that 1.0+FLT_EPSILON != 1.0 */ #define FLT_GUARD 0 #define FLT_MANT_DIG 24 /* # of bits in mantissa */ #define FLT_MAX 3.402823466e+38F /* max value */ #define FLT_MAX_10_EXP 38 /* max decimal exponent */ #define FLT_MAX_EXP 128 /* max binary exponent */ #define FLT_MIN 1.175494351e-38F /* min positive value */ #define FLT_MIN_10_EXP (-37) /* min decimal exponent */ #define FLT_MIN_EXP (-125) /* min binary exponent */ #define FLT_NORMALIZE 0 #define FLT_RADIX 2 /* exponent radix */ #define FLT_ROUNDS 1 /* addition rounding: near */ ...

FireBurn 2013-09-06

打赏
举报

引用 4 楼 nice_cxf 的回复:

有关浮点数比较，太多的一知半解的结论了 lz这个实验是没问题的，但是实际也推翻了书中给的代码，因为这两个数之差实际是大于0.0001的： float d1, d2, d3, d4; d1 = 194268.02; d2 = 194268; d4 = 0.02; d3=d1-d2-d4; 这个时候d3的绝对值是大于0.0001，因此就算你用书上给的这个代码，依然是错的

是的，如果机械套用原书的那个代码，而不根据实际情况调整，那么还是会掉入陷阱。所以原书对于fTemp变量还有一个注释,是我偷懒没打

。


float fTemp = 0.0001f; //精确范围

nice_cxf 2013-09-06

打赏
举报

有关浮点数比较，太多的一知半解的结论了 lz这个实验是没问题的，但是实际也推翻了书中给的代码，因为这两个数之差实际是大于0.0001的： float d1, d2, d3, d4; d1 = 194268.02; d2 = 194268; d4 = 0.02; d3=d1-d2-d4; 这个时候d3的绝对值是大于0.0001，因此就算你用书上给的这个代码，依然是错的