IEEE754浮点数在机器中的格式

    技术2022-05-20  50

    本文也许并不完全正确严谨,请谨慎参考

     

    IEEE-754 Floating-Point Conversion from Floating-Point to Hexadecimal:

    http://babbage.cs.qc.edu/IEEE-754/Decimal.html

     

    IEEE754代码

     

    一:历史二:预备知识三:将浮点格式转换成十进制数四:将十进制数转换成浮点格式(real*4)五:为什么要有指数偏移六:浮点数的有效数字和数值范围的区别一:前言    为便于软件的移植,浮点数的表示格式应该有统一标准(定义)。1985年IEEE(Institute of Electrical and Electronics Engineers)提出了IEEE754标准。

     

        Intel 计划给最早的 8086 增加浮点运算单元 (FPU) 时,他们请来了最好的数值分析专家来为 8087 FPU 设计浮点数格式,这位专家接着又请来了该领域的另外两位专家,这三个人 (Kahn, coonan 与 Stone) 设计了 Intel 的浮点格式,即 KCS 浮点数标准。这个标准实在太出色了,因此 IEEE 组织将 KCS 选作为 IEEE 浮点数格式的基础,即 IEEE 标准 754。二:预备知识-----------------------------------------------------------------------值     存储为                     指数偏移量real*4   1位符号位(s)、8位指数(e),23位尾数(m,共32位)  127(7FH)real*8   1位符号位(s)、11位指数(e),52位尾数(m,共64位) 1023(3FFH)real*10  1位符号位(s)、15位指数(e),64位尾数(m,共80位) 16383(3FFFH)-----------------------------------------------------------------------计算公式:V=(-1)^s*2^E*M当e(各位)为全'0'时,E=1-(2^(e(位数)-1)-1),;M=m。如:real*4是8位,E=1-(2^(8-1)-1)=1-127=-126即,在real*4时:V=(-1)^s*2^(-126)*m在real*8时:V=(-1)^s*2^(-1022)*m当e(各位)不为全'0'且不为全'1'时,E=e(值)-(2^(e(位数)-1)-1);M=1+m。即,在real*4时:V=(-1)^s*2^(e(值)-127)*(1+m)在real*8时:V=(-1)^s*2^(e(值)-1023)*(1+m)三:将浮点格式转换成十进制数[例3.1]:0x00280000(real*4)转换成二进制00000000001010000000000000000000符号位 指数部分(8位) 尾数部分0 00000000 01010000000000000000000符号位=0;因指数部分=0,则:尾数部分M为m:0.01010000000000000000000=0.3125该浮点数的十进制为:(-1)^0*2^(-126)*0.3125=3.6734198463196484624023016788195e-39[例3.2]:0xC04E000000000000(real*8)转换成二进制1100000001001110000000000000000000000000000000000000000000000000符号位 指数部分(11位) 尾数部分1 10000000100 1110000000000000000000000000000000000000000000000000符号位=1;指数=1028,因指数部分不为全'0'且不为全'1',则:尾数部分M为1+m:1.1110000000000000000000000000000000000000000000000000=1.875该浮点数的十进制为:(-1)^1*2^(1028-1023)*1.875=-60四:将十进制数转换成浮点格式(real*4)[例4.1]:26.0十进制26.0转换成二进制11010.0规格化二进制数1.10100*2^4计算指数4+127=131符号位 指数部分 尾数部分0 10000011 10100000000000000000000以单精度(real*4)浮点格式存储该数0100 0001 1101 0000 0000 0000 0000 00000x41D0 0000[例4.2]:0.75十进制0.75转换成二进制0.11规格化二进制数1.1*2^-1计算指数-1+127=126符号位 指数部分 尾数部分0 01111110 10000000000000000000000以单精度(real*4)浮点格式存储该数0011 1111 0100 0000 0000 0000 0000 00000x3F40 0000[例4.3]:-2.5十进制-2.5转换成二进制-10.1规格化二进制数-1.01*2^1计算指数1+127=128符号位 指数部分 尾数部分1 10000000 01000000000000000000000以单精度(real*4)浮点格式存储该数1100 0000 0010 0000 0000 0000 0000 00000xC020 0000

     

    五、为什么要有指数偏移

     

    单精度浮点数

    IEEE 754 标准所定义的单精度浮点数的长度为 32 位,按位域可划分为:符号位、阶码位与尾数位,如下:

    31----------------------22---------------------------------------------------------0 | | X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X | |-------------------| |----------------------------------------------------------| 符号 阶码 尾数

    符号位取 0 表示正数,取 1 表示负数。

    阶码位是 8 位,这里有一点小门道需要注意,那就是2^n的指数 n 并不能直接当作阶码来处理,需要将其与 127 (0x7f) 相加才可得到 2^n 的阶码表示。

    尾数的位域长度在图示中是 23 位,但实际上却是 24 位,这个位是“不可见”的,其值固定为 1,这也就是说 IEEE 754 标准所定义的浮点数,其有效数字是介于 1 与 2 之间的小数。

    可以尝试写一下 1.0 这个数的二进制单精度浮点格式,这有助于更好地理解单精度浮点数格式的位域分布。

    1.0 的二进制单精度浮点格式:0 0111 1111 000 0000 0000 0000 0000 0000

    值得注意的一个问题是:书上说之所以要将指数加上 127 来得到阶码,是为了简化浮点数的比较运算,这一点我没有体会出来。但是通过 127 这个偏移量 (移码),可以区分出指数的正负。阶码为 127 时表示指数为 0;阶码小于 127 时表示负指数;阶码大于 127 时表示正指数。

    第二个值得思考的问题是:使用 24 位尾数,大概可以得到 6.5 个十进制数字的精度,其中的“半个”数字由 FPU 的好意而产生的一个随机数字,这个数字通常接近 5 (四舍五入?)。

    第三个问题是我经常要碰到的:IEEE 754 标准所定义的单精度浮点数所表示的数的范围是多少?书上给出的答案是大约为 2+-128 或者大约 10+-38。这个比较好理解,因为尾数的最大值是接近 2,而指数的范围是 [-127, 127],那么这个范围就可以表示为2*2+-127

    双精度浮点数

    相对于单精度浮点数格式,双精度的阶码变为 11 位,移码变为为 1,023,尾数变为 53 位 (包含那个固定为 1 的隐含位)。这样,再加上符号位,双精度浮点数的长度为 64 位,提供了大约 10+-308 的动态范围以及 14.5 个数字的精度。

    扩展精度浮点数

    为了追求更高的浮点运算精度,Intel 又搞出来扩展精度格式。扩展精度的浮点数长度为 80 个位,相对于双精度浮点数所多出来的 16 个位,有 12 位加入到尾数位中,有 4 位加入到阶码位中。

    据说 Intel IA32 架构的的 FPU都是采用扩展精度浮点数进行运算的。当程序调入单、双精度浮点数时,FPU 将它们转为扩展精度,运算结束后再将结果转成 (四舍五入) 对应的单、双精度浮点数

     

     

    六:浮点数的有效数字和数值范围的区别

    有效数字指能精确表达的位数:尾数决定精度

    数值范围指能表达数值的范围:阶码决定范围

    例如: 123456789.9999 有效表达为7位,则1234567后面89.9999为随机值。但是整个数值仍在表达范围内,只是并不精确。

     

    浮点数7位有效数字。双精度数16位有效数字。浮点数取值范围:负数取值范围为 -3.4028235E+38 到 -1.401298E-45,正数取值范围为 1.401298E-45 到 3.4028235E+38。双精度数取值范围:负值取值范围-1.79769313486231570E+308 到 -4.94065645841246544E-324,正值取值范围为 4.94065645841246544E-324 到 1.79769313486231570E+308。C/C++中浮点数的表示遵循IEEE 754标准。一个浮点数由三部分组成:符号位S、指数部分E(阶码)以及尾数部分M(如下)。  FloatingS--------E-------M1位-----8位-----23位  DoubleS--------E-------M1位-----11位----52位十进制数的换算计算公式为(n^m表示n的m次幂,B表示前面的数字是二进制): S * 2^(E-127) * (1.M)B浮点数的精度取决于尾数部分。尾数部分的位数越多,能够表示的有效数字越多。 单精度数的尾数用23位存储,加上默认的小数点前的1位1,2^(23+1) = 16777216。因为 10^7 < 16777216 < 10^8,所以说单精度浮点数的有效位数是7位。 (注:此处存疑,我感觉小数点前的1,因为固定不变,不应算入有效位,有效数的位数应该在6~7)双精度的尾数用52位存储,2^(52+1) = 9007199254740992,10^16 < 9007199254740992 < 10^17,所以双精度的有效位数是16位。另外:如果你在PI值的有效位后增加数字的话,结果是不会变化的,由于PI值是以常数方式赋值,可以在常数后面加个'f',如PI = 3.1415926f;否则编译器会先把常数当作double类型,然后再截断后面的值变为浮点值,这样的话,就有可能PI的值会有不同,造成你看到的现象。

     


    最新回复(0)