IEEE754浮点数在机器中的格式

技术2022-05-20 66

本文也许并不完全正确严谨，请谨慎参考

IEEE-754 Floating-Point Conversion from Floating-Point to Hexadecimal：

http://babbage.cs.qc.edu/IEEE-754/Decimal.html

IEEE754代码

一：历史二：预备知识三：将浮点格式转换成十进制数四：将十进制数转换成浮点格式（real*4）五：为什么要有指数偏移六：浮点数的有效数字和数值范围的区别一：前言为便于软件的移植，浮点数的表示格式应该有统一标准（定义）。1985年IEEE（Institute of Electrical and Electronics Engineers）提出了IEEE754标准。

Intel 计划给最早的 8086 增加浮点运算单元 (FPU) 时，他们请来了最好的数值分析专家来为 8087 FPU 设计浮点数格式，这位专家接着又请来了该领域的另外两位专家，这三个人 (Kahn, coonan 与 Stone) 设计了 Intel 的浮点格式，即 KCS 浮点数标准。这个标准实在太出色了，因此 IEEE 组织将 KCS 选作为 IEEE 浮点数格式的基础，即 IEEE 标准 754。二：预备知识-----------------------------------------------------------------------值　　　　存储为　　　　　　　　　　　　　　　　　　　　指数偏移量real*4 　　1位符号位(s)、8位指数(e)，23位尾数(m,共32位) 　127(7FH)real*8 　　1位符号位(s)、11位指数(e)，52位尾数(m,共64位)　1023(3FFH)real*10　　1位符号位(s)、15位指数(e)，64位尾数(m,共80位)　16383(3FFFH)-----------------------------------------------------------------------计算公式：V=(-1)^s*2^E*M当e（各位）为全'0'时，E=1-(2^(e（位数）-1)-1)，；M=m。如：real*4是8位，E=1-(2^(8-1)-1)=1-127=-126即，在real*4时：V=(-1)^s*2^(-126)*m在real*8时：V=(-1)^s*2^(-1022)*m当e（各位）不为全'0'且不为全'1'时，E=e（值）-(2^(e（位数）-1)-1)；M=1+m。即，在real*4时：V=(-1)^s*2^(e（值）-127)*(1+m)在real*8时：V=(-1)^s*2^(e（值）-1023)*(1+m)三：将浮点格式转换成十进制数[例3.1]：0x00280000（real*4）转换成二进制00000000001010000000000000000000符号位指数部分（8位）尾数部分0 00000000 01010000000000000000000符号位=0；因指数部分=0，则：尾数部分M为m：0.01010000000000000000000=0.3125该浮点数的十进制为：(-1)^0*2^(-126)*0.3125=3.6734198463196484624023016788195e-39[例3.2]：0xC04E000000000000（real*8）转换成二进制1100000001001110000000000000000000000000000000000000000000000000符号位指数部分（11位）尾数部分1 10000000100 1110000000000000000000000000000000000000000000000000符号位=1；指数=1028，因指数部分不为全'0'且不为全'1'，则：尾数部分M为1+m：1.1110000000000000000000000000000000000000000000000000=1.875该浮点数的十进制为：(-1)^1*2^(1028-1023)*1.875=-60四：将十进制数转换成浮点格式（real*4）[例4.1]：26.0十进制26.0转换成二进制11010.0规格化二进制数1.10100*2^4计算指数4+127=131符号位指数部分尾数部分0 10000011 10100000000000000000000以单精度（real*4）浮点格式存储该数0100 0001 1101 0000 0000 0000 0000 00000x41D0 0000[例4.2]：0.75十进制0.75转换成二进制0.11规格化二进制数1.1*2^-1计算指数-1+127=126符号位指数部分尾数部分0 01111110 10000000000000000000000以单精度（real*4）浮点格式存储该数0011 1111 0100 0000 0000 0000 0000 00000x3F40 0000[例4.3]：-2.5十进制-2.5转换成二进制-10.1规格化二进制数-1.01*2^1计算指数1+127=128符号位指数部分尾数部分1 10000000 01000000000000000000000以单精度（real*4）浮点格式存储该数1100 0000 0010 0000 0000 0000 0000 00000xC020 0000

五、为什么要有指数偏移

单精度浮点数

IEEE 754 标准所定义的单精度浮点数的长度为 32 位，按位域可划分为：符号位、阶码位与尾数位，如下：

31----------------------22---------------------------------------------------------0 | | X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X | |-------------------| |----------------------------------------------------------| 符号阶码尾数

符号位取 0 表示正数，取 1 表示负数。

阶码位是 8 位，这里有一点小门道需要注意，那就是2^n的指数 n 并不能直接当作阶码来处理，需要将其与 127 (0x7f) 相加才可得到 2^n 的阶码表示。

尾数的位域长度在图示中是 23 位，但实际上却是 24 位，这个位是“不可见”的，其值固定为 1，这也就是说 IEEE 754 标准所定义的浮点数，其有效数字是介于 1 与 2 之间的小数。

可以尝试写一下 1.0 这个数的二进制单精度浮点格式，这有助于更好地理解单精度浮点数格式的位域分布。

1.0 的二进制单精度浮点格式：0 0111 1111 000 0000 0000 0000 0000 0000

值得注意的一个问题是：书上说之所以要将指数加上 127 来得到阶码，是为了简化浮点数的比较运算，这一点我没有体会出来。但是通过 127 这个偏移量 (移码)，可以区分出指数的正负。阶码为 127 时表示指数为 0；阶码小于 127 时表示负指数；阶码大于 127 时表示正指数。

第二个值得思考的问题是：使用 24 位尾数，大概可以得到 6.5 个十进制数字的精度，其中的“半个”数字由 FPU 的好意而产生的一个随机数字，这个数字通常接近 5 (四舍五入？)。

第三个问题是我经常要碰到的：IEEE 754 标准所定义的单精度浮点数所表示的数的范围是多少？书上给出的答案是大约为 2^+-128 或者大约 10^+-38。这个比较好理解，因为尾数的最大值是接近 2，而指数的范围是 [-127, 127]，那么这个范围就可以表示为2*2^+-127。

双精度浮点数

相对于单精度浮点数格式，双精度的阶码变为 11 位，移码变为为 1,023，尾数变为 53 位 (包含那个固定为 1 的隐含位)。这样，再加上符号位，双精度浮点数的长度为 64 位，提供了大约 10^+-308 的动态范围以及 14.5 个数字的精度。

扩展精度浮点数

为了追求更高的浮点运算精度，Intel 又搞出来扩展精度格式。扩展精度的浮点数长度为 80 个位，相对于双精度浮点数所多出来的 16 个位，有 12 位加入到尾数位中，有 4 位加入到阶码位中。

据说 Intel IA32 架构的的 FPU都是采用扩展精度浮点数进行运算的。当程序调入单、双精度浮点数时，FPU 将它们转为扩展精度，运算结束后再将结果转成 (四舍五入) 对应的单、双精度浮点数

六：浮点数的有效数字和数值范围的区别

有效数字指能精确表达的位数：尾数决定精度

数值范围指能表达数值的范围：阶码决定范围

例如： 123456789.9999 有效表达为7位，则1234567后面89.9999为随机值。但是整个数值仍在表达范围内，只是并不精确。

浮点数7位有效数字。双精度数16位有效数字。浮点数取值范围：负数取值范围为 -3.4028235E+38 到 -1.401298E-45，正数取值范围为 1.401298E-45 到 3.4028235E+38。双精度数取值范围：负值取值范围-1.79769313486231570E+308 到 -4.94065645841246544E-324，正值取值范围为 4.94065645841246544E-324 到 1.79769313486231570E+308。C/C++中浮点数的表示遵循IEEE 754标准。一个浮点数由三部分组成：符号位S、指数部分E（阶码）以及尾数部分M（如下）。 FloatingS--------E-------M1位-----8位-----23位 DoubleS--------E-------M1位-----11位----52位十进制数的换算计算公式为（n^m表示n的m次幂，B表示前面的数字是二进制）： S * 2^(E-127) * (1.M)B浮点数的精度取决于尾数部分。尾数部分的位数越多，能够表示的有效数字越多。单精度数的尾数用23位存储，加上默认的小数点前的1位1，2^(23+1) = 16777216。因为 10^7 < 16777216 < 10^8，所以说单精度浮点数的有效位数是7位。（注：此处存疑，我感觉小数点前的1，因为固定不变，不应算入有效位，有效数的位数应该在6～7）双精度的尾数用52位存储，2^(52+1) = 9007199254740992，10^16 < 9007199254740992 < 10^17，所以双精度的有效位数是16位。另外：如果你在PI值的有效位后增加数字的话，结果是不会变化的，由于PI值是以常数方式赋值，可以在常数后面加个'f'，如PI = 3.1415926f;否则编译器会先把常数当作double类型，然后再截断后面的值变为浮点值，这样的话，就有可能PI的值会有不同，造成你看到的现象。

专利

最新回复(0)