半精度浮点数

半精度浮点数 是一种被计算机使用的二进制浮点数据类型。半精度浮点数使用2个字节（16位）来存储。

在IEEE 754-2008中，它被称作binary16。这种数据类型只适合存储对精度要求不高的数字，不适合用来计算。

半精度浮点数是一种较新的浮点类型。英伟达在2002年初发布的Cg语言中称它作 half 类型，并首次在2002年末发布的GeForce FX中实现。^[1]ILM 当时正在寻找一种拥有高动态范围，且不需过多消耗硬盘和内存，并且能像单精度浮点数和双精度浮点数那样被用来进行浮点计算的图像格式。^[2]由SGI的John Airey领导的硬件加速可编程着色小组在1997年发明了作为'bali'设计工作的一部分的s10e5数据类型，曾在SIGGRAPH 2000年的论文^[3]中介绍过。（见章节 4.3）并且在美国专利7518615^[4]中被进一步记录。

半精度浮点数可在OpenEXR， JPEG XR， OpenGL， Cg语言、D3DX等计算机图形环境中使用。其与8位或16位整数相比具有动态范围高的优点，可以使高对比度图片中更多细节得以保留。与单精度浮点数相比，它的优点是只需要一半的存储空间和带宽（但是会牺牲精度和数值范围）。^[2]

定义

IEEE 754 标准指定了一个 binary16 要有如下的格式：

Sign bit（符号位）： 1 bit
Exponent width（指数位宽）： 5 bits
Significand precision（尾数精度）： 11 bits （有10位被显式存储）

按如下顺序排列：

除非指数位全是0，否则就会假定隐藏的起始位是1。因此只有10位尾数在内存中被显示出来，而总精度是11位。据IEEE 754的说法，虽然尾数只有10位，但是尾数精度是11位的(log₁₀(2¹¹) ≈ 3.311 十进制数).

例子

0 01111 0000000000 = 1
0 01111 0000000001 = 1 + 2⁻¹⁰ = 1.0009765625 （1之后的最接近的数）
1 10000 0000000000 = −2

0 11110 1111111111 = 65504  （max half precision）

0 00001 0000000000 = 2⁻¹⁴ ≈ 6.10352 × 10⁻⁵ （最小正指数）
0 00000 1111111111 = 2⁻¹⁴ - 2⁻²⁴ ≈ 6.09756 × 10⁻⁵ （最大尾数）
0 00000 0000000001 = 2⁻²⁴ ≈ 5.96046 × 10⁻⁸ （最小正尾数）

0 00000 0000000000 = 0
1 00000 0000000000 = −0

0 11111 0000000000 = infinity
1 11111 0000000000 = −infinity

0 01101 0101010101 = 0.333251953125 ≈ 1/3

由于尾数的位数是奇数，所以默认情况下，1/3 这类的数会像双精度浮点数一样四舍五入。

参阅

IEEE 754： IEEE二进制浮点数算数标准（IEEE 754）
ISO/IEC 10967， Language Independent Arithmetic
Primitive data type
RGBE image format

引用

^ Nvidia
^ ^2.0 ^2.1 存档副本. [2015-10-01]. （原始内容存档于2013-05-08）.
^ 存档副本 (PDF). [2015-10-01]. （原始内容存档 (PDF)于2017-08-12）.
^ 存档副本. [2015-10-01]. （原始内容存档于2015-09-24）.

外部链接

Minifloats（页面存档备份，存于互联网档案馆）（in Survey of Floating-Point Formats）
OpenEXR site（页面存档备份，存于互联网档案馆）
Half precision constants（页面存档备份，存于互联网档案馆） from D3DX
OpenGL treatment of half precision
Fast Half Float Conversions^{[失效链接]}
Analog devices variant（页面存档备份，存于互联网档案馆）（four-bit exponent）
C source code to convert between IEEE double, single, and half precision can be found here（页面存档备份，存于互联网档案馆）
C# source code implementing a half-precision floating-point data type can be found here^{[永久失效链接]}
Java source code for half-precision floating-point conversion
Half precision floating point for one of the extended GCC features（页面存档备份，存于互联网档案馆）
[1]（页面存档备份，存于互联网档案馆）

[1] Nvidia

[exr-2] 2.0 ^2.1 存档副本. [2015-10-01]. （原始内容存档于2013-05-08）.

[sgi-3] 存档副本 (PDF). [2015-10-01]. （原始内容存档 (PDF)于2017-08-12）.

[patent-4] 存档副本. [2015-10-01]. （原始内容存档于2015-09-24）.

[1]

[2]

[3]

[4]

查论编数据类型
无解释的	位元字节三进制位三进制字节字
数值	整数符号性有符号数无符号数定点数浮点数双精度扩展精度（英语：Extended precision）半精度迷你浮点数（英语：Minifloat）八倍精度（英语：Octuple-precision floating-point format）四倍精度（英语：Quadruple-precision floating-point format）单精度有理数（英语：Rational data type）复数（英语：Complex data type）任意精度算术区间（英语：interval arithmetic）
文本	字符字符串
指针	记忆体位址物理地址虚拟地址参照
组合	代数数据类型广义（英语：generalized algebraic data type）数组关联数组类串列对象元对象可选类型积类型（英语：Product type）记录集合联合体标签
其他	布尔型底层类别（英语：Bottom type）容器枚举类型异常头等函数不透明数据类型（英语：Opaque data type）递归数据类型信号标字串流顶类型（英语：Top type）类型类类型系统单位类型（英语：Unit type） Void 不定型别
相关议题	抽象资料型别数据结构界面种类（英语：Kind (type theory)）元类对象类型（英语：Boxing (computer programming)）原始型别与复合型别协议子类型 C++模板型别构造器参数多态