浮点数运算

在電腦科學中，浮點數運算（Floating-point arithmetic）是一種用浮點（英語：floating point，縮寫為FP）方式表示實數的運算方式。浮點是一種對於實數的近似值數值表現法，由一个有效數字（即尾数）加上冪數來表示，通常是乘以某个基数的整数次指數得到。以這種表示法表示的數值，稱為浮点數（floating-point number）。浮點數運算运算通常伴随着因为无法精确表示而进行的近似或舍入。

計算機使用浮點數運算的主因，在於電腦使用二進位制的運算，例如：4÷2=2，4=100₍₂₎、2=010₍₂₎，在二進位相當於退一位數，則1.0÷2=0.5=0.1₍₂₎，也就是 ${\frac {1}{2}}$ 。依此類推二進位的0.01₍₂₎就是十進位 ${\frac {1}{2^{2}}}$ = ${\frac {1}{4}}$ =0.25。由於十進位制無法準確換算成二進位制的部分小數，如0.1，因此只能使用近似值的方式表達。

这种表示方法类似于基数为10的科学记数法。在計算機上，通常使用2為基數的幂數來表示，一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，可选择一个基數b（记数系统的基）和精度p（即使用多少位来存储），m（即尾數（英语：Significand））是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作正规化的，有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的，e是指数。

這種表示法的設計，來自於對於值的表現範圍，與精密度之間的取捨：可以在某个固定长度的存储空间内表示出某個實數的近似值，例如：一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和−∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

其中，无穷大，可表示为inf，在内存中的值是阶码为全1，尾数全0。而NaN在内存中的值则是阶码全1，尾数不全0。

计算机的浮点数

浮点指的是带有小数的数值，浮点运算即是小数的四则运算，常用来测量电脑运算速度。大部份计算机采用二進制（b=2）的表示方法。位（bit）是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数（通常用软件实现）。

浮点数的標準

在電腦使用的浮点数被电气电子工程师协会（IEEE）規範化為IEEE 754。

举例

π的值可以表示为π = 3.1415926...₁₀（十进制）。当在一个支持17位尾数的计算机中表示时，它会变为0.11001001000011111 × 2²。

浮點數運算

為了方便呈現，容易閱讀，以下的例子會用十進制，有效位數7位數的浮點數，也就是IEEE 754 decimal32格式，其原理不會隨進制或是有效位數而變。此處的s表示尾數（有效數字），而e表示指數。

加減法

處理浮點數加法的簡單作法是將二個浮點數調整到有相同的指數。在以下例子中，第二個數的小數點左移了三位，使二者的指數相同，之後即可進行一般的加法運算：

  123456.7 = 1.234567 × 10^5
  101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5

  因此
  123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)
                      = (1.234567 × 10^5) + (0.001017654 × 10^5)
                      = (1.234567 + 0.001017654) × 10^5
                      =  1.235584654 × 10^5

若用e和s來表示

  e=5;  s=1.234567     (123456.7)
+ e=2;  s=1.017654     (101.7654)

  e=5;  s=1.234567
+ e=5;  s=0.001017654  (移位後)
--------------------
  e=5;  s=1.235584654  (實際的和：123558.4654)

這是真實的結果，二個數字真正的和，之後會再四捨五入到七位有效位數，若有需要的話，會再進行正規化，其結果為

  e=5;  s=1.235585    (最後答案：123558.5)

加數的最低三位數（654）沒有出現在結果中，這稱為捨入誤差。在一些極端的例子中，二個浮點數的和可能和其中的被加數或是加數相等：

  e=5;  s=1.234567
+ e=−3; s=9.876543

  e=5;  s=1.234567
+ e=5;  s=0.00000009876543 (移位後)
----------------------
  e=5;  s=1.23456709876543 (真正的和)
  e=5;  s=1.234567         (四捨五入及正規化後)

在上述的例子中，為了要有正確的四捨五入結果，在二數指數差距很大時，要增加許多位數才有正確的結果。不過，在二位制的加減法中，利用一個guard位元、一個rounding位元以及一個額外的sticky位元，就可以有正確的結果^[1]^[2]^:218–220。

另一個失去有效數字的情形出現在二個幾乎相等的數字相減時。在以下的例子中，e = 5; s = 1.234571和e = 5; s = 1.234567是有理數123457.1467和123456.659的近似值。

  e=5;  s=1.234571
− e=5;  s=1.234567
----------------
  e=5;  s=0.000004
  e=−1; s=4.000000 (四捨五入及正規化後)

浮點數的差可以精確的計算，如同Sterbenz引理（英语：Sterbenz lemma）所說明的，就算是因為漸進式下溢位（英语：gradual underflow）而出現下溢位也是一樣。不過，原來二個數的差是e = −1; s = 4.877000，和浮點數計算結果e = −1; s = 4.000000之間差了超過20%。在極端的例子中，甚至所有的有效數字都會不見^[1]^[3]。上述的灾难性抵消說明了，假設計算結果的每一位數都有意義，這個想法很危險。這類誤差的處理及修正是數值分析中的主題之一。

乘除法

若要進行乘法，將有效數字相乘，指數相加，再進行四捨五入及正規化即可。

  e=3;  s=4.734612
× e=5;  s=5.417242
-----------------------
  e=8;  s=25.648538980104 (真實乘積)
  e=8;  s=25.64854        (四捨五入後)
  e=9;  s=2.564854        (正規化)

而除法會將被除數和除數的有效數字相除，二者的指數相減，再進行四捨五入及正規化。

乘除法不會有抵消或是某一數字被吸收的問題，不過仍會出現一些小誤差，若連續運算，誤差會變大^[1]。實務上，要進行上述運算的數位邏輯可能會相當的複雜（像是布斯乘法算法以及除法器）。

准确性

由于浮点数不能表达所有实数，浮点运算与相应的数学运算有所差异，有时此差异极为显著。

比如，二进制浮点数不能表达0.1和0.01，0.1的平方既不是准确的0.01，也不是最接近0.01的可表达的数。单精度（24比特）浮点数表示0.1的结果为 $e=-4$ , $s=110011001100110011001101_{(2)}$ ，即

0.100000001490116119384765625

此数的平方是

0.010000000298023226097399174250313080847263336181640625

但最接近0.01的可表达的数是

0.009999999776482582092285156250

浮点数也不能表达圆周率 $\pi$ ，所以 $\tan {\frac {\pi }{2}}$ 不等于正无穷，也不会溢出。下面的C语言代码

double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);

的计算结果为16331239353195370.0，如果用单精度浮点数，则结果为−22877332.0。同样的， $\sin \pi \neq 0$ 。

由于浮点数计算过程中丢失了精度，浮点运算的性质与数学运算有所不同。浮点加法和乘法不符合结合律和分配律。

事故

奔騰早期的60-100MHz P5版本在浮點運算單元有一個問題，在極少數情況下，會導致除法運算的精確度降低。這個缺陷於1994年被發現，變成如今廣為人知的奔腾浮点除错误，同時這一事件導致英特爾陷入巨大的窘態，建立召回計畫來回收有問題的處理器。

參考資料

^ ^1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)
^ Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.
^ 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[Goldberg_1991-1] 1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)

[Patterson-Hennessy_2014-2] Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.

[Sierra_1962-3] 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[1]

[2]

[3]

查论编数据类型
无解释的	位元字节三进制位三进制字节字
数值	整数符号性有符号数无符号数定点数浮点数双精度扩展精度（英语：Extended precision）半精度迷你浮点数（英语：Minifloat）八倍精度（英语：Octuple-precision floating-point format）四倍精度（英语：Quadruple-precision floating-point format）单精度有理数（英语：Rational data type）复数（英语：Complex data type）任意精度算术区间（英语：interval arithmetic）
文本	字符字符串
指针	記憶體位址物理地址虚拟地址參照
组合	代数数据类型广义（英语：generalized algebraic data type）数组关联数组类串列对象元对象可选类型积类型（英语：Product type）记录集合联合体标签
其他	布尔型底层类别（英语：Bottom type）容器枚举类型异常头等函数不透明数据类型（英语：Opaque data type）递归数据类型信号标字串流顶类型（英语：Top type）类型类類型系統单位类型（英语：Unit type） Void 不定型別
相关议题	抽象資料型別数据结构介面种类（英语：Kind (type theory)）元类对象类型（英语：Boxing (computer programming)）原始型別与複合型別协议子类型 C++模板型別構造器参数多态

查论编线性代数的相关概念
重要概念	标量向量向量空间向量子空间线性生成空间线性映射投影線性無關线性组合基標記列空间行空间零空间对偶空间正交特征值特征向量数量积内积空间点乘轉置格拉姆-施密特正交化线性方程组克萊姆法則
矩阵	矩阵矩陣乘法矩阵分解行列式子式和余子式矩阵的秩克萊姆法則逆矩阵高斯消去法线性变换分块矩阵
数值线性代数	浮点数数值稳定性基础线性代数程序集稀疏矩阵

计算机的浮点数

浮点数的標準

举例

浮點數運算

加減法

乘除法

准确性

事故

相關條目

參考資料