信賴區間

在統計學中，一個機率樣本的信賴區間（英語：confidence interval，CI），是對產生這個樣本的母體的母數分布（parametric distribution）中的某一個未知母數值，以區間形式給出的估計。相對於點估計（point estimation）用一個樣本統計量來估計母數值，信賴區間還蘊含了估計的精確度的資訊。在現代機器學習中越來越常用的信賴集合（confidence set）概念是信賴區間在多維分析的推廣^[1]。

信賴區間在頻率學派中間使用，其在貝氏統計中的對應概念是可信區間（英語：credible interval）（credible interval）。兩者建立在不同的概念基礎上的，貝氏統計將分布的位置母數視為隨機變數，並對給定觀測到的數據之後未知母數的事後分布進行描述，故無論對隨機樣本還是已觀測數據，構造出來的可信區間，其可信水準都是一個合法的機率^[2]；而信賴區間的信心水準，只在考慮隨機樣本時可以被理解為一個機率。

定義

對隨機樣本的定義

定義信賴區間最清晰的方式是從一個隨機樣本出發。考慮一個一維隨機變數 ${\cal {X}}$ 服從分布 ${\cal {F}}$ ，又假設 $\theta$ 是 ${\cal {F}}$ 的母數之一。假設我們的數據採集計劃將要獨立地抽樣 $n$ 次，得到一個隨機樣本 $\{X_{1},\ldots ,X_{n}\}$ ，注意這裡所有的 $X_{i}$ 都是隨機的，我們是在討論一個尚未被觀測的數據集。如果存在統計量（統計量定義為樣本 $X=\{X_{1},\ldots ,X_{n}\}$ 的一個函數，且不得依賴於任何未知母數） $u(X_{1},\ldots ,X_{n}),v(X_{1},\ldots ,X_{n})$ 滿足 $u(X_{1},\ldots ,X_{n})<v(X_{1},\ldots ,X_{n})$ 使得：

\mathbb {P} \left(\theta \in \left(u(X_{1},\ldots ,X_{n}),v(X_{1},\ldots ,X_{n})\right)\right)=1-\alpha

則稱 $\left(u(X_{1},\ldots ,X_{n}),v(X_{1},\ldots ,X_{n})\right)$ 為一個用於估計母數 $\theta$ 的 $1-\alpha$ 信賴區間，其中的， $1-\alpha$ 稱為信心水準， $\alpha$ 在假說檢定中也稱為顯著水準。

對觀測到的數據的定義

接續隨機樣本版本的定義，現在，對於隨機變數 ${\cal {X}}$ 的一個已經觀測到的樣本 $\{x_{1},\ldots ,x_{n}\}$ ，注意這裡用小寫x表記的 $x_{i}$ 都是已經觀測到的數字，沒有隨機性了，定義基於數據的 $1-\alpha$ 信賴區間為：

\left(u(x_{1},\ldots ,x_{n}),v(x_{1},\ldots ,x_{n})\right)

注意，信賴區間可以是單尾或者雙尾的，單尾的信賴區間中設定 $u=-\infty$ 或者 $v=+\infty$ ，具體前者還是後者取決於所構造的信賴區間的方向。

初學者常犯一個概念性錯誤，是將基於觀測到的數據所同樣構造的信賴區間的信心水準，誤認為是它包含真實未知母數的真實值的機率。正確的理解是：信心水準只有在描述這個同樣構造信賴區間的過程（或稱方法）的意義下才能被視為一個機率。一個基於已經觀測到的數據所構造出來的信賴區間，其兩個端點已經不再具有隨機性，因此，類似的構造的間隔將會包含真正的值的比例在所有值中，其包含未知母數的真實值的機率是0或者1，但我們不能知道是前者還是後者^[3]。

例子

例1：常態分布，已知母體變異數 $\sigma ^{2}$

$1-\alpha$ 水準的常態信賴區間為：

\left({\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}},{\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\right)

(雙尾)

\left(-\infty ,{\bar {x}}+z_{\alpha }{\frac {\sigma }{\sqrt {n}}}\right)

(單尾)

\left({\bar {x}}-z_{\alpha }{\frac {\sigma }{\sqrt {n}}},+\infty \right)

(單尾)

以下為方便起見，只列出雙尾信賴區間的例子，且區間中用" $\pm$ "進行簡記：

例2：常態分布，未知母體變異數 $\sigma ^{2}$

$1-\alpha$ 水準的雙尾常態信賴區間為：

\left({\bar {x}}\pm t_{n-1;\alpha /2}{\frac {s}{\sqrt {n}}}\right)

例3：兩個獨立常態樣本

設有兩個獨立常態樣本 $x$ 和 $y$ ，樣本大小為 $m$ 和 $n$ ，估計母體均值之差 $\mu _{1}-\mu _{2}$ ，假設母體變異數未知但相等： $\sigma _{1}=\sigma _{2}$ (如果未知且不等就要應用Welch公式（英語：Welch's t-test）來確定t分布的自由度) $1-\alpha$ 水準的雙尾常態信賴區間為：

\left({\bar {x}}-{\bar {y}}\pm t_{m+n-2;\alpha /2}\cdot s_{p}\cdot {\sqrt {{\frac {1}{m}}+{\frac {1}{n}}}}\right)

，其中

s_{p}={\sqrt {\frac {(m-1)s_{x}^{2}+(n-1)s_{y}^{2}}{m+n-2}}}

且

s_{x},s_{y}

分別表示

x

和

y

的樣本標準差。

常見誤解

信賴區間及信心水準常被誤解，出版的研究也顯示出既使是專業的科學家也常做出錯誤的詮釋。^[4]^[5]^[6]^[7]^[8]^[9]

以95%的信賴區間來說，建構出一個信賴區間，不代表分布的母數有95%的機率會落在該信賴區間內（也就是說該區間有95%的機率涵蓋了分布母數）。 ^[10]依照嚴格的頻率學派詮釋，一旦信賴區間被建構完全，此區間不是涵蓋了母數就是沒涵蓋母數，已經沒有機率可言。95%機率指的是建構信賴區間步驟的可靠性，不是針對一個特定的區間。^[11]內曼本人（信賴區間的原始提倡者）在他的原始論文提出此點：^[12]
「在上面的敘述中可以注意到，機率是指統計學家在未來關心的估計問題。事實上，我已多次說明，正確結果的頻率會趨向於α。考慮到一個樣本已被抽取，[特定端點]也已被計算完成。我們能說在這個特定的例子裡真值[落到端點中]的機率等於α嗎？答案明顯是否定的。母數是未知的常數，無法做出對其值的機率敘述……」

Deborah Mayo針對此點進一步說道：^[13]

「無論如何必須強調，在看到[資料的]數值後，Neyman–Pearson理論從不允許做出以下結論，特定產生的信賴區間涵蓋了真值的機率或信心為(1 − α)100%。Seidenfeld的評論似乎源於一種（並非不尋常的）期望值，Neyman–Pearson信賴區間能提供他們無法合理提供的，也就是未知母數落入特定區間的機率大小、信心高低或支持程度的測度。隨著Savage (1962)之後，母數落入特定區間的機率可能是指最終精密度的測度。最終精密度的測度令人嚮往而且信賴區間又常被(錯誤地)解釋成可提供此測度，然而此解釋是不被保證的。無可否認的，『信賴』二字助長了此誤解。」

95%信賴區間不代表有95%的樣本資料落在此信賴區間。
信賴區間不是樣本母數的可能值的確定範圍，雖然它常被啟發為可能值的範圍。
從一個實驗中算出的一個95%信賴區間，不代表從不同實驗得到的樣本母數有95%落在該區間中 ^[8]

構造法

一般來說，信賴區間的構造需要先找到一個樞軸變量（pivotal quantity，或稱pivot），其表達式依賴於樣本以及待估計的未知母數(但不能依賴於母體的其它未知母數)，其分布不依賴於任何未知母數。

下面以上述例2為例，說明如何利用樞軸變量構造信賴區間。對於一個常態分布的隨機樣本 ${X_{1},\ldots ,X_{n}}$ ，可以證明(此證明對初學者並不容易)如下統計量互相獨立：

{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

和

S^{2}={\frac {\sum _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}}{n-1}}

它們的分布是：

{\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\sim N(0,1)

和

(n-1){\frac {S^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}

所以根據t分布的定義，有

t={\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim t_{n-1}

於是反解如下等式左邊括號中的不等式

\mathbb {P} \left(-t_{n-1;\alpha /2}<t={\frac {{\bar {X}}-\mu }{S{\sqrt {n}}}}<t_{n-1;\alpha /2}\right)=1-\alpha

就得到了例2中雙尾信賴區間的表達式。

與母數檢定的聯繫

有時，信賴區間可以用來進行母數檢定。例如在上面的例1中構造的雙尾 $1-\alpha$ 水準信賴區間，可以用來檢定具有相應的顯著水準為 $\alpha$ 的雙尾對立假說，具體地說是如下檢定：常態分布母體，知道母體變異數 $\sigma ^{2}$ ，在 $\alpha$ 顯著水準下檢定：

H_{0}:\mu =\mu _{0}

vs

H_{1}:\mu \neq \mu _{0}

檢定方法是：當（且唯若）相應的 $1-\alpha$ 水準信賴區間不包含 $\mu _{0}$ 時拒絕虛無假說 $H_{0}$

例1中構造的雙尾 $1-\alpha$ 水準信賴區間也可以用來檢定如下兩個顯著水準為 $\alpha /2$ 的單尾對立假設：

H_{0}:\mu \leq \mu _{0}

vs

H_{1}:\mu >\mu _{0}

和

H_{0}:\mu \geq \mu _{0}

vs

H_{1}:\mu <\mu _{0}

檢定方法是完全類似的，比如對於上述第一個單尾檢定 $H_{1}:\mu >\mu _{0}$ ，若且唯若雙尾信賴區間的左端點大於 $\mu _{0}$ 時拒絕虛無假說。

參考文獻

^ Brittany Terese Fasy; Fabrizio Lecci; Alessandro Rinaldo; Larry Wasserman; Sivaraman Balakrishnan; Aarti Singh. Confidence sets for persistence diagrams. The Annals of Statistics. 2014, 42 (6): 2301–2339.
^ Box, George EP; Tiao, George C. Bayesian inference in statistical analysis. John Wiley & Sons. 2011.
^ Moore, D; McCabe, George P; Craig, B. Introduction to the Practice of Statistics. San Francisco, CA: Freeman. 2012.
^ Kalinowski, Pawel. Identifying Misconceptions about Confidence Intervals (PDF). 2010 [2021-12-22]. （原始內容 (PDF)存檔於2022-01-21）.
^ Archived copy (PDF). [2014-09-16]. （原始內容 (PDF)存檔於2016-03-04）.
^ Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [1] （頁面存檔備份，存於網際網路檔案館）
^ Scientists』 grasp of confidence intervals doesn’t inspire confidence （頁面存檔備份，存於網際網路檔案館）, Science News, July 3, 2014
^ ^8.0 ^8.1 Greenland, Sander; Senn, Stephen J.; Rothman, Kenneth J.; Carlin, John B.; Poole, Charles; Goodman, Steven N.; Altman, Douglas G. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology. April 2016, 31 (4): 337–350. ISSN 0393-2990. PMC 4877414 . PMID 27209009. doi:10.1007/s10654-016-0149-3.
^ Helske, Jouni; Helske, Satu; Cooper, Matthew; Ynnerman, Anders; Besancon, Lonni. Can Visualization Alleviate Dichotomous Thinking? Effects of Visual Representations on the Cliff Effect. IEEE Transactions on Visualization and Computer Graphics (Institute of Electrical and Electronics Engineers (IEEE)). 2021-08-01, 27 (8): 3397–3409. ISSN 1077-2626. PMID 33856998. S2CID 233230810. arXiv:2002.07671 . doi:10.1109/tvcg.2021.3073466.
^ Morey, R. D.; Hoekstra, R.; Rouder, J. N.; Lee, M. D.; Wagenmakers, E.-J. The Fallacy of Placing Confidence in Confidence Intervals. Psychonomic Bulletin & Review. 2016, 23 (1): 103–123. PMC 4742505 . PMID 26450628. doi:10.3758/s13423-015-0947-8.
^ 1.3.5.2. Confidence Limits for the Mean. nist.gov. [2014-09-16]. （原始內容存檔於2008-02-05）.
^ Neyman, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society A. 1937, 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. JSTOR 91337. doi:10.1098/rsta.1937.0005 .
^ Mayo, D. G. (1981) "In defence of the Neyman–Pearson theory of confidence intervals" （頁面存檔備份，存於網際網路檔案館）, Philosophy of Science, 48 (2), 269–280.
JSTOR 187185

參考書目

羅納德·費雪 (1956) Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh. (See p. 32.)
弗羅因德 (1962) Mathematical Statistics Prentice Hall, Englewood Cliffs, NJ. (See pp. 227–228.)
伊安·海金 (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge
齊平 (1962) Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ.
傑克·基弗(1977) "Conditional Confidence Statements and Confidence Estimators (with discussion)" Journal of the American Statistical Association, 72, 789–827.
澤西·內曼 (1937) "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability" Philosophical Transactions of the Royal Society of London A, 236, 333–380. (Seminal work.)
G.K.羅賓遜 (1975) "Some Counterexamples to the Theory of Confidence Intervals." Biometrika, 62, 155–161.

[1] Brittany Terese Fasy; Fabrizio Lecci; Alessandro Rinaldo; Larry Wasserman; Sivaraman Balakrishnan; Aarti Singh. Confidence sets for persistence diagrams. The Annals of Statistics. 2014, 42 (6): 2301–2339.

[2] Box, George EP; Tiao, George C. Bayesian inference in statistical analysis. John Wiley & Sons. 2011.

[3] Moore, D; McCabe, George P; Craig, B. Introduction to the Practice of Statistics. San Francisco, CA: Freeman. 2012.

[4] Kalinowski, Pawel. Identifying Misconceptions about Confidence Intervals (PDF). 2010 [2021-12-22]. （原始內容 (PDF)存檔於2022-01-21）.

[5] Archived copy (PDF). [2014-09-16]. （原始內容 (PDF)存檔於2016-03-04）.

[6] Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [1] （頁面存檔備份，存於網際網路檔案館）

[7] Scientists』 grasp of confidence intervals doesn’t inspire confidence （頁面存檔備份，存於網際網路檔案館）, Science News, July 3, 2014

[:2-8] 8.0 ^8.1 Greenland, Sander; Senn, Stephen J.; Rothman, Kenneth J.; Carlin, John B.; Poole, Charles; Goodman, Steven N.; Altman, Douglas G. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology. April 2016, 31 (4): 337–350. ISSN 0393-2990. PMC 4877414 . PMID 27209009. doi:10.1007/s10654-016-0149-3.

[Helske_Helske_Cooper_Ynnerman_pp._3397–3409-9] Helske, Jouni; Helske, Satu; Cooper, Matthew; Ynnerman, Anders; Besancon, Lonni. Can Visualization Alleviate Dichotomous Thinking? Effects of Visual Representations on the Cliff Effect. IEEE Transactions on Visualization and Computer Graphics (Institute of Electrical and Electronics Engineers (IEEE)). 2021-08-01, 27 (8): 3397–3409. ISSN 1077-2626. PMID 33856998. S2CID 233230810. arXiv:2002.07671 . doi:10.1109/tvcg.2021.3073466.

[Morey-10] Morey, R. D.; Hoekstra, R.; Rouder, J. N.; Lee, M. D.; Wagenmakers, E.-J. The Fallacy of Placing Confidence in Confidence Intervals. Psychonomic Bulletin & Review. 2016, 23 (1): 103–123. PMC 4742505 . PMID 26450628. doi:10.3758/s13423-015-0947-8.

[11] 1.3.5.2. Confidence Limits for the Mean. nist.gov. [2014-09-16]. （原始內容存檔於2008-02-05）.

[Neyman-12] Neyman, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society A. 1937, 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. JSTOR 91337. doi:10.1098/rsta.1937.0005 .

[Mayo-13] Mayo, D. G. (1981) "In defence of the Neyman–Pearson theory of confidence intervals" （頁面存檔備份，存於網際網路檔案館）, Philosophy of Science, 48 (2), 269–280.
JSTOR 187185

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

定義