高斯-馬可夫定理(英語:Gauss-Markov Theorem),在統計學中陳述的是在線性回歸模型中,如果線性模型滿足高斯馬爾可夫假定,則回歸係數的「最佳線性無偏估計」(BLUE,英語:Best Linear unbiased estimator)就是普通最小二乘法估計。[1]最佳估計是指相較於其他估計量有更小方差的估計量,同時把對估計量的尋找限制在所有可能的線性無偏估計量中。此外,誤差也不一定需要滿足獨立同分布或正態分布。
本定理主要以卡爾·弗里德里希·高斯和安德烈·馬爾可夫命名,雖然高斯的貢獻要遠比馬爾可夫的重要。高斯以獨立正態分布的假設推導出了結果,而馬爾可夫將假設放寬到了上述的形式。
對於簡單(一元)線性回歸模型,
其中和是非隨機但不能觀測到的參數,是非隨機且可觀測到的一般變量,是不可觀測的隨機變量,或稱為隨機誤差或噪音,是可觀測的隨機變量。
高斯-馬爾可夫定理的假設條件是:
- 在總體模型中,各變量關係為(線性於參數)
- 我們具有服從於上述模型的隨機樣本,樣本容量為n(隨機抽樣),
- x的樣本結果為非完全相同的數值(解釋變量的樣本有波動),
- 對於給定的解釋變量,誤差的期望為零,換言之 (零條件均值),
- 對於給定的解釋變量,誤差具有相同的方差,換言之 (同方差性)。
則對和的最佳線性無偏估計為,
對於多元線性回歸模型,
- ,
使用矩陣形式,線性回歸模型可簡化記為,其中採用了以下記號:
(觀測值向量,Vector of Responses),
(設計矩陣,Design Matrix),
(參數向量,Vector of Parameters),
(隨機誤差向量,Vectors of Error)。
高斯-馬爾可夫定理的假設條件是:
- ,(零均值),
- ,(同方差且不相關),其中為n階單位矩陣(Identity Matrix)。
則對的最佳線性無偏估計為
首先,注意的是這裡數據是而非,我們希望找到對於的線性估計量,記作
其中,,和分別是,,和矩陣。
根據零均值假設所得,
其次,我們同時限制尋找的估計量為無偏的估計量,即要求,因此有
- (零矩陣),