| 此條目需要 精通或熟悉相關主題的編者參與及協助編輯。 (2018年2月2日) 請邀請適合的人士改善本條目。更多的細節與詳情請參見討論頁。 |
在信息論中,基於相同事件測度的兩個概率分布和的交叉熵(英語:Cross entropy)是指,當基於一個「非自然」(相對於「真實」分布而言)的概率分布進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。
給定兩個概率分布和,相對於的交叉熵定義為:
其中是的熵,是從與的KL散度(也被稱為p相對於q的相對熵)。
對於離散分布和,這意味着:
對於連續分布也是類似的。我們假設和在測度 上是絕對連續的(通常 是Lebesgue measure on a Borel σ-algebra)。設和分別為和在測度 上概率密度函數。則
在信息論中, 以直接可解編碼模式通過值編碼一個信息片段,使其能在所有可能的集合中唯一標識該信息片段,Kraft–McMillan theorem確保這一過程可以被看作一種上的隱式概率分布,從而使得是的編碼位長度。 因此, 交叉熵可以看作每個信息片段在錯誤分布下的期望編碼位長度,而信息實際分布為。這就是期望是基於而不是的原因。
在大多數情況下,我們需要在不知道分布的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。是語料中詞彙的真實分布,而是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的,我們不能直接計算交叉熵。在這種情況下,我們可以通過下式來估計交叉熵:
是測試集大小,是在訓練集上估計的事件發生的概率。我們假設訓練集是從的真實採樣,則此方法獲得的是真實交叉熵的蒙特卡洛估計。