条件概率分布(Conditional Probability Distribution,或者 条件分布,Conditional Distribution )是现代概率论中的概念。已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。 如果Y 在条件{X =x}下的条件概率分布是连续分布,那么其密度函数称作Y 在条件{X =x}下的条件概率密度函数(条件分布密度、条件密度函数)。与条件分布有关的概念,常常以“条件”作为前缀,如条件期望、条件方差等等。
假设在桌子上抛掷一枚普通的骰子,则其点数结果的概率分布是集合的均匀分布:每个点数出现的概率都是均等的六分之一。然而,如果据某个坐在桌边的人观察,向着他的侧面是6点,那么,在此条件下,向上的一面不可能是6点,也不可能是6点对面的1点。因此,在此条件下,抛骰子的点数结果是集合的均匀分布:有四分之一的可能性出现四种点数中的一种。可以看出,增加的条件或信息量(某个侧面是6点)导致了点数结果的概率分布的变化。这个新的概率分布就是条件概率分布。
更为严格清晰的定义需要用到数学语言。当随机变量是离散或连续时,条件概率分布有不同的表达方法。
对于离散型的随机变量X 和Y(取值范围分别是和),随机变量Y 在条件{X =x}下的条件概率分布是:
- ()
同样的,X 在条件{Y=y}下的条件概率分布是:
- ()
其中,是X 和Y 联合分布概率,即“,并且发生的概率”。如果用表示的值:
那么随机变量X 和Y 的边际分布就是:
因此, 随机变量Y 在条件{X =x}下的条件概率分布也可以表达为:
- ()
同样的,X 在条件{Y=y}下的条件概率分布也可以表达为:
- ()
对于连续型的随机变量X 和Y,,因此对离散型随机变量的条件分布定义不适用。假设其联合密度函数为,X 和Y 的边际密度函数分别是和,那么Y 在条件{X =x}下的条件概率密度函数是:
同样的,X 在条件{Y=y}下的条件概率密度函数是:
在一定意义上,条件分布和独立分布是相对的。如果两个随机变量X 和Y 是独立分布的,那么不论是否已知某个关于X 的条件,都不会影响Y 的概率分布。用数学语言来说,就是:
这与独立分布的定义是相合的,事实上,随机变量X 和Y 相互独立分布,则:
因此
- 赵衡秀. 《概率论与数理统计》. 清华大学出版社. 2005.