信息论角度推导高斯分布的概率密度函数
\(\newcommand\diff{\mathop{}\!\mathrm{d}}\)
背景与目标
在统计建模中,我们常常面临这样一个问题:已知某个连续随机变量的期望和方差,如何合理地确定它的概率分布? 最大熵原理(Maximum Entropy Principle)提供了一个具有信息论意义的答案:
在已知约束(如期望与方差)下,熵最大的概率密度函数是最“中立”或最“无偏”的选择。
熵在此表示不确定性或信息量。连续型随机变量的微分熵定义为:
\[ \begin{equation*} H[p] = -\int_{-\infty}^{\infty} p(x) \ln p(x) \, \diff x \end{equation*} \]
我们的目标是:在已知期望和方差的约束下,最大化熵 \(H[p]\),求出最优概率密度函数 \(p(x)\)。