频率学派与贝叶斯学派

频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

在对事物建模时,用 $\theta$ 表示模型的参数,请注意,解决问题的本质就是求 $\theta$。那么:

频率学派

存在唯一真值θ。举一个简单直观的例子—抛硬币,我们用 P(head) 来表示硬币的 bias。抛一枚硬币 100 次,有 20次 正面朝上,要估计抛硬币正面朝上的 bias $P(head)=\theta$。在频率学派来看,$\theta= \frac {20} {100} = 0.2$,很直观。

当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即 $\theta = 0.5$,抛掷 5 次,出现 5 次正面 (这种情况出现的概率是 $\frac{1}{2^{5}} = 3.125%$),频率学派会直接估计这枚硬币 $\theta = 1$,出现严重错误。

贝叶斯学派

$\theta$ 是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior) 和似然 (likelihood),输出是后验 (posterior)。

先验,即 $P (\theta)$,指的是在没有观测到任何数据时对 $\theta$ 的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即 $P ( X \mid \theta )$,是假设 $\theta$ 已知后我们观察到的数据应该是什么样子的;后验,即$P ( \theta \mid X )$,是最终的参数分布。

贝叶斯估计的基础是贝叶斯公式,如下:

\[P ( \theta \mid X ) = \frac { P ( X \mid \theta ) \times P ( \theta ) } { P ( X ) }\]

同样是抛硬币的例子,对一枚均匀硬币抛 5 次得到 5 次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在 0.5 处的 $\beta$ 分布),那么 P(head),即 $P ( \theta \mid X )$,是一个分布,最大值会介于 0.5~1 之间,而不是武断的 $\theta = 1$。

这里有两点值得注意的地方:

随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小

如果先验是均匀分布,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是均匀分布本质上表示对事物没有任何预判。

MLE - 最大似然估计

Maximum Likelihood Estimation, MLE 是频率学派常用的估计方法!

假设数据 $X _ { 1 } , X _ { 2 } , \ldots , X _ { n }$ 是i.i.d.的一组抽样,$X = \left( X _ { 1 } , X _ { 2 } , \ldots , X _ { n } \right)$ 。其中 i.i.d. 表示 Independent and identical distribution,独立同分布。那么 MLE 对 $\theta$ 的估计方法可以如下推导:

$$ \begin{aligned} \hat { \theta } _ { \mathrm { MLE } } & = \arg \max P ( X ; \theta ) \\ & = \arg \max P \left( x _ { 1 } ; \theta \right) P \left( x _ { 2 } ; \theta \right) \cdots P \left( x _ { n } ; \theta \right) \\ & = \arg \max \log \prod _ { i = 1 } ^ { n } P \left( x _ { i } ; \theta \right) \\ & = \arg \max \sum _ { i = 1 } ^ { n } \log P \left( x _ { i } ; \theta \right) \\ & = \arg \min - \sum _ { i = 1 } ^ { n } \log P \left( x _ { i } ; \theta \right) \end{aligned} $$

最后这一行所优化的函数被称为 Negative Log Likelihood (NLL)!

我们经常在不经意间使用 MLE,例如

上文中关于频率学派求硬币概率的例子,其方法其实本质是由优化 NLL 得出。本文末尾附录中给出了具体的原因。

给定一些数据,求对应的高斯分布时,我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式,其理论依据是优化 NLL。

深度学习做分类任务时所用的 cross entropy loss,其本质也是 MLE

MAP - 最大后验估计

Maximum A Posteriori, MAP 是贝叶斯学派常用的估计方法!

假设数据 $X _ { 1 } , X _ { 2 } , \ldots , X _ { n }$ 是i.i.d.的一组抽样,$X = \left( X _ { 1 } , X _ { 2 } , \ldots , X _ { n } \right)$ 。那么 MAP 对 $\theta$ 的估计方法可以如下推导:

$$ \begin{aligned} \hat { \theta } _ { \mathrm { MAP } } & = \arg \max P ( \theta \mid X ) \\ & = \arg \min - \log P ( \theta \mid X ) \\ & = \arg \min - \log P ( X \mid \theta ) - \log P ( \theta ) + \log P ( X ) \\ & = \arg \min - \log P ( X \mid \theta ) - \log P ( \theta ) \end{aligned} $$

其中,第二行到第三行使用了贝叶斯定理,第三行到第四行 $P ( X )$ 可以丢掉因为与 $\theta$ 无关。注意 $- \log P ( X \mid \theta )$ 其实就是 NLL,所以 MLE 和 MAP 在优化时的不同就是在于先验项$- \log P (\theta )$。好的,那现在我们来研究一下这个先验项,假定先验是一个高斯分布,即

\[P ( \theta ) = \text { constant } \times e ^ { - \frac { \theta ^ { 2 } } { 2 \sigma ^ { 2 } } }\]

那么,

\[-\log P ( \theta ) = \text { constant } + \frac { \theta ^ { 2 } } { 2 \sigma ^ { 2 } }\]

至此,一件神奇的事情发生了 — 在 MAP 中使用一个高斯分布的先验等价于在 MLE 中采用 L2 的 regularizaton!

附录

为什么说频率学派求硬币概率的算法本质是在优化 NLL?

因为抛硬币可以表示为参数为 $\theta$ 的伯努利分布,即:

$$ P \left( x _ { i } ; \theta \right) = \left\{ \begin{array} { l l } { \theta } & { x _ { i } = 1 } \\ { 1 - \theta } & { x _ { i } = 0 } \end{array} = \theta ^ { x _ { i } } ( 1 - \theta ) ^ { 1 - x _ { i } } \right. $$

其中 $x_i= 1$ 表示第 i 次抛出正面。那么,

\[\mathrm { NLL } = - \sum _ { i = 1 } ^ { n } \log P \left( x _ { i } ; \theta \right) = - \sum _ { i = 1 } ^ { n } \log \theta ^ { x _ { i } } ( 1 - \theta ) ^ { 1 - x _ { i } }\]

求导数并使其等于零,得到

\[\mathrm { NLL } ^ { \prime } = - \sum _ { i = 1 } ^ { n } \left( \frac { x _ { i } } { \theta } + \left( 1 - x _ { i } \right) \frac { - 1 } { 1 - \theta } \right) = 0\]

即 $\hat { \theta } = \frac { \sum _ { i = 1 } ^ { n } x _ { i } } { n }$,也就是出现正面的次数除以总共的抛掷次数。

Table of Contents