一场赌局背后的统计学
A 和 B 两人进行一场赌局,方式是抛一枚特制的硬币。如果硬币正面朝上,则 A 得一分,反之 B 得一分,先得六分的获胜。假设现在 A 以 5:3 领先,请问最终 B 获胜的概率要多高。
概率学派
频率学派认定待估计的参数是固定不变的常量,这里也就是硬币正面朝上的概率,用 p 来表示。频率学派认为,A 之所以 5:3 领先,是因为 5:3 这种情况出现的概率高,所以 p 应该是能够让 5:3 出现的概率最高的值。而求这个值的方法通常是最大似然法。此处似然函数为 L=p^5(1-p)^3,令一阶导=0 得出 p=5/8。而 B 获胜的概率就是 B 连胜三局,也就是答案是 27 / 512。
对于频率学派来说,估计值本质上是利用数据构造出来的函数,既然数据是随机分布的,估计值肯定也是随机的。参数是确定的,数据是随机的,利用随机的数据推断确定的参数,得到的结果也是随机的。
贝叶斯学派
贝叶斯学派的核心是贝叶斯定理,用于计算后验概率。P(H|D)=P(D|H)⋅P(H) / P(D)。式中的 P(H) 被称为先验概率(prior probability);P(D|H) 被称为似然概率(likelihood probability);P(H|D) 被称为后验概率(posterior probability)。
在贝叶斯学派看来,5:3 的结果不能证明硬币正面朝上的概率更高,只能证明硬币正面朝上的概率更高的概率更高(仔细体会这句话),可能只是这次 B 运气不太好。因此,处理参数 p 的方式应该从变量的角度去观察,考虑所有可能的取值,再计算在所有可能的取值下 B 获胜概率的数学期望,从而消除 p 的不确定性对结果的影响。
换句话说,我们应当考虑 p 在不同的取值情况下的概率(请再次理解为什么 5:3 只能证明硬币正面朝上的概率更高的概率更高)分布,并以此来对不同 p 值情况加权。在这样的思想下,B 获胜的概率就可以写成 E=∫(1−p)^3 P(p|A=5,B=3)dp 利用贝叶斯定理可以求得结果为 0.0909。如果用蒙特卡洛法(Monte Carlo method)进行数值仿真的话,你会发现这个 0.0909 才是符合真实情况的概率。
如果我再给你一些先验知识,我告诉你一共有四枚硬币,每个硬币正面朝上的概率分别是 30%,50%,60%,70%。或者我告诉你现在有无穷枚硬币,然后这些硬币正面朝上的概率是一个服从某个概率分布随机变量。现在你能明白最大后验(MAP)与最大似然(MLE)的不同之处与不同应用场景了吧。
贝叶斯学派的学习目的是找到最好的模型参数(他们讲模型参数视为随机变量),模型参数的先验分布 加上 训练数据 推断出 模型参数的后验概率分布,而从先验到后验这中间不确定性的消除,就是机器学习的作用。
对比
频率学派执行参数估计时,视参数为确定取值,视数据为随机变量,在估计参数时主要使用最大似然估计法,让数据在给定参数下的似然概率最大化。
贝叶斯学派则将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。它将待估计的参数视为随机变量,用来估计的数据反过来是确定的常数。贝叶斯统计的任务就是根据这些确定的观测数据反过来推断未知参数的概率分布。贝叶斯主义在参数估计中使用最大后验概率估计(maximum a posteriori estimation)。
将贝叶斯定理应用到机器学习之中,完成模型预测和选择的任务,就是贝叶斯视角下的机器学习。由于贝叶斯定理大量涉及各种显式变量与隐藏变量的依赖关系,通常用概率图模型来直观地描述。贝叶斯主义将未知参数视为随机变量,参数在学习之前的不确定性由先验概率描述,学习之后的不确定性则由后验概率描述,这中间不确定性的消除就是机器学习的作用。
与频率主义不同的是,贝叶斯学习的输出不是简单的最优估计值 θ̂ ,而是关于参数的概率分布 p(θ),从而给出了更加完整的信息。
在预测问题中,贝叶斯学习给出的也不仅仅是一个可能性最大的结果,而是将所有结果及其概率以概率分布的形式完整地呈现出来。
除了在预测中提供更加完备的信息之外,贝叶斯学习在模型选择上也有它的优势。在贝叶斯主义看来,所谓不同的模型其实就是不同概率分布的参数化表示,使用的参数也有它们自己的先验分布,但所有模型的共同点是它们都能生成训练数据集,而模型选择的任务就是从这些概率分布中挑出一个最好的。
这里的“好”的标准就是数据和模型的符合程度,也叫可信度(model evidence)。可信度实际上就是归一化的似然函数 p(D|M),表示的是模型 M 生成数据 D 的条件概率。当不同复杂度模型的经验风险接近的时候,就可以利用可信度来筛选模型了。
既然贝叶斯主义能够提供更加完整的信息,为什么迟迟没有取代频率主义成为主流呢?这就不得不说贝叶斯方法的缺点了:一是对未知变量的积分运算会导致极高的计算复杂度(computation complexity);二是对先验分布的设定(prior specification)包含一定的主观性,因而一直不招老派的统计学家待见。正是这两个原因限制了贝叶斯方法的广泛应用。