1. 概述
贝叶斯定理是概率论中的一个核心公式,广泛应用于人工智能、统计学、机器学习等领域。它提供了一种在已知新证据的前提下,更新我们对某个假设信念的方法。
简单来说,贝叶斯定理帮助我们从条件概率的反向角度进行推理。例如,我们通常容易获得“某种疾病导致某症状”的概率,但更关心的是“出现某症状的患者有多大可能患有该病”。贝叶斯定理正是解决这类问题的数学工具。
2. 条件概率的逆推
假设我们遇到一个有特定症状 S 的患者,怀疑他可能患有某种疾病 C。我们想知道的是 P(C | S),即在观察到症状 S 的前提下,患者确实患有疾病 C 的概率。
然而,现实中往往难以直接统计 P(C | S),因为医疗记录通常是按诊断结果分类的,而不是按症状。我们更容易获取的是 P(S | C),即患有疾病 C 的患者出现症状 S 的概率。
贝叶斯定理的作用就是让我们用 P(S | C) 和其他已知信息来推导出 P(C | S)。
3. 贝叶斯定理公式
贝叶斯定理的数学表达如下:
$$ P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)} $$
其中:
- $ P(H) $:先验概率(Prior),即在观察到证据 E 之前,我们对假设 H 成立的概率的估计。
- $ P(E \mid H) $:似然(Likelihood),即在假设 H 成立的前提下,观察到证据 E 的概率。
- $ P(E) $:证据的边际概率(Evidence),即在所有假设下观察到 E 的总概率。
- $ P(H \mid E) $:后验概率(Posterior),即在观察到 E 的前提下,H 成立的概率。
3.1. 术语解释
- 先验(Prior):是我们对假设 H 成立的初始信念。
- 后验(Posterior):是我们看到证据 E 后更新的信念。
- 似然(Likelihood):是给定假设 H 下观察到证据 E 的概率。
贝叶斯定理可以简化为一句话:
后验 ∝ 似然 × 先验
3.2. 连续更新
贝叶斯定理的一个强大之处在于它支持连续更新。当新的证据逐步到来时,我们可以不断用贝叶斯定理更新我们的信念:
新信念 ∝ 新证据的似然 × 旧信念
这意味着,上一步的后验会成为下一步的先验,非常适合用于实时数据处理和模型更新。
4. 分布视角下的贝叶斯方法
到目前为止,我们讨论的都是二元事件。但在实际问题中,很多假设是连续变量。例如,我们想判断一枚硬币是否是公平的,就需要估计正面出现的概率 $ q $,它是一个在 [0, 1] 区间上的连续变量。
4.1. 先验分布
在抛硬币的例子中,我们可以选择 Beta 分布作为先验分布:
$$ f_{prior}(q) = \frac{q^{\alpha - 1}(1-q)^{\beta - 1}}{B(\alpha, \beta)} $$
其中 $ \alpha $ 和 $ \beta $ 是超参数,B 是 Beta 函数。
4.2. 似然函数
假设我们抛了 n 次硬币,出现了 k 次正面,那么似然函数为:
$$ likelihood(q) = \binom{n}{k} q^k (1-q)^{n-k} $$
4.3. 贝叶斯更新
将先验与似然结合,我们可以得到后验分布:
$$ f_{posterior}(q) \propto q^{k + \alpha - 1} (1-q)^{n - k + \beta - 1} $$
可以看到,后验分布仍然是一个 Beta 分布,参数为 $ k + \alpha $ 和 $ n - k + \beta $。这说明 Beta 分布是二项分布的共轭先验,非常适合贝叶斯更新。
5. 关于先验的争议
贝叶斯方法的一个争议点在于先验的选择是否会影响最终结果。批评者认为,主观的先验可能会导致偏见,从而影响后验的客观性。
贝叶斯学派则认为,先验不应随意设定,而应基于已有理论或经验数据。例如,如果某种疾病的发病率是 1%,那么我们就应该使用 P(C) = 0.01 作为先验。
此外,贝叶斯方法的支持者指出,所有统计推断本质上都带有主观性,因为最终我们都要基于某种信念做出决策。贝叶斯定理提供了一个结构化的方式来整合先验知识与新证据。
6. 示例:疾病诊断中的贝叶斯推理
假设我们观察到:
- 患有疾病 C 的人中,75% 会出现症状 S:$ P(S | C) = 0.75 $
- 疾病 C 的总体患病率是 1%:$ P(C) = 0.01 $
- 症状 S 在人群中的普遍率为 25%:$ P(S) = 0.25 $
根据贝叶斯定理,我们计算:
$$ P(C \mid S) = \frac{P(S \mid C) \times P(C)}{P(S)} = \frac{0.75 \times 0.01}{0.25} = 0.03 $$
也就是说,即使症状 S 出现,患者真正患有疾病 C 的概率也只有 3%。
如果只看 $ P(S | C) = 75% $,我们可能会误以为这个症状非常具有诊断价值。但通过贝叶斯定理,我们发现其诊断能力其实有限。
7. 总结 ✅
贝叶斯定理为我们提供了一个从已有证据中更新信念的数学框架。它在机器学习、医学诊断、金融建模等多个领域都有广泛应用。
关键点总结如下:
- 贝叶斯定理帮助我们从 $ P(E | H) $ 推导出 $ P(H | E) $
- 先验不应随意设定,应基于已有数据或理论
- 后验可以通过似然与先验相乘得到(归一化后)
- 支持连续更新,适合实时数据流场景
- 在实际应用中,选择合适的先验和似然是关键
贝叶斯方法虽有争议,但它提供了一种系统、灵活的方式来整合先验知识与新证据,是现代 AI 和统计学不可或缺的工具。