1. 概述

贝叶斯定理是概率论中的一个核心公式,广泛应用于人工智能、统计学、机器学习等领域。它提供了一种在已知新证据的前提下,更新我们对某个假设信念的方法。

简单来说,贝叶斯定理帮助我们从条件概率的反向角度进行推理。例如,我们通常容易获得“某种疾病导致某症状”的概率,但更关心的是“出现某症状的患者有多大可能患有该病”。贝叶斯定理正是解决这类问题的数学工具。

2. 条件概率的逆推

假设我们遇到一个有特定症状 S 的患者,怀疑他可能患有某种疾病 C。我们想知道的是 P(C | S),即在观察到症状 S 的前提下,患者确实患有疾病 C 的概率。

然而,现实中往往难以直接统计 P(C | S),因为医疗记录通常是按诊断结果分类的,而不是按症状。我们更容易获取的是 P(S | C),即患有疾病 C 的患者出现症状 S 的概率。

贝叶斯定理的作用就是让我们用 P(S | C) 和其他已知信息来推导出 P(C | S)。

3. 贝叶斯定理公式

贝叶斯定理的数学表达如下:

$$ P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)} $$

其中:

  • $ P(H) $:先验概率(Prior),即在观察到证据 E 之前,我们对假设 H 成立的概率的估计。
  • $ P(E \mid H) $:似然(Likelihood),即在假设 H 成立的前提下,观察到证据 E 的概率。
  • $ P(E) $:证据的边际概率(Evidence),即在所有假设下观察到 E 的总概率。
  • $ P(H \mid E) $:后验概率(Posterior),即在观察到 E 的前提下,H 成立的概率。

3.1. 术语解释

  • 先验(Prior):是我们对假设 H 成立的初始信念。
  • 后验(Posterior):是我们看到证据 E 后更新的信念。
  • 似然(Likelihood):是给定假设 H 下观察到证据 E 的概率。

贝叶斯定理可以简化为一句话:

后验 ∝ 似然 × 先验

3.2. 连续更新

贝叶斯定理的一个强大之处在于它支持连续更新。当新的证据逐步到来时,我们可以不断用贝叶斯定理更新我们的信念:

新信念 ∝ 新证据的似然 × 旧信念

这意味着,上一步的后验会成为下一步的先验,非常适合用于实时数据处理和模型更新。

4. 分布视角下的贝叶斯方法

到目前为止,我们讨论的都是二元事件。但在实际问题中,很多假设是连续变量。例如,我们想判断一枚硬币是否是公平的,就需要估计正面出现的概率 $ q $,它是一个在 [0, 1] 区间上的连续变量。

4.1. 先验分布

在抛硬币的例子中,我们可以选择 Beta 分布作为先验分布:

$$ f_{prior}(q) = \frac{q^{\alpha - 1}(1-q)^{\beta - 1}}{B(\alpha, \beta)} $$

其中 $ \alpha $ 和 $ \beta $ 是超参数,B 是 Beta 函数。

4.2. 似然函数

假设我们抛了 n 次硬币,出现了 k 次正面,那么似然函数为:

$$ likelihood(q) = \binom{n}{k} q^k (1-q)^{n-k} $$

4.3. 贝叶斯更新

将先验与似然结合,我们可以得到后验分布:

$$ f_{posterior}(q) \propto q^{k + \alpha - 1} (1-q)^{n - k + \beta - 1} $$

可以看到,后验分布仍然是一个 Beta 分布,参数为 $ k + \alpha $ 和 $ n - k + \beta $。这说明 Beta 分布是二项分布的共轭先验,非常适合贝叶斯更新。

5. 关于先验的争议

贝叶斯方法的一个争议点在于先验的选择是否会影响最终结果。批评者认为,主观的先验可能会导致偏见,从而影响后验的客观性。

贝叶斯学派则认为,先验不应随意设定,而应基于已有理论或经验数据。例如,如果某种疾病的发病率是 1%,那么我们就应该使用 P(C) = 0.01 作为先验。

此外,贝叶斯方法的支持者指出,所有统计推断本质上都带有主观性,因为最终我们都要基于某种信念做出决策。贝叶斯定理提供了一个结构化的方式来整合先验知识与新证据。

6. 示例:疾病诊断中的贝叶斯推理

假设我们观察到:

  • 患有疾病 C 的人中,75% 会出现症状 S:$ P(S | C) = 0.75 $
  • 疾病 C 的总体患病率是 1%:$ P(C) = 0.01 $
  • 症状 S 在人群中的普遍率为 25%:$ P(S) = 0.25 $

根据贝叶斯定理,我们计算:

$$ P(C \mid S) = \frac{P(S \mid C) \times P(C)}{P(S)} = \frac{0.75 \times 0.01}{0.25} = 0.03 $$

也就是说,即使症状 S 出现,患者真正患有疾病 C 的概率也只有 3%。

如果只看 $ P(S | C) = 75% $,我们可能会误以为这个症状非常具有诊断价值。但通过贝叶斯定理,我们发现其诊断能力其实有限。

7. 总结 ✅

贝叶斯定理为我们提供了一个从已有证据中更新信念的数学框架。它在机器学习、医学诊断、金融建模等多个领域都有广泛应用。

关键点总结如下:

  • 贝叶斯定理帮助我们从 $ P(E | H) $ 推导出 $ P(H | E) $
  • 先验不应随意设定,应基于已有数据或理论
  • 后验可以通过似然与先验相乘得到(归一化后)
  • 支持连续更新,适合实时数据流场景
  • 在实际应用中,选择合适的先验和似然是关键

贝叶斯方法虽有争议,但它提供了一种系统、灵活的方式来整合先验知识与新证据,是现代 AI 和统计学不可或缺的工具。


原始标题:Bayes’ Theorem

« 上一篇: 密码学入门