贝叶斯定理详解 | Baeldung中文网

1. 概述

贝叶斯定理是概率论中的一个核心公式，广泛应用于人工智能、统计学、机器学习等领域。它提供了一种在已知新证据的前提下，更新我们对某个假设信念的方法。

简单来说，贝叶斯定理帮助我们从条件概率的反向角度进行推理。例如，我们通常容易获得“某种疾病导致某症状”的概率，但更关心的是“出现某症状的患者有多大可能患有该病”。贝叶斯定理正是解决这类问题的数学工具。

2. 条件概率的逆推

假设我们遇到一个有特定症状 S 的患者，怀疑他可能患有某种疾病 C。我们想知道的是 P(C | S)，即在观察到症状 S 的前提下，患者确实患有疾病 C 的概率。

然而，现实中往往难以直接统计 P(C | S)，因为医疗记录通常是按诊断结果分类的，而不是按症状。我们更容易获取的是 P(S | C)，即患有疾病 C 的患者出现症状 S 的概率。

贝叶斯定理的作用就是让我们用 P(S | C) 和其他已知信息来推导出 P(C | S)。

3. 贝叶斯定理公式

贝叶斯定理的数学表达如下：

$$ P(H \mid E) = \frac{P(E \mid H) \times P(H)}{P(E)} $$

其中：

$ P(H) $：先验概率（Prior），即在观察到证据 E 之前，我们对假设 H 成立的概率的估计。
$ P(E \mid H) $：似然（Likelihood），即在假设 H 成立的前提下，观察到证据 E 的概率。
$ P(E) $：证据的边际概率（Evidence），即在所有假设下观察到 E 的总概率。
$ P(H \mid E) $：后验概率（Posterior），即在观察到 E 的前提下，H 成立的概率。

3.1. 术语解释

先验（Prior）：是我们对假设 H 成立的初始信念。
后验（Posterior）：是我们看到证据 E 后更新的信念。
似然（Likelihood）：是给定假设 H 下观察到证据 E 的概率。

贝叶斯定理可以简化为一句话：

后验 ∝ 似然 × 先验

3.2. 连续更新

贝叶斯定理的一个强大之处在于它支持连续更新。当新的证据逐步到来时，我们可以不断用贝叶斯定理更新我们的信念：

新信念 ∝ 新证据的似然 × 旧信念

这意味着，上一步的后验会成为下一步的先验，非常适合用于实时数据处理和模型更新。

4. 分布视角下的贝叶斯方法

到目前为止，我们讨论的都是二元事件。但在实际问题中，很多假设是连续变量。例如，我们想判断一枚硬币是否是公平的，就需要估计正面出现的概率 $ q $，它是一个在 [0, 1] 区间上的连续变量。

4.1. 先验分布

在抛硬币的例子中，我们可以选择 Beta 分布作为先验分布：

$$ f_{prior}(q) = \frac{q^{\alpha - 1}(1-q)^{\beta - 1}}{B(\alpha, \beta)} $$

其中 $ \alpha $ 和 $ \beta $ 是超参数，B 是 Beta 函数。

4.2. 似然函数

假设我们抛了 n 次硬币，出现了 k 次正面，那么似然函数为：

$$ likelihood(q) = \binom{n}{k} q^k (1-q)^{n-k} $$

4.3. 贝叶斯更新

将先验与似然结合，我们可以得到后验分布：

$$ f_{posterior}(q) \propto q^{k + \alpha - 1} (1-q)^{n - k + \beta - 1} $$

可以看到，后验分布仍然是一个 Beta 分布，参数为 $ k + \alpha $ 和 $ n - k + \beta $。这说明 Beta 分布是二项分布的共轭先验，非常适合贝叶斯更新。

5. 关于先验的争议

贝叶斯方法的一个争议点在于先验的选择是否会影响最终结果。批评者认为，主观的先验可能会导致偏见，从而影响后验的客观性。

贝叶斯学派则认为，先验不应随意设定，而应基于已有理论或经验数据。例如，如果某种疾病的发病率是 1%，那么我们就应该使用 P(C) = 0.01 作为先验。

此外，贝叶斯方法的支持者指出，所有统计推断本质上都带有主观性，因为最终我们都要基于某种信念做出决策。贝叶斯定理提供了一个结构化的方式来整合先验知识与新证据。

6. 示例：疾病诊断中的贝叶斯推理

假设我们观察到：

患有疾病 C 的人中，75% 会出现症状 S：$ P(S | C) = 0.75 $
疾病 C 的总体患病率是 1%：$ P(C) = 0.01 $
症状 S 在人群中的普遍率为 25%：$ P(S) = 0.25 $

根据贝叶斯定理，我们计算：

$$ P(C \mid S) = \frac{P(S \mid C) \times P(C)}{P(S)} = \frac{0.75 \times 0.01}{0.25} = 0.03 $$

也就是说，即使症状 S 出现，患者真正患有疾病 C 的概率也只有 3%。

如果只看 $ P(S | C) = 75% $，我们可能会误以为这个症状非常具有诊断价值。但通过贝叶斯定理，我们发现其诊断能力其实有限。

7. 总结 ✅

贝叶斯定理为我们提供了一个从已有证据中更新信念的数学框架。它在机器学习、医学诊断、金融建模等多个领域都有广泛应用。

关键点总结如下：

贝叶斯定理帮助我们从 $ P(E | H) $ 推导出 $ P(H | E) $
先验不应随意设定，应基于已有数据或理论
后验可以通过似然与先验相乘得到（归一化后）
支持连续更新，适合实时数据流场景
在实际应用中，选择合适的先验和似然是关键

贝叶斯方法虽有争议，但它提供了一种系统、灵活的方式来整合先验知识与新证据，是现代 AI 和统计学不可或缺的工具。

Persistence

REST

Security