1. 概述

事件的概率是一个介于 0 到 1 之间的数值,表示该事件发生的可能性。值为 0 表示几乎不可能发生,值为 1 表示必然发生。介于两者之间的值越大,事件发生的可能性越高。

当我们考虑两个事件 A 和 B 时,联合概率(Joint Probability)、边缘概率(Marginal Probability)和条件概率(Conditional Probability)就变得尤为重要。本文将详细解释这三种概率的区别与联系,并结合实际例子帮助理解。

2. 事件的概率

在随机实验中,我们事先知道所有可能结果的集合,称为样本空间,但无法确定具体哪一个结果会出现。例如,天气站在每天下午 2 点记录气温,我们知道气温的大致范围,但无法提前确定具体数值。

2.1. 随机实验与结果

我们定义三个事件:

  • COLD(寒冷):气温 < 15°C
  • MILD(温和):15 ≤ 气温 ≤ 28°C
  • HOT(炎热):气温 > 28°C

每个事件都是样本空间的一个子集。

我们也可以使用韦恩图来表示事件之间的关系:

天气事件韦恩图

图中,矩形代表样本空间 S,圆圈代表事件,点代表具体的结果(气温值)。

2.2. 事件的概率计算

假设我们进行了一年的气温记录(365 天),其中 97 天气温低于 15°C:

  • $ P(\text{COLD}) = \frac{97}{365} $
  • $ P(\overline{\text{COLD}}) = \frac{365 - 97}{365} = \frac{268}{365} $

概率公式为:

$$ P(A) = \frac{N_A}{N} $$

其中 $ N_A $ 是事件 A 发生的次数,$ N $ 是实验总次数。

3. 成对事件

当考虑两个事件 A 和 B 时,我们可能会问:

  • A 和 B 同时发生的概率是多少?
  • A 或 B 发生的概率是多少?
  • 已知 A 发生,B 发生的可能性有多大?

我们扩展之前的实验,记录每天的天气情况(晴天 SUN 或多云 CLOUD),并与气温数据结合:

天数 气温 天气
1 COLD CLOUD
2 COLD SUN
3 HOT SUN
4 MILD CLOUD
5 MILD SUN
6 HOT SUN
7 COLD CLOUD
8 COLD CLOUD

3.1. 多事件的图形表示

两个事件 A 和 B 的联合样本空间由成对结果组成(如“低温且晴天”)。韦恩图中:

  • 对角线区域:COLD 发生,SUN 未发生
  • 竖线区域:SUN 发生,CLOUD 未发生
  • 灰色区域:两者都发生
  • 白色区域:两者都未发生

3.2. 联合概率(Joint Probability)

联合概率是指两个事件 A 和 B 同时发生的概率,记作:

  • $ P(A, B) $
  • $ P(A \cap B) $
  • $ P(A \text{ and } B) $

例如,我们想计算 $ P(\text{COLD}, \text{SUN}) $:

$$ P(\text{COLD}, \text{SUN}) = \frac{N_{\text{COLD}, \text{SUN}}}{N} $$

在上面的表格中,只有第 2 天满足条件,所以:

$$ P(\text{COLD}, \text{SUN}) = \frac{1}{8} $$

3.3. 边缘概率(Marginal Probability)

边缘概率是单个事件的概率,与另一个事件无关。例如:

  • $ P(A) = \sum P(A, X) $
  • $ P(B) = \sum P(B, X) $

我们可以构建一个联合概率表如下:

COLD MILD HOT Marginal
SUN 0.1 0.15 0.2 0.45
CLOUD 0.3 0.15 0.1 0.55
Marginal 0.4 0.3 0.3 1.0

边缘概率:

  • $ P(\text{COLD}) = 0.1 + 0.3 = 0.4 $
  • $ P(\text{SUN}) = 0.45 $

3.4. 条件概率(Conditional Probability)

条件概率是指在事件 B 已发生的前提下,事件 A 发生的概率,记作 $ P(A|B) $,公式为:

$$ P(A|B) = \frac{P(A, B)}{P(B)} $$

例如,我们想计算 $ P(\text{COLD}|\text{SUN}) $:

$$ P(\text{COLD}|\text{SUN}) = \frac{P(\text{COLD}, \text{SUN})}{P(\text{SUN})} = \frac{0.1}{0.45} \approx 0.222 $$

这意味着,在晴天的情况下,气温寒冷的概率约为 22.2%。

4. 进一步理解

4.1. 案例:汽车故障分析

某汽车制造商研究二手车的可靠性,将车辆按里程分类:

  • 轻度使用:<10,000 km
  • 中度使用:10,000 - 50,000 km
  • 重度使用:50,000 - 100,000 km
  • 过度使用:>100,000 km

将故障分为三类:

  • 简单故障(Simple)
  • 一般故障(Average)
  • 严重故障(Extreme)

假设收集了 20,000 条故障记录,计算如下概率:

  • $ P(\text{Extreme}) = 0.3 $:整体来看,30% 的车辆出现严重故障
  • $ P(\text{Extreme}|\text{Excessively used}) > P(\text{Extreme}|\text{Lightly used}) $:过度使用的车更容易出现严重故障

4.2. 概率值的解读

联合概率 $ P(\text{Extreme}, \text{Excessively used}) $ 受总体车辆数量影响,不能准确反映“过度使用”车辆的严重故障率。而条件概率 $ P(\text{Extreme}|\text{Excessively used}) $ 更能体现特定群体的风险。

联合概率反映整体分布
边缘概率是单个事件的全局概率
条件概率用于在已知一个事件的前提下,预测另一个事件的发生概率

5. 小结

本文介绍了联合概率、边缘概率和条件概率的基本概念与区别,并通过气温记录与汽车故障两个实际案例加以说明。

⚠️ 注意:概率的计算依赖于样本量。样本太少时,统计结果可能不具有代表性。

如果你在做数据分析、机器学习或统计建模,理解这三种概率是基础中的基础。掌握它们,能帮助你更准确地理解变量之间的关系,做出更合理的预测和决策。


原始标题:Probability: Joint vs. Marginal vs. Conditional