1. 引言
在本教程中,我们将探讨信息瓶颈原理(Information Bottleneck Principle, IB)。该原理有助于我们从定性角度理解、并提供定量证据来解释深度神经网络(DNN)的内部工作机制。最终结果是揭示了一个可用于指导DNN训练的限制性原则。
IB原理与另一个更具定性特征的原理密切相关:最小互信息原理(Minimum Mutual Information Principle, MinMI)。
2. MinMI 原理
任何基于神经网络的预测系统的基本问题,是识别一个未知函数,该函数能够在输入(记作 )和输出(记作
)之间实现最优映射。训练过程就是识别神经网络内部一系列参数,以达到这个最优的过程。
我们用 表示网络中的每一层(中间层或隐藏层):
神经网络隐藏层中发生了什么,以及为何这个过程如此有效,我们对此知之甚少。这也是它们被称为“黑盒模型”的原因。
MinMI 原理(或最小信息原理)最初应用于神经编码领域。它关注一个与识别最优映射相关的基本量:输入与输出之间的互信息(Mutual Information),在离散和连续情况下分别定义为:
$$ I(X;Y)=\sum_{y}\sum_{x}p(x,y)\ln\frac{p(x,y)}{p(x)p(y)} $$
$$ I(X;Y)=\int\int p(x,y)\ln\frac{p(x,y)}{p(x)p(y)},dxdy $$
其中:
是随机变量
是联合概率
和
是边缘概率
互信息始终为非负值。
衡量两个变量之间的相互依赖程度。更具体地说,它表示通过观察一个变量可以获得关于另一个变量的信息量。
假设我们有一组与观测数据一致且适用于当前问题的 DNN。每个网络都有一组训练过程中优化的内部参数。MinMI 原理指出,最优结构是互信息最小的那个网络。
2.1 为什么是 MinMI?
乍一看,既然互信息衡量的是 与
之间的依赖性,我们可能期望最大化互信息才对。
但实际情况并非如此。在所有可能构建的 DNN 中,大多数结构会显式地映射出比数据中真实关系更复杂的输入输出映射。噪声和共线性等因素都会阻碍最优映射的获得。
如果我们从数据维度的角度来看这个问题就更清楚了。通常输入 是高维的,而输出
是低维的。这意味着,
的大部分熵对
来说并不具有信息量。
这些“多余”的结构也会增加互信息 的值。因此,最小化互信息可以让神经网络更接近只包含相关信息的映射,从而构建出一个高效的预测系统 —— 也就是数据中真实存在的关系。
2.2 压缩机制
将上述思路付诸实践的一种方式,也解释了 DNN 和其他预测系统为何高效,那就是让网络“压缩”信息。
用通俗的语言来说,如果 DNN 的隐藏层“神经元不足”,那么在一般情况下,就无法将数据中的所有信息从一层传递到下一层。训练过程促使 DNN 寻找一个折中方案,这个方案表现为对原始信息的压缩。
压缩意味着信息的丢失,但这是“受控”的丢失,因为我们的控制参数通常是预测值与真实值之间的偏差度量,这种偏差在训练过程中持续施加压力。最终结果是互信息 的值降低,而这个值对应的结构比压缩前更接近数据中的真实关系,并且许多“多余”的结构已被剔除。
重复这个过程可以进一步校准整个网络。
当然,这种讨论隐含了一个前提: 与
之间确实存在某种关系,即
。如果两者独立,则互信息为 0,无法构建预测系统。
压缩与互信息最小化这两个概念,直接引出了 IB 原理。
3. IB 原理
3.1 数据处理不等式与马尔可夫链
数据处理不等式(Data Processing Inequality, DPI) 是信息论中的一个概念,表示数据的处理不会增加其熵。在预测系统中,可以理解为:数据的后处理不会增加信息量。
当三个随机变量形成一个马尔可夫链 ,则
的条件概率仅依赖于
,与
无关。此时,任何对
的处理都无法增加它关于
的信息量,DPI 可形式化为:
$$ I(X; Y) \geq I(X; Z) $$
若 表示
与
之间未被
捕获的剩余信息,则当
时,上式取等号 —— 也就是
与
对
的信息量相同。
3.2 输入的最小充分统计量
压缩输入 可以提取对预测
有用的特征,去除无关特征。MinMI 原理指出,这个过程会导致互信息
的减少。
互信息的最小值对应于 的最简单映射,我们记作
,它保留了与
的互信息。这个
就是
对
的最小充分统计量。
DPI 帮助我们理解 MinMI 原理的合理性,因为:
$$ I(X; Y) \geq I(\hat{X}; Y) $$
若输出预测记作 ,DPI 还给出另一个重要关系:
$$ I(X; Y) \geq I(Y; \hat{Y}) $$
当 是充分统计量时取等号。
我们可以将识别 和预测过程视为一个马尔可夫链:
$$ X \rightarrow \hat{X} \rightarrow Y $$
这个模型存在问题:对于一般的分布 ,可能不存在精确的最小充分统计量,导致马尔可夫链不成立。不过我们可以通过其他方式识别
。
3.3 最小充分统计量的最小条件
考虑马尔可夫链:
$$ Y \rightarrow X \rightarrow \hat{X} $$
我们可以将寻找 视为最小化
。但仅靠这个条件是不够的,因为可能会丢失关键信息。
另一方面,虽然压缩和最小化 可以帮助我们识别
,但同时也要求它尽可能具有信息量,即最大化
。
这两个目标可以统一为一个拉格朗日函数:
$$ \mathcal{L}[p(\hat{x} | x)] = I(X; \hat{X}) - \beta I(\hat{X}; Y) $$
其中 是问题相关的参数,用于平衡表示的复杂度(
)与保留的相关信息量(
)。
这个函数可以通过变分法求最小值。也可以写成:
$$ \mathcal{L}[p(\hat{x} | x)] = I(X; \hat{X}) + \beta I(X; Y | \hat{X}) $$
这为我们提供了一个可用于 DNN 优化的最小化准则。
3.4 IB 原理在 DNN 中的应用
前面的讨论有助于我们理解一些在 DNN 训练中被广泛采用的经验法则,例如寻找尽可能紧凑的网络结构。IB 原理告诉我们,DNN 通过提取最具有信息量的特征来学习,逼近 的最小充分统计量。
在 DNN 中,每一层仅依赖于前一层的输出,可以视为一个马尔可夫过程:
$$ X \rightarrow h_j \rightarrow h_i \rightarrow Y $$
其中 。
根据 DPI,信息在层之间传递时不会增加,因此有:
$$ I(Y; X) \geq I(Y; h_j) \geq I(Y; h_i) \geq I(Y; \hat{Y}) $$
当每一层都是其输入的充分统计量时,等号成立。
每一层都应在最小化表示复杂度的同时,尽可能传递最多的相关信息。也就是说,最大化 ,同时最小化
(即单层之间的互信息)—— 这正是 MinMI 原理的体现。
4. 总结
本教程简要介绍了 IB 原理背后的基本概念。它是一个具有强大解释力的形式化框架,有助于我们理解 DNN 的内部工作机制,并量化训练过程中的变化。
由于主题的复杂性,本文并未深入探讨所有方面。例如我们没有讨论关于泛化能力的边界方程、以及 IB 失真曲线的分析,从中可以识别出分岔点,这可类比为不同网络拓扑之间的“相变”。
这些内容可以作为有兴趣的读者进一步研究的起点。