文本分类中的特征选择与降维

1. 简介

在本文中，我们将探讨文本分类任务中常用的特征选择和降维方法。

文本数据通常具有高维度特性：一个语料库可能包含数千个不同的词汇，但每篇文本中实际出现的词汇往往只占其中一小部分。这种高维稀疏性不仅增加了模型训练的复杂度，还可能导致“维度灾难”，影响分类性能。因此，选择最具有代表性的特征，是提升模型准确率的关键。

我们将重点介绍以下三种实用技术：

卡方检验（Chi-Squared Test）
信息增益（Information Gain）
使用 N-Gram 替代 Uni-Gram

这些方法在实际项目中非常常见，且易于理解和实现。

2. 维度灾难与特征选择的意义

机器学习模型普遍受到“维度灾难”的影响。在文本分类中，这一问题尤为突出。现代文本数据来源广泛，特征数量庞大，但其中很多特征并不具备区分性。

因此，我们需要：

✅ 减少特征数量
✅ 保留最具信息量的特征
✅ 提升模型泛化能力

这正是特征选择的核心目标。通过筛选出对分类结果影响最大的特征，可以有效提升模型性能，同时降低计算开销。

3. 卡方分布与卡方检验

卡方检验是一种基础但非常实用的特征选择方法，适用于分类任务。它基于统计学原理，用于衡量特征与类别之间的相关性。

3.1 基本概念

假设我们有 N 条样本，要分类到 k 个互斥的类别中。设：

$ x_i $：第 i 类样本的数量
$ p_i = x_i / N $：样本属于第 i 类的概率
$ m_i = N \times p_i $：第 i 类的期望样本数

我们可以通过如下公式计算卡方值：

$$ \chi^2 = \sum_{i=1}^k \frac{(x_i - m_i)^2}{m_i} $$

卡方值越大，说明特征与类别的相关性越强。我们可以据此对特征进行排序，并选择卡方值较高的特征。

3.2 实际应用

在文本分类中，卡方检验通常用于评估某个词是否对分类有显著影响。例如：

如果某个词在“体育”类新闻中频繁出现，而在“科技”类中很少出现，那么该词的卡方值会较高
反之，如果某个词在各类中出现频率接近，其卡方值会较低，说明该词区分度不高

✅ 优点：计算简单，适合大规模文本
❌ 缺点：仅适用于离散特征，忽略特征之间的组合关系

4. 信息增益（Information Gain）

信息增益是基于信息熵的特征选择方法。其核心思想是：某个特征的出现，是否有助于降低分类的不确定性？

4.1 信息熵与条件熵

信息熵 $ H(Y) $：表示类别分布的不确定性
条件熵 $ H(Y|X) $：在已知特征 X 的取值下，类别 Y 的不确定性

信息增益定义为：

$$ IG(Y, X) = H(Y) - H(Y|X) $$

信息增益越大，说明特征 X 对分类 Y 的帮助越大。

4.2 实际应用

在文本分类中，我们可以为每个词计算其信息增益：

若某个词的出现显著降低了分类的不确定性，则该词信息增益大
否则，信息增益小，可以忽略

✅ 优点：考虑了特征与类别之间的非线性关系
❌ 缺点：偏向于特征值较多的特征（需要归一化处理）

5. N-Gram 与词频统计

文本分类中最常见的特征是单词（即 Uni-Gram）。但有时，单个词并不能准确表达语义，此时可以考虑使用 N-Gram。

5.1 什么是 N-Gram？

Uni-Gram：单个词，如 "apple"
Bi-Gram：两个连续词，如 "red apple"
Tri-Gram：三个连续词，如 "a red apple"

5.2 N-Gram 的优势

捕捉上下文语义（例如 "not good" 与 "very good"）
提升分类准确率
可用于情感分析、关键词提取等任务

5.3 使用建议

一般使用 2~3 阶 N-Gram 即可
避免使用过高的阶数（如 5-Gram），否则特征空间爆炸，内存消耗剧增

⚠️ 踩坑提醒：N-Gram 会显著增加特征维度，建议配合卡方检验或信息增益进行降维

6. 总结

本文介绍了三种常用的文本特征选择与降维方法：

方法	原理	适用场景	优点	缺点
卡方检验	统计学相关性	分类任务	简单高效	仅适用于离散特征
信息增益	基于信息熵	多类分类	考虑非线性关系	偏向多值特征
N-Gram	上下文建模	文本理解	提升语义表达	特征爆炸风险

在实际项目中，建议结合使用这些方法，先使用 N-Gram 提升特征表达能力，再用卡方检验或信息增益进行特征选择，从而达到最佳分类效果。

Persistence

REST

Security