1. 概述

在本教程中,我们将深入学习 Guava 提供的一个非常实用的集合类 —— Multiset

它类似于 Java 原生的 Set,可以高效地存储和检索元素,但与 Set 不同的是,Multiset 允许同一个元素出现多次,并通过计数来记录每个唯一元素的出现次数。

这在处理需要统计元素出现次数的场景时非常方便,例如统计书籍库存、单词频率分析等。

2. Maven 依赖

要使用 Guava 的 Multiset,首先需要引入 Guava 的 Maven 依赖:

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>32.1.3-jre</version>
</dependency>

3. Multiset 的基本使用

假设我们有一个书店系统,需要管理每本书的库存数量。由于 Set 不支持重复元素,所以无法直接使用它来表示多个相同书籍的副本。此时,Multiset 就派上用场了。

下面是一个简单示例,展示如何添加书籍、查询库存数量以及减少库存:

Multiset<String> bookStore = HashMultiset.create();
bookStore.add("Potter");
bookStore.add("Potter");
bookStore.add("Potter");

assertThat(bookStore.contains("Potter")).isTrue();
assertThat(bookStore.count("Potter")).isEqualTo(3);

添加三次 "Potter" 后,count 为 3

接下来我们尝试移除一本:

bookStore.remove("Potter");
assertThat(bookStore.contains("Potter")).isTrue();
assertThat(bookStore.count("Potter")).isEqualTo(2);

移除一次后,count 变为 2

我们也可以直接设置某个元素的计数,而不需要多次调用 add 或 remove:

bookStore.setCount("Potter", 50); 
assertThat(bookStore.count("Potter")).isEqualTo(50);

⚠️ 注意:如果传入负数作为计数,会抛出 IllegalArgumentException 异常:

assertThatThrownBy(() -> bookStore.setCount("Potter", -1))
  .isInstanceOf(IllegalArgumentException.class);

禁止设置负数 count

4. 与 Map 的对比

在没有 Multiset 的情况下,我们也可以使用 Map<String, Integer> 来模拟类似功能:

Map<String, Integer> bookStore = new HashMap<>();
bookStore.put("Potter", 3);

assertThat(bookStore.containsKey("Potter")).isTrue();
assertThat(bookStore.get("Potter")).isEqualTo(3);

bookStore.put("Potter", 2);
assertThat(bookStore.get("Potter")).isEqualTo(2);

但使用 Map 时,我们需要手动处理计数的增减逻辑,比如每次 add 要先判断是否存在,再做加法,remove 也类似。

更糟糕的是,Map 的 value 是普通 Integer,可以设置为 null 或负数,而这些在语义上是非法的:

bookStore.put("Potter", null); // ❌ 语义错误但语法正确
bookStore.put("Potter", -1);   // ❌ 同样语义错误

而 Multiset 内部已经对这些边界情况做了封装和校验,使用起来更安全、更直观。

5. 并发场景下的使用

如果在并发环境中使用 Multiset,推荐使用 ConcurrentHashMultiset,它是线程安全的实现类。

需要注意的是,虽然它保证了 add 和 remove 的线程安全,但直接调用 setCount 时,如果多个线程并发执行,结果可能不可预测

Multiset<String> bookStore = ConcurrentHashMultiset.create();
bookStore.add("Potter", 3);

new Thread(() -> bookStore.setCount("Potter", 5)).start();
new Thread(() -> bookStore.setCount("Potter", 10)).start();

⚠️ 上述场景中,最终 count 的值取决于线程调度顺序,可能导致数据不一致。

为了应对这种情况,Multiset 提供了一个带乐观锁的 setCount(key, expectedCount, newCount) 方法:

assertThat(bookStore.setCount("Potter", 0, 2)).isTrue();  // 当前 count 为 0 时设置为 2
assertThat(bookStore.setCount("Potter", 50, 5)).isFalse(); // 当前 count 不是 50,设置失败

✅ 这种方式可以避免并发修改冲突,推荐在并发场景下使用该版本。

6. 小结

通过本文我们了解了 Guava 的 Multiset 是一个非常实用的集合类型,特别适合需要统计元素出现次数的场景。

相比使用 Map,Multiset 提供了更简洁、安全的 API,尤其在处理重复元素时更为直观。

在并发环境下,虽然 ConcurrentHashMultiset 提供了线程安全的支持,但直接使用 setCount 仍需小心,建议使用带版本控制的重试机制来保证数据一致性。


建议场景

  • 单词频率统计
  • 库存管理
  • 日志分析
  • 重复元素计数

不建议使用场景

  • 需要严格顺序的集合操作
  • 元素唯一性是硬性要求

完整示例代码已上传至 GitHub:Guava Multiset 示例源码(mock 地址)


原始标题:Guide to Guava Multiset