从Avro文件中获取Schema | Baeldung中文网

1. 引言

本文将探讨如何在Java中从Apache Avro文件提取Schema，并介绍读取Avro文件数据的方法。这是大数据处理系统中的常见需求。

Apache Avro是一种数据序列化框架，提供紧凑、快速的二进制数据格式。它在Apache Hadoop等大数据生态系统中广受欢迎。因此，掌握Avro文件操作对数据处理任务至关重要。

2. Maven依赖

要在Java中使用Avro，**需要在Maven项目中添加Avro核心库**：

<dependency>
    <groupId>org.apache.avro</groupId>
    <artifactId>avro</artifactId>
    <version>1.12.0</version>
</dependency>

**测试方面，我们将使用JUnit Jupiter**。如果项目已包含Spring Boot Starter Test依赖，则无需单独添加JUnit（该模块会自动引入）。顺便提一句，此模块还包含Mockito框架。

对于JUnit，建议使用最新稳定版本：

<dependency>
    <groupId>org.junit.jupiter</groupId>
    <artifactId>junit-jupiter-api</artifactId>
    <version>5.11.2</version>
    <scope>test</scope>
</dependency>

⚠️ 新项目启动时，务必确认使用各依赖的最新稳定版本。

3. 理解并提取Avro Schema

在深入代码前，先快速回顾Avro文件结构：

文件头 – 包含文件元数据（含Schema）
数据块 – 实际序列化数据
文件尾 – 额外元数据和同步标记

Avro文件的Schema描述了其内部数据结构，以JSON格式存储，包含字段名称、数据类型等信息。

下面是提取Schema的方法实现：

public static Schema extractSchema(String avroFilePath) throws IOException {
    File avroFile = new File(avroFilePath);
    DatumReader<GenericRecord> datumReader = new GenericDatumReader<>();
    try (DataFileReader<GenericRecord> dataFileReader = new DataFileReader<>(avroFile, datumReader)) {
        return dataFileReader.getSchema();
    }
}

创建表示Avro文件的File对象
实例化GenericDatumReader（不指定Schema使其能读取任意Avro文件）
使用Avro文件和GenericDatumReader创建DataFileReader
通过getSchema()方法提取Schema
使用try-with-resources确保资源正确释放

这种方法无需预先知道Schema结构，是处理各种Avro文件的通用方案。

4. 从Avro文件读取数据

获取Schema后，即可读取Avro文件中的数据。以下是读取方法：

public static List<GenericRecord> readAvroData(String avroFilePath) throws IOException { 
    
    File avroFile = new File(avroFilePath);
    DatumReader<GenericRecord> datumReader = new GenericDatumReader<>();
    List<GenericRecord> records = new ArrayList<>();
    
    try (DataFileReader<GenericRecord> dataFileReader = new DataFileReader<>(avroFile, datumReader)) {
        GenericRecord record = null;
        while (dataFileReader.hasNext()) {
            record = dataFileReader.next(record);
            records.add(record);
        }
    }
    return records;
}

关键步骤：

从路径创建File对象
创建GenericDatumReader（不指定Schema使其能读取任意文件）
使用DataFileReader作为主要读取工具
通过hasNext()和next()遍历文件
将记录添加到列表

✅ 优化点：在next()方法中复用GenericRecord对象，减少对象创建和GC开销。

5. 测试

为确保代码正确性，我们编写单元测试。首先使用@TempDir创建临时目录：

@TempDir
Path tempDir;

private File avroFile;
private Schema schema;

测试前准备数据：

@BeforeEach
void setUp() throws IOException {
    schema = new Schema.Parser().parse("""
                                    {
                                        "type": "record",
                                        "name": "User",
                                        "fields": [
                                            {"name": "name", "type": "string"},
                                            {"name": "age", "type": "int"}
                                        ]
                                    }
                                    """);
    avroFile = tempDir.resolve("test.avro").toFile();

    GenericRecord user1 = new GenericData.Record(schema);
    user1.put("name", "John Doe");
    user1.put("age", 30);

    try (DataFileWriter<GenericRecord> dataFileWriter = 
      new DataFileWriter<>(new GenericDatumWriter<>(schema))) {
        dataFileWriter.create(schema, avroFile);
        dataFileWriter.append(user1);
    }
}

Schema提取测试：

@Test
void whenSchemaIsExistent_thenItIsExtractedCorrectly() throws IOException {
    Schema extractedSchema = AvroSchemaExtractor.extractSchema(avroFile.getPath());

    assertEquals(schema, extractedSchema);
}

数据读取测试：

@Test
void whenAvroFileHasContent_thenItIsReadCorrectly() throws IOException {
    List<GenericRecord> records = AvroSchemaExtractor.readAvroData(avroFile.getPath());

    assertEquals("John Doe", records.get(0).get(0).toString());
}

这些测试创建包含示例Schema和数据的临时Avro文件，验证方法能正确提取Schema和读取数据。

6. 结论

本文介绍了如何使用Java从Avro文件提取Schema并读取数据。我们展示了如何使用GenericDatumReader和DataFileReader在无需预先知道Schema的情况下处理Avro文件。

这些技术对数据分析、大数据处理等Java应用至关重要。通过这些方法，我们可以灵活地管理Avro文件。

最后提醒：在实际项目中务必正确处理异常并管理资源，这样才能在Avro生态系统中高效处理序列化数据。

Persistence

REST

Security