Apache Avro (Zeilenbasierte Serialisierung)
Apache Avro ist ein zeilenbasiertes Datenserialisierungsformat, das Schema-Evolution unterstützt. Es wird häufig in Hadoop-Ökosystemen und Event-Streaming (Kafka) verwendet.
MIME-Typ
application/avro
Typ
Binaer
Komprimierung
Verlustfrei
Vorteile
- + Schema evolution — add/remove fields without breaking readers
- + Compact binary encoding with efficient compression
- + Self-describing — schema embedded in the file
- + Standard in Kafka and the Hadoop ecosystem
Nachteile
- − Row-based — less efficient than Parquet for analytical queries
- − Not human-readable in binary form
- − JSON schema specification has a learning curve
Wann Sie .AVRO verwenden sollten
Verwenden Sie Avro für Kafka-Event-Streaming, Hadoop-Pipelines und Szenarien, in denen Schema-Evolution und zeilenweise Verarbeitung wichtig sind.
Technische Details
Avro speichert Daten mit einem eingebetteten JSON-Schema in einem kompakten binären Format. Es unterstützt Schema-Evolution (Felder hinzufügen/entfernen ohne Breaking Changes) und effiziente Zeilenkomprimierung.
Geschichte
Doug Cutting erstellte Avro 2009 für das Hadoop-Projekt als JSON-freundliches, schema-basiertes Serialisierungsformat.