Apache Avro (Zeilenbasierte Serialisierung)

Apache Avro ist ein zeilenbasiertes Datenserialisierungsformat, das Schema-Evolution unterstützt. Es wird häufig in Hadoop-Ökosystemen und Event-Streaming (Kafka) verwendet.

MIME-Typ

application/avro

Typ

Binaer

Komprimierung

Verlustfrei

Vorteile

+ Schema evolution — add/remove fields without breaking readers
+ Compact binary encoding with efficient compression
+ Self-describing — schema embedded in the file
+ Standard in Kafka and the Hadoop ecosystem

Nachteile

− Row-based — less efficient than Parquet for analytical queries
− Not human-readable in binary form
− JSON schema specification has a learning curve

Wann Sie .AVRO verwenden sollten

Verwenden Sie Avro für Kafka-Event-Streaming, Hadoop-Pipelines und Szenarien, in denen Schema-Evolution und zeilenweise Verarbeitung wichtig sind.

Technische Details

Avro speichert Daten mit einem eingebetteten JSON-Schema in einem kompakten binären Format. Es unterstützt Schema-Evolution (Felder hinzufügen/entfernen ohne Breaking Changes) und effiziente Zeilenkomprimierung.

Geschichte

Doug Cutting erstellte Avro 2009 für das Hadoop-Projekt als JSON-freundliches, schema-basiertes Serialisierungsformat.

Von .AVRO konvertieren

.avro → .arrow .avro → .csv .avro → .json .avro → .ndjson .avro → .parquet .avro → .xlsx

In .AVRO konvertieren

.arrow → .avro .csv → .avro .json → .avro .ndjson → .avro .parquet → .avro .xlsx → .avro

Categories