🍋
Menu
.avro Data

Apache Avro (Zeilenbasierte Serialisierung)

Apache Avro ist ein zeilenbasiertes Datenserialisierungsformat, das Schema-Evolution unterstützt. Es wird häufig in Hadoop-Ökosystemen und Event-Streaming (Kafka) verwendet.

MIME-Typ

application/avro

Typ

Binaer

Komprimierung

Verlustfrei

Vorteile

  • + Schema evolution — add/remove fields without breaking readers
  • + Compact binary encoding with efficient compression
  • + Self-describing — schema embedded in the file
  • + Standard in Kafka and the Hadoop ecosystem

Nachteile

  • Row-based — less efficient than Parquet for analytical queries
  • Not human-readable in binary form
  • JSON schema specification has a learning curve

Wann Sie .AVRO verwenden sollten

Verwenden Sie Avro für Kafka-Event-Streaming, Hadoop-Pipelines und Szenarien, in denen Schema-Evolution und zeilenweise Verarbeitung wichtig sind.

Technische Details

Avro speichert Daten mit einem eingebetteten JSON-Schema in einem kompakten binären Format. Es unterstützt Schema-Evolution (Felder hinzufügen/entfernen ohne Breaking Changes) und effiziente Zeilenkomprimierung.

Geschichte

Doug Cutting erstellte Avro 2009 für das Hadoop-Projekt als JSON-freundliches, schema-basiertes Serialisierungsformat.

Von .AVRO konvertieren

In .AVRO konvertieren

Verwandte Formate