Apache Parquet (Sütunlu Depolama)

Apache Parquet, analitik iş yükleri için optimize edilmiş bir sütunlu depolama formatıdır. Veri ambarları, veri gölleri ve büyük veri çerçevelerinde yaygın olarak kullanılır. Parquet, mükemmel sıkıştırma oranları ve verimli sütun bazlı sorgulama performansı sunar.

MIME Tipi

application/vnd.apache.parquet

Tip

Ikili

Sikistirma

Kayipsiz

Avantajlar

+ Excellent compression through columnar encoding
+ Fast analytical queries — reads only needed columns
+ Predicate pushdown skips irrelevant row groups entirely
+ Standard in Spark, DuckDB, Pandas, and cloud data lakes

Dezavantajlar

− Not suited for transactional row-level updates
− More complex to write than CSV or JSON
− Schema evolution has some limitations

.PARQUET Ne Zaman Kullanilir

Büyük veri analitiği, veri gölleri, sütun bazlı sorgulama ve uzun süreli veri arşivleme için Parquet kullanın. Düz tablo verisi aktarımı için CSV tercih edin.

Teknik Detaylar

Parquet, verileri satır gruplarına bölür ve her sütunu bağımsız olarak depolar. Tanımlama düzeyi ve tekrarlama düzeyi ile iç içe verileri destekler. Snappy, Gzip, LZ4 ve Zstandard sıkıştırmalarını kullanabilir.

Gecmis

Cloudera ve Twitter, Parquet'i 2013 yılında ortaklaşa geliştirdi. 2015'te Apache üst düzey projesi oldu ve Spark, Hive, Presto, DuckDB gibi büyük veri araçlarının standart formatı haline geldi.

.PARQUET formatindan donustur

.parquet → .arrow .parquet → .avro .parquet → .bson .parquet → .csv .parquet → .hdf5 .parquet → .json .parquet → .msgpack .parquet → .ndjson .parquet → .protobuf .parquet → .sql .parquet → .sqlite .parquet → .xlsx .parquet → .xml

.PARQUET formatina donustur

.arrow → .parquet .avro → .parquet .bson → .parquet .csv → .parquet .hdf5 → .parquet .json → .parquet .msgpack → .parquet .ndjson → .parquet .protobuf → .parquet .sql → .parquet .sqlite → .parquet .xlsx → .parquet .xml → .parquet

Ilgili Formatlar

.arrow .avro .bson .geojson .hdf5 .msgpack .ndjson .protobuf .sqlite

Ilgili Terimler

Parquet