Apache Parquet (Sütunlu Depolama)
Apache Parquet, analitik iş yükleri için optimize edilmiş bir sütunlu depolama formatıdır. Veri ambarları, veri gölleri ve büyük veri çerçevelerinde yaygın olarak kullanılır. Parquet, mükemmel sıkıştırma oranları ve verimli sütun bazlı sorgulama performansı sunar.
MIME Tipi
application/vnd.apache.parquet
Tip
Ikili
Sikistirma
Kayipsiz
Avantajlar
- + Excellent compression through columnar encoding
- + Fast analytical queries — reads only needed columns
- + Predicate pushdown skips irrelevant row groups entirely
- + Standard in Spark, DuckDB, Pandas, and cloud data lakes
Dezavantajlar
- − Not suited for transactional row-level updates
- − More complex to write than CSV or JSON
- − Schema evolution has some limitations
.PARQUET Ne Zaman Kullanilir
Büyük veri analitiği, veri gölleri, sütun bazlı sorgulama ve uzun süreli veri arşivleme için Parquet kullanın. Düz tablo verisi aktarımı için CSV tercih edin.
Teknik Detaylar
Parquet, verileri satır gruplarına bölür ve her sütunu bağımsız olarak depolar. Tanımlama düzeyi ve tekrarlama düzeyi ile iç içe verileri destekler. Snappy, Gzip, LZ4 ve Zstandard sıkıştırmalarını kullanabilir.
Gecmis
Cloudera ve Twitter, Parquet'i 2013 yılında ortaklaşa geliştirdi. 2015'te Apache üst düzey projesi oldu ve Spark, Hive, Presto, DuckDB gibi büyük veri araçlarının standart formatı haline geldi.