Tag: spark

Summaries

Data and Beyond

Apr 28, 2026

Spark's 50k Small Files Kill Downstream Query Speed

Spark jobs writing 10TB as 50,000 200MB files cause minutes of metadata overhead on reads and break big-data engines' 128MB-1GB file assumptions, slowing queries.

data-science

devops-cloud

spark