Fase 5 — Ingeniería de Datos
Pipelines de datos, procesamiento distribuido, SQL avanzado y calidad de datos.
Tema 15
Pipelines de Datos
ETL vs ELT, Apache Airflow, Apache Spark, Data Warehousing, Medallion Architecture y Stream Processing con Kafka.
Tema 16
SQL y Python para Data Engineering
SQL Window Functions, CTEs recursivos, Cohort Analysis, RFM Analysis, Pandas y NumPy para ingeniería de datos.
Tema 17
Data Quality
Great Expectations, data profiling, detección de outliers (IQR, Z-score, Isolation Forest) y pipelines de limpieza de datos.