Fase 5 — Ingeniería de Datos

Pipelines de datos, procesamiento distribuido, SQL avanzado y calidad de datos.

Tema 15
Pipelines de Datos

ETL vs ELT, Apache Airflow, Apache Spark, Data Warehousing, Medallion Architecture y Stream Processing con Kafka.

Tema 16
SQL y Python para Data Engineering

SQL Window Functions, CTEs recursivos, Cohort Analysis, RFM Analysis, Pandas y NumPy para ingeniería de datos.

Tema 17
Data Quality

Great Expectations, data profiling, detección de outliers (IQR, Z-score, Isolation Forest) y pipelines de limpieza de datos.