post29 de mayo de 2026

¿Qué es idempotencia en ETL?

#etl#idempotency#best-practices

Why does every Data Engineer obsess about idempotency?

Because pipelines fail constantly. An idempotent pipeline produces the same final state whether you run it once or twenty times — so you re-run it after a failure and move on. A non-idempotent pipeline forces you to manually clean up partial state every time something breaks.

Una operación idempotente produce el mismo resultado si la corres una vez o cien. En ETL esto significa que puedes re-correr un pipeline fallido sin crear duplicados o totales incorrectos.

En la vida real los pipelines fallan constantemente — fallos de red, caídas de fuentes, crashes de servidor. Si tu pipeline es idempotente, lo re-corres y ya. Si no lo es, enfrentas la pesadilla de limpiar datos parciales y averiguar exactamente dónde falló la corrida anterior. La idempotencia es lo que separa un script hobby de DE production-grade.