¿Qué es idempotencia en ETL?
Why does every Data Engineer obsess about idempotency?
Because pipelines fail constantly. An idempotent pipeline produces the same final state whether you run it once or twenty times — so you re-run it after a failure and move on. A non-idempotent pipeline forces you to manually clean up partial state every time something breaks.
Una operación idempotente produce el mismo resultado si la corres una vez o cien. En ETL esto significa que puedes re-correr un pipeline fallido sin crear duplicados o totales incorrectos.
En la vida real los pipelines fallan constantemente — fallos de red, caídas de fuentes, crashes de servidor. Si tu pipeline es idempotente, lo re-corres y ya. Si no lo es, enfrentas la pesadilla de limpiar datos parciales y averiguar exactamente dónde falló la corrida anterior. La idempotencia es lo que separa un script hobby de DE production-grade.