El arte de limpiar antes de pintar

El arte de limpiar antes de pintar

Por qúe tu SQL define la calidad de tu gráfico en tu análisis de datos

Si ya cuentas con algo de experiencia como Analista de datos, sabrás que un dashboard brillante suele esconder detrás un SQL muy aburrido. Muchos analistas junior cometen el error de volcar datos «sucios» en su herramienta de visualización pensando que posteriormente todo se podrá ir solucionando con filtros o campos calculados.

La realidad es que la visualización comienza en la terminal. Si tu WHERE no es preciso o si no has gestionado correctamente los NULL, tú gráfico será en el mejor de los casos, lento; y en el peor, ofrecerá datos falsos.

El SQL es tu base, la visualización es tu fachada

En mis inicios, muchas veces caía en la tentación de ir directo al «color», a ponerme con el diseño de las gráficas lo antes posible.Pero un analista que comience a ser consciente de lo que tiene entre manos pasará al menos el 70% del tiempo optimizando la consulta. No se trata solo de que el gráfico se vea bien, se trata de que sea escalable. Si tu consulta tarda 40 segundos en devolver 1000 filas, tienes un problema técnico que debes solucionar lo antes posible.

Antes de abrir Tableau, Power BI, Seaborn…., asegúrate que tu tabla sea lo más parecida a lo que vas a pintar posteriormente. Menos transformaciones en «caliente» significan menos errores y más velocidad.

Data cleaning con SQL y Python

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *