El Principio de Pareto, también conocido como la regla 80-20, establece que el 80% de las consecuencias provienen del 20% de las causas, lo que hace que el resto sea mucho menos impactante.

Aquellos que trabajan con datos pueden haber escuchado una interpretación diferente de la regla 80-20: un científico de datos pasa el 80% de su tiempo en el trabajo limpiando datos desordenados en lugar de realizar análisis reales o generar información. Imagínese un viaje de 30 minutos extendido a dos horas y media por los atascos de tráfico, y tendrá una idea.

Por muy tentador que sea pensar en un futuro en el que exista un modelo de aprendizaje automático para cada proceso empresarial, no es necesario que vayamos tan lejos todavía.

Si bien la mayoría de los científicos de datos dedican más del 20% de su tiempo a trabajar en análisis reales, todavía tienen que perder innumerables horas convirtiendo una mina de datos desordenados en un conjunto de datos ordenado listo para el análisis. Este proceso puede incluir eliminar datos duplicados, asegurarse de que todas las entradas tengan el formato adecuado y realizar otros trabajos preparatorios.

En promedio, este paso del flujo de trabajo toma alrededor del 45% del tiempo total, según una encuesta reciente de Anaconda. Una encuesta anterior de CrowdFlower situó la estimación en 60%, y muchas otras encuestas citan cifras en ese rango.

Nada de esto quiere decir que la preparación de datos no sea importante. “La basura entra, sale la basura” es una regla bien conocida en los círculos informáticos y también se aplica a la ciencia de datos. En el mejor de los casos, la secuencia de comandos simplemente devolverá un error, advirtiendo que no puede calcular el gasto promedio por cliente porque la entrada para el cliente # 1527 está formateada como texto y no como un número. En el peor de los casos, la empresa actuará sobre la base de información que poco tiene que ver con la realidad.

LEER  Malt recauda $ 97 millones en una valoración de $ 489 millones para el mercado de desarrolladores independientes - TechCrunch

La verdadera pregunta aquí es si reformatear los datos del cliente # 1527 es realmente la mejor manera de aprovechar el tiempo de un experto bien pagado. Al científico de datos promedio se le paga entre $ 95,000 y $ 120,000 por año, según varias estimaciones. Conseguir que el empleado reciba ese salario para que se concentre en tareas no calificadas y que le adormezcan la mente es una pérdida de tiempo y dinero para la empresa. Además, los datos del mundo real tienen una vida útil, y si un conjunto de datos para un proyecto urgente tarda demasiado en recopilarse y procesarse, puede estar desactualizado antes de cualquier análisis.

Además, las búsquedas de datos comerciales a menudo incluyen la pérdida de tiempo del personal no centrado en los datos, y se les pide a los empleados que ayuden a recuperar o producir datos en lugar de trabajar en sus responsabilidades habituales. Más de la mitad de los datos recopilados por las empresas a menudo no se utilizan en absoluto, lo que sugiere que el tiempo de todos los involucrados en la recopilación se ha desperdiciado produciendo solo retrasos operativos y pérdidas asociadas.

Los datos que se han recopilado, por otro lado, a menudo solo son utilizados por un equipo de ciencia de datos designado que tiene demasiado trabajo para revisar lo que esté disponible.

LEER  Goldman Sachs escisión de Juven para apoyar a las empresas africanas de alto crecimiento con grandes cheques - TechCrunch

Todo por datos y datos para todos

Todos los problemas descritos aquí influyen en el hecho de que, con la excepción de los pioneros de los datos como Google y Facebook, las empresas siempre buscan reinventarse para la era de los datos. Los datos se introducen en enormes bases de datos y los científicos de datos terminan con una gran cantidad de limpieza que hacer, mientras que otros, cuyo tiempo se ha perdido ayudando a recuperar los datos, no los aprovechan con demasiada frecuencia.

La verdad es que todavía estamos a la vanguardia en lo que respecta a la transformación de datos. El éxito de los gigantes tecnológicos que ponen los datos en el centro de sus modelos de negocio ha provocado una chispa que apenas está comenzando a despegar. Y aunque los resultados son mixtos hasta ahora, es una señal de que las empresas aún tienen que dominar el pensamiento con datos.

Los datos son de gran valor y las empresas son muy conscientes de ello, como lo demuestra el apetito por los expertos en inteligencia artificial en las empresas no tecnológicas. Las empresas solo tienen que hacerlo bien, y una de las tareas clave en este sentido es comenzar a enfocarse en las personas tanto como nosotros en la IA.

Los datos pueden mejorar las operaciones de prácticamente cualquier componente dentro de la estructura organizativa de cualquier empresa. Por muy tentador que sea pensar en un futuro en el que exista un modelo de aprendizaje automático para cada proceso empresarial, no es necesario que vayamos tan lejos todavía. El objetivo de cualquier empresa que busque extraer datos hoy en día es llevarlos del punto A al punto B. El punto A es la parte del flujo de trabajo donde se recopilan los datos y el punto B es la persona que necesita estos datos para la toma de decisiones. .

LEER  Tesla avanza con $ 1.6 mil millones en ganancias del tercer trimestre - TechCrunch

Es importante tener en cuenta que el punto B no tiene por qué ser un científico de datos. Este podría ser un gerente que intenta determinar el diseño de flujo de trabajo óptimo, un ingeniero que busca fallas en un proceso de fabricación o un diseñador de interfaz de usuario que realiza pruebas A / B en una funcionalidad específica. Todas estas personas deben tener los datos que necesitan en todo momento, listos para ser procesados ​​para obtener información.

Las personas pueden prosperar tanto con datos como con modelos, especialmente si la empresa invierte en ellos y se asegura de que estén equipados con habilidades analíticas básicas. En este enfoque, la accesibilidad debe ser la palabra clave.

Los escépticos pueden argumentar que los macrodatos no son más que una palabra de moda corporativa sobreutilizada, pero las capacidades analíticas avanzadas pueden mejorar el resultado final de cualquier negocio siempre que venga con un plan claro y expectativas adecuadas. El primer paso es centrarse en hacer que los datos sean accesibles y utilizables, no recopilar la mayor cantidad de datos posible.

En otras palabras, una cultura de datos global es tan importante para una empresa como la infraestructura de datos.

¡Haz clic para puntuar esta entrada!
(Votos: Promedio: )