Un poco más Ha pasado una década desde que The Economist nos advirtió que pronto nos ahogaríamos en datos. La pila de datos moderna ha surgido como un chaleco salvavidas propuesto para este flujo de datos, liderado por empresas emergentes de Silicon Valley como Snowflake, Databricks y Confluent.

Hoy en día, cualquier emprendedor puede registrarse en BigQuery o Snowflake y tener una solución de datos que puede crecer con su negocio en horas. La aparición de soluciones de almacenamiento de datos económicas, flexibles y escalables fue en gran medida una respuesta a las necesidades cambiantes provocadas por la explosión masiva de datos.

Actualmente, el mundo produce 2,5 trillones de bytes de datos todos los días (hay 18 ceros en un trillón). La explosión de datos continúa en los locos años veinte, tanto en términos de producción como de almacenamiento: se espera que la cantidad de datos almacenados continúe duplicándose al menos cada cuatro años. Sin embargo, una parte integral de la infraestructura de datos moderna aún carece de soluciones adecuadas para la era del big data y sus desafíos: monitoreo y validación de la calidad de los datos.

LEER  El juego NFT "Fantasy Equity" quiere que gastes dinero real comprando acciones falsas de startups reales - TechCrunch

Permítanme explicarles cómo llegamos allí y los desafíos para la calidad de los datos.

El dilema del valor / volumen de los macrodatos

En 2005, Tim O’Reilly publicó su innovador artículo “¿Qué es la Web 2.0?” Realmente comenzando la carrera de Big Data. En el mismo año, Roger Mougalas d’O’Reilly introdujo el término “big data” en su contexto moderno, refiriéndose a un vasto conjunto de datos virtualmente imposible de administrar y procesar usando herramientas de BI tradicionales.

En 2005, uno de los mayores desafíos con los datos fue lidiar con grandes volúmenes, ya que las herramientas de infraestructura de datos eran costosas e inflexibles, y el mercado de la nube aún estaba en su infancia (AWS no se lanzó públicamente solo en 2006). El otro fue la velocidad: como señala Tristan Handy de Fishtown Analytics (la compañía detrás de dbt), antes del lanzamiento de Redshift en 2012, realizar análisis relativamente simples podría llevar mucho tiempo, incluso con conjuntos de datos de tamaño mediano. Desde entonces, se ha creado un ecosistema integral de herramientas de datos para mitigar estos dos problemas.

La aparición de la pila de datos moderna (ejemplos de logotipos y categorías)

La aparición de la pila de datos moderna (ejemplos de logotipos y categorías). Créditos de imagen: Validio

Escalar las bases de datos relacionales y los dispositivos de almacenamiento de datos solía ser un desafío. Hace apenas 10 años, una empresa que quería comprender el comportamiento del cliente tenía que comprar y montar servidores antes de que sus ingenieros y científicos de datos pudieran trabajar en la generación de información. Con los datos y la infraestructura circundante costosos, solo las empresas más grandes podían permitirse la ingestión y el almacenamiento de datos a gran escala.

El desafío que tenemos por delante es garantizar que los grandes volúmenes de macrodatos tengan una calidad suficientemente alta antes de que se utilicen.

Luego vino un cambio (rojo). En octubre de 2012, AWS presentó la primera solución viable para el desafío de escala con Redshift: una base de datos de procesamiento masivo paralelo (MPP) nativa de la nube que cualquiera podría usar por el precio mensual de un par de zapatillas ($ 100), aproximadamente 1000 veces. más económico que la configuración anterior del «servidor local». Con una caída de precios de esta magnitud, las compuertas se abrieron y todas las empresas, grandes o pequeñas, ahora podían almacenar y procesar grandes cantidades de datos y desbloquear nuevas oportunidades.

LEER  Zomato apunta a una OPI de $ 1.3 mil millones con una valoración de $ 8.6 mil millones - TechCrunch

Como resume Jamin Ball de Altimeter Capital, Redshift fue un gran problema porque fue el primer almacén OLAP nativo de la nube y redujo el costo de poseer una base de datos OLAP en órdenes de magnitud. La velocidad de procesamiento de consultas analíticas también ha aumentado significativamente. Y más tarde (Snowflake fue pionero en esto) separaron la TI y el almacenamiento, lo que, en términos demasiado simplificados, significaba que los clientes podían escalar sus recursos de almacenamiento y computación de forma independiente.

¿Qué significó todo? Una explosión en la recopilación y el almacenamiento de datos.

¡Haz clic para puntuar esta entrada!
(Votos: Promedio: )