05 octubre 2023

Procesamiento de los datos: del Data Lake al Data Warehouse

Data Warehouse

En un mundo dominado por los datos, nos enfrentamos a un desafío: ¿Cómo encontrar el equilibrio entre tener pocos datos y estar abrumado por ellos? ¿De qué sirve tener muchos datos si no se utilizan? ¿Cómo distinguir la paja del trigo? ¿Cómo encontramos soluciones a este dilema, comenzando por el Data Lake y llegando al Data Warehouse, listos para brindar información valiosa y oportuna?

 

Digamos que quieres conocer la presencia de tu marca en los medios. Quizás necesites comprender el impacto de esta presencia en tus ventas, optimizar tus inversiones o comparar tu estrategia con la de tus competidores. De cualquier manera, necesitarás datos.

 

Te pones en contacto con varios vendedores y proveedores y compras un CSV que contiene los datos del trimestre anterior. Después de algunas semanas de análisis, te das cuenta de que este trimestre has perdido decenas de oportunidades. Anotas algunas lecciones pero sabes que esas oportunidades no volverán a presentarse. Entiendes que necesitas información en tiempo real.

 

Afortunadamente, hay un enorme mundo de datos esperando ser recopilados y analizados. Gracias al método de scraping capturas noticias de portales, contenidos de redes sociales e incluso adentrarte en el mundo de las señales audiovisuales como YouTube, televisión y radio.

 

Después de un año de trabajo, tienes a todos los crawlers trabajando día y noche. Decides almacenar información en una base de datos no relacional que te permite escalar y tener flexibilidad en el esquema de datos, como Elastic Search o MongoDB. Además, utilizas un Bucket de Google Storage o S3 para almacenar información audiovisual de manera confiable y eficiente. Por lo tanto, se crea un Data Lake, es decir, un repositorio centralizado de datos sin procesar.

 

Pronto, el Data Lake tendrá millones de datos esperando ser utilizados. Sin embargo, la información procedente de los medios de comunicación es completamente inconsistente. Contiene texto, imágenes, audio, vídeos, cortos y largos, bien escritos y mal escritos, etc. De hecho, estos datos deben transformarse para estandarizarlos y permitir un uso más uniforme.

 

Comprender sus datos

 

La normalización del dataset es especialmente importante en el caso de las comunicaciones. ¿De qué me sirve recibir miles de newsletters cada día si no sé a quién se menciona y qué temas se tratan? ¿Por qué saber que se publicó una determinada cantidad de anuncios si no puedo identificar la marca, su mensaje central, su audiencia y su impacto?

 

Entonces decides contratar un equipo especializado de ingenieros de Machine Learning. Después de dos años de trabajo aplicando decenas de técnicas, puedes transformar tus datos “no estructurados” en datos “estructurados”. En otras palabras, le das significado a tus datos.

 

Por lo tanto, se decide utilizar un motor de base de datos relacional, como PostgreSQL o MySQL, donde se almacena información estructurada, estandarizada y consistente, para facilitar el análisis de los datos posteriormente. Estás en camino a la victoria cuando descubres algo inquietante: la cantidad de datos que has acumulado, que ya asciende a cientos de millones, es tan grande que es demasiado lento para ejecutar una consulta compleja promedio.

 

Paso final: el Data Warehouse

 

Finalmente, logras implementar un paso final en tu proceso: utilizas una base de datos orientada a columnas, como BigQuery o ClickHouse, para crear un Data Warehouse, es decir, la base de datos está optimizada para análisis e informes.

 

Especialízate con EUDE Business School

 

Nuestro Máster en Big Data y Business Intelligence va dirigido a aquellas personas que desean tener un conocimiento amplio de la gestión del dato, de su proceso de obtención y análisis, así como de las herramientas y tecnologías que nos ayuden a entenderlo y aplicar el conocimiento obtenido en la base de nuestro negocio.

 

Un programa formativo que ofrece una visión conjunta de la llamada cultura del dato, que permite conocer las herramientas más utilizadas para la recolección, almacenaje, procesado y visualización de datos, junto con materias fundamentales del marketing digital que nos ayudarán a tener un conocimiento transversal de nuestro cliente y por ende del negocio.

No hay comentarios