Figuras tomadas de: https://luminousmen.com

Del Data Lake al Data Warehouse

Al mal tiempo, buena data

--

El mundo se encuentra en un constante crecimiento y avance tecnológico; las ciudades inteligentes utilizan la tecnología para impulsar el desarrollo sostenible y mejorar la calidad de vida de los ciudadanos.

Los Data Lake permiten crear ciudades más viables, habitables y sostenibles, mediante el almacenamiento de datos proveniente de sensores, dispositivos y diversas fuentes con información de la ciudad.

Los almacenes de cadena presentan ofertas de ventas e ideas nuevas de negocio para atraer a sus clientes, todo esto mediante consultas y análisis de los datos estructurados que recopilan de sus usuarios. Los Data Warehouse facilitan el análisis de negocio y permite realizar consultas para encontrar asociaciones con los datos estructurados recopilados.

Los Data Lake y Data Warehouse son herramientas útiles para encontrar soluciones a problemas de ciudad o empresariales. Ahora, ¿qué es un Data Lake y un Data Warehouse?

Data Lake

Es un repositorio de datos usado para almacenar grandes cantidades de datos de cualquier estructura. Es costo-eficiente porque los datos son flexibles y escalables ya que no necesitan un esquema especifico. La información puede provenir de CRM, ERP, IoT (Internet of Things), redes sociales, entre otros.

Herramientas para Data Lake:

Hadoop, Mongo DB, Apache Spark, Cloudera, Teradata, IBM, entre otros.

Data Warehouse

Es un repositorio de datos usado para almacenar y analizar archivos estructurados. Permite un fácil análisis ya que los datos almacenados están limpios y uniformes, cuentan con una estructura que lo hace eficiente para análisis y toma de decisiones. Los datos almacenados son estructurados y provienen de un análisis previo mediante el proceso de ETL (Extract, Transform and Load).

Herramientas para Data Warehouse:

Teradata, SAP Hana, Oracle, SQL, entre otros.

Data Lake vs Data Warehouse

Casos de uso

  • El Reglamento General de Protección de Datos (RGPD) es el primer reemplazo integral de la legislación europea de protección de datos. Su objetivo es estandarizar las expectativas y proteger la información de identificación personal sobre empleados, clientes y sujetos de datos aplicables. Las organizaciones deben comunicar las infracciones de alto riesgo a los interesados ​​afectados dentro de las 72 horas posteriores a la toma de conciencia de dicho riesgo. También deben comunicar infracciones de alto riesgo a los interesados ​​afectados con cero retrasos “indebido”. Esto significa que la recopilación y el análisis de datos de ciberseguridad deben ser proactivos y estar siempre activos. Esto, por supuesto, es un desafío de datos enorme para un Data Lake, la recopilación de datos, el análisis de transmisión, la notificación de eventos y la inteligencia artificial.
  • Una plataforma de datos del cliente (CDP) es una plataforma de gestión de datos basada en marketing. Crea una base de datos de clientes unificada que extrae datos de múltiples fuentes de comportamiento y transacciones, como datos de perfil de clientes, comportamientos web y móviles, sistemas físicos, sistemas de fidelización y datos de centros de servicio. Un identificador coherente vincula todos los datos y admite la segmentación y exploración de marketing para esfuerzos de marketing personalizados. La mayoría de las organizaciones almacenan estos datos en un Data Lake.

Tomados de: https://www.arcadiadata.com/blog/use-cases-for-the-data-lake/

  • Una institución educativa busca mantener contacto informativo adecuado con sus alumnos, una vez estos ya se han graduado y desean disponer de un centro de información unificado en el cual estuvieran absolutamente todos los datos de sus estudiantes. El objetivo en común es acompañar al alumno tanto ahora como más adelante en su carrera y ofrecerle nuevas propuestas que pudieran potenciar el rendimiento del negocio y el desarrollo del estudiante. Como solución se decide construir un Data Warehouse que serviría para el correcto almacenaje de las KPIs, además, se lleva a cabo la integración del CRM que tenía la institución.

Tomado de: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/data-warehouse-ejemplo-de-un-caso-de-exito-sector-educacion

Los Data Lake y Data Warehouse se complementan entre sí en un flujo de trabajo de datos. En un caso, los datos de una empresa en el proceso de ingesta se almacenarán inmediatamente en un Data Lake. Si surge un tema de negocio específico, una parte de los datos considerados relevantes se extrae, se limpia y se exporta a un Data Warehouse.

Para un proyecto de big data se debe elegir que repositorio usar, un Data Lake o un Data Warehouse, todo depende de las necesidades del proyecto. Se recomienda analizar los requerimientos del proyecto con las ventajas que le brinda cada uno y basándose en esa información tomar una decisión. Tener en cuenta que a veces es necesario la combinación de ambos para optimizar la ejecución de ciertos procesos.

--

--

No responses yet