Big Data

Big Data es un término de moda desde hace un par de años, y representa una de las grandes tendencias en el mundo de la tecnología y del marketing. Es una de esos términos que empiezan a propagarse por Internet, y las empresas se interesan en ello, se crea una industria alrededor y de repente todos saben lo que es “Big Data”.

Primero de todo, antes de hacer una introducción a Big Data, es necesario aclarar que Big Data no es una enorme de base de datos, ni un warehouse, ni una nueva forma de Business Intelligence ni tampoco implica llevar las base de datos a la nube

Big DataBig Data

Big Data hace referencia a información que tiene un orden de magnitud más grande de lo que estamos acostumbrados. Información que no se ajusta a las estructuras actuales de bases de datos y cuyo tamaño está más allá de la capacidad de la mayoría de los software utilizados para la captura, gestión y procesamiento de la información dentro de un lapso admisible de tiempo.

Big Data no solo se refiere a alguna cantidad (volumen) específica de información (usualmente expresada en términos de petabytes y exabytes de datos). Sino también a la gran variedad de datos que pueden ser representados de diversas maneras, por ejemplo de dispositivos móviles, audio, video, sistemas GPS, bases de datos relacionales, bases de datos NoSQL, archivos xml, ERP/CRM, Redes sociales, Internet de las cosas, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, etc.

Las bases de datos convencionales no pueden gestionar a la velocidad que las empresas y las personas requieren toda esa información.

Este enfoque no reemplaza a las bases de datos convencionales, que siguen siendo una parte importante y relevante para una solución analítica. Es más, éstas se vuelven mucho más vitales cuando se usa en conjunto con una plataforma de Big Data.

Existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayuda a entender mejor su representación, aunque estas categorías se irán extendiendo conforme el avance tecnológico.

  • Web y medios sociales: contenido web e información obtenida de las redes sociales (Facebook, Twitter, LinkedIn, blogs, etc.).
  • Máquina a máquina (M2M): M2M son tecnologías que permiten conectarse a otros dispositivos, tales como instrumentos, sensores o medidores que capturan eventos en particular (velocidad, presión, variables meteorológicas, variables químicas, etc.) los cuales transmiten a través de redes a otras aplicaciones que traducen estos eventos en información significativa.
  • Datos transaccionales: registros de facturación, registros detallados de las llamadas, etc. Estos datos transaccionales suelen estar en formatos semi-estructurados como no estructurados.
  • Datos biométricos: información biométrica como huellas digitales, escaneo de la retina, reconocimiento facial, etc.
  • Generados por humanos: desde correos electrónicos con datos adjuntos hasta llamadas o mensajes de voz como los que se guardan en un call center.

Los retos actuales del fenómeno Big Data son:

  • Dar sentido al gran volumen de datos: disponer de adecuadas herramientas que den sentido a la gran cantidad de datos generados y obtenidos gracias al descenso de los costos de hardware.
  • La comprensión de una variedad cada vez mayor de datos: poder analizar datos tanto relacionales como no relacionales. Más del 85% de los datos capturados son desestructurados.
  • Habilitación de análisis en tiempo real de los datos: los nuevos grandes generadores de datos (Twitter, Facebook, etc.) generan un volumen de datos único e incomparable y en tiempo real, imposible de analizar mediante procesos por lotes normales.