Big Data, bajo la lupa

Cuando hablamos de información y toma de decisiones no hay forma de evitar que se nos venga a la cabeza Business Intelligence. Para quienes hasta el momento se han desenvuelto en una de estas soluciones, seguramente asumirán que gran parte del conocimiento para la toma de decisiones se podrá inferir a través de las estructuras estables y predecibles disponibles en nuestro Data Warehouse.

El ticket de venta, la prima del asegurado, el llamado a nuestro call center, entre otros, son datos fundamentales para entender nuestra operatoria, pero que no nos permiten validar algunas decisiones más estratégicas, las cuales por lo general son tomadas en base al conocimiento y experiencia que tenga la persona dentro de la organización. Por tal motivo es que necesitamos incluir en nuestro análisis una gran cantidad de información interna y externa a nuestra organización que hasta el momento dejábamos de lado.

Dentro de las fuentes de información internas podemos encontrar:

  • Logs de servidores de aplicación y redes
  • Mails
  • Chat
  • Documentos PDF
  • Intranet y contenido HTML

Y dentro de las externas:

  • Visitas y comportamiento de visitantes en sitios web
  • Opiniones y preferencias en medios sociales
  • Locaciones de GPS
  • Comportamientos en redes de crowdsourcing
  • Datos públicos
  • Voz y video

Para soportar esta diversidad de fuentes es necesario contar con tecnologías que nos permitan almacenar un gran volumen de datos, con distintas estructuras y algoritmos para procesarlos de forma distribuida. En otras palabras, necesitamos una forma más eficiente y escalable de almacenar y analizar información.

Teniendo en cuenta esta nueva necesidad, es que la gente de Cloudera ha creado Hadoop, como una plataforma compuesta por un sistema de almacenaje distribuido y virtualizado (HDFS) y un motor analítico para la realización de cálculos en paralelo (MapReduce). La arquitectura típica de un sistema de estas características se visualiza de la siguiente manera:

Pongamos como ejemplo algunos casos de uso:

  • Tableros de monitoreo en tiempo real
  • Visualizaciones e infografías
  • Análisis predictivo
  • Cruces de información privada con pública
  • Análisis de efectos de red
  • Segmentación de usuarios
  • Análisis sentimental y de texto

Notemos que muchos de los casos no tienen que ver con problemáticas de BI tradicionales, donde el análisis multidimensional soportado por tecnologías relacionales seguirá siendo la opción más adecuada por tantas otras razones, sino que son problemas complejos, muchos de ellos de minería de datos, que requieren de nuevos roles como el del Científico de Datos, persona que entiende de software, algoritmos y entrega de resultados al usuario final, y que combina rigurosidad matemática con poder de análisis, entendimiento de negocios y de visualización de la información.

Según los números, la información global se incrementa año a año un 40%, y la instalación de Big Data más grande del mundo la lidera Facebook con más de 600 Petabytes. En su caso es sencillo imaginarse cual es el valor les representa, pero en el nuestro la pregunta siempre permanece… ¿Es este el momento para traerlo a la mesa?. En la mayoría de los casos la respuesta suele ser no, pero sí creemos que en un futuro no muy lejano el que domine mejor esta práctica gozará de fuertes ventajas competitivas, sea en la industria que sea.

facebooktwitter

2 comments to Big Data, bajo la lupa