Big Data

La tendencia de grandes volúmenes de datos llama cada vez más la atención a los expertos de la industria de la tecnología. Los sets de datos se vuelven cada vez más grandes y difíciles de manejar. De hecho, demasiado grandes para ser manejados por las bases de datos y software convencionales.

La utilización de la tecnología en las empresas ha generado, a lo largo del tiempo, gran cantidad de información reflejada, por ejemplo, en planillas, facturas e informes, entre otros. es por esto que, el Big Data, irá en gran aumento. Así, los datos existentes en grandes almacenes de datos puede transformarse en información útil, sí y sólo sí, están ordenados, analizados y transformados en respuestas en tiempo real que puedan resolver problemas específicos de una compañía.

Tomemos, por ejemplo, a la tienda online eBay. Tienen más de 200 millones de artículos a la venta, divididos en 50.000 categorías, y compra y vende a 100 millones de usuarios. Esto equivale a 9 petabytes de datos (1 petabytes = 1024 terabytes), según un artículo reciente del New York Times. Por supuesto que eBay no es el único, se dice que Google procesa 24 petabytes por día, AT&T procesa 19 petabytes por día a través de sus redes y el juego World of Warcraft utiliza 1,3 petabytes de almacenamiento.

Estos son muchos datos para almacenar, procesar y gestionar. Entonces, el analista que pueda manejar esta información podrá hacer descubrimientos interesantes. Tanto las empresas como los proveedores de software están al tanto de esto, por lo que varios proveedores de herramientas de Business Intelligence están trabajando en tecnologías que soporten la demanda de este mercado.

En 2010 SAP lanzó HANA (High-Performance AnalyticAppliance), una combinación de software y hardware que permitirá análisis de grandes volúmenes de datos en tiempo real. La estrategia de Oracle es ofrecer enormes máquinas, como Exadata, de procesamiento multiparalelo y tratamiento de datos heterogéneos, entre otras características. Otra herramienta es Hadoop (del proyecto de código abierto Apache), de proceso distribuido en la nube. La misma es un framework que permite a las aplicaciones trabajar con grandes repositorios de datos y miles de nodos. Esta fue inspirada en herramientas como MapReduce o Google File System, o NoSQL, que son bases de datos no relacionales capaces de albergar y procesar una enorme cantidad datos de todo tipo, y que en muchos casos no siguen la lógica de garantías ACID (atomicity, consistency, isolation, durability) característica de las bases de datos convencionales.

facebooktwitter

2 comments to Big Data