DW 2.0 ¿Demasiada información?

A quien le mencionemos la palabra data warehouse, enseguida se imaginará grandes volúmenes de datos y esto se debe a una combinación de: datos históricos, el detalle de los datos y la gran variedad de datos existentes. Ello genera, así, una ecuación que podría ser la siguiente: Historia x Detalles x Variedad = Gran cantidad de datos.

Con esta introducción, Bill Inmon, uno de los padres del data warehouse, nos pone en contexto para hablar de cómo pueden impactar los datos no estructurados en el volumen de nuestro data warehouse. Con DW 2.0 no solo se cargan en nuestro DW datos estructurados provenientes de diferentes sistemas, sino también datos provenientes de la web, redes sociales, documentos, y demás. Se estima que este tipo de información supera de 5 a 10 veces los datos estructurados, lo que significa que nuestra base crecería exponencialmente. Pero, según Inmon, esto no es tan así, dado que existen una serie de consideraciones a tener en cuenta sobre los datos no estructurados:

– Correos electrónicos de los que existen esencialmente tres tipos: el personal, el no deseado, y el relacionado con la empresa. Solo el correo relacionado con el negocio deberá ser almacenado en el DW.

– Las palabras vacías (stop words) deben ser filtradas en la carga, y dependiendo del idioma este tipo de palabras pueden formar el 40% del texto.

– A veces los documentos (Word, pdf, etc), de donde se saca información no estructurada, están fragmentados en varias partes conectadas por hipervínculos, y otras veces estos documentos se indexan selectivamente. Esta última opción ocupa mucho menos espacio que la primera.

– Algunos documentos necesitan solo los metadatos de referencia. Es mucho más eficiente indexar los metadatos del documento que los contenidos del mismo y, obviamente, el primero ocupa menos espacio.

Así, con todas estas consideraciones, puede apreciarse que no todos los datos no estructurados formarán parte del data warehouse. Entonces, Inmon concluye: Si uno fuera a hacer una conjetura, probablemente tomando la cantidad actual de información que tenemos en nuestro DW y multiplicando ese volumen por tres, quizás sea una buena aproximación.

Fuente: BeyeNETWORK

facebooktwitter

Comments are closed.