Thursday, January 17, 2013

Los mitos del Datawarehouse

Data warehousing


Dándonos a la tarea de Investigar lo que realmente es un esquema de Datawarehouse debemos de partir primero por su definición para posteriormente irlo descomponiendo de acuerdo a sus caracterísiticas

Haciendo un poco de historia:

Cuando surge la necesidad de tener que almacenar información estructurada para poder consultarla, manipularla o bien solamente explotarla surgen los Archivos Maestros. éstos son archivos que tienen un formato secuencial de cierto tipo de datos estructurados, donde los atributos pueden cambiarse pero el registro es permanente. para poder llevar un correcto control y acceso a esta información eran necesarios arreglos de discos o cintas capaces de ir adelante y atras para ser leidos.

Posteriormente surge el concepto de Base de Datos, la cual ademas de llevar un Archivo Mastro lleva un Archivo de Log Transaccional, e incorpora nuevas ventajas como la posibilidad de indexar información para que la búsqueda sea más rápida, también el echo de que permite tener información relacional.

Una base de datos puede dividirse en dos de acuerdo a sus principal función:

OLTP -> Soporte de para llevar a cabo las operaciones del día a día, suele ser un software  caro, soporta puro nivel transaccional, es el requerimiento mas básico que se puede tener para almacenar información dinámica, no se le da acceso a los altos mandos pues son datos muy en bruto. Las transacciones que se llevan a cabo implican inserts, deletes, updates y selects muy específicos y de bajo volumen.

OLAP -> Sigue siendo una base de datos, pero no es transaccional, es una base de datos para análisis. Fundamentalmente está diseñada para soportar Selects de alto volumen solamente, no es para editar, agregar o eliminar registros.

Tanto OLTP y OLAP tienen diferentes estrategias, necesidades diferentes, por lo que no se puede andar pasando de OLAP a OLTP o viceversa

Es Apartir de este esquema de OLAP donde va surgiendo el concepto de DataWarehouse. Antes que nada un Datawerehouse no es un producto que se compre y luego se implemente así de fácil. No es una base de datos común y corriente (base de datos transaccional, operativa) es una base de datos de análisis de datos destinada para ser explotada por sistemas de tipo MIS (Managment Support System) o DSS (Desicion Support System)

Algunos autores la definen como:
“Es una base de datos relacional diseñada para consulta y análisis (curtis)”
“Copia de datos transaccionales estructurada para la consulta y análisis (kimball)”

“Un datawerehouse de acuerdo a sus características puede ser una base de datos estructurada Orientada a materias, integrada, no volátil o variante en el tiempo (Inmon)”

Un Data werehouse tiene caracterísiticas como:

      ·         Montañas de datos (maneja grandes volumenes de información)
·         Slice & dice (hace corte de cierto rango de datos para proyectarlos o explotarlos)
     ·         Facilidad de acceso a los datos (no como tal a los datos crudos, pero si a los datos mas digeridos posibles)
·         Proporcionar datos importantes para cada usuario, debido a que no a todos les interesa todo, quitar la paja y darles solo lo que piden
·         Los usuarios deben de poder sustentar sus decisiones en base a los datos

En base a estas observaciones podemos obtener los requerimientos que debe de tener un DataWarehouse

·         Relevancia: Que sea información necesaria para la toma de alguna descición
·         Exactitud: Tener la certidumbre de que los datos proyectados son veraces
·         Oportunidad: Que los datos estén disponibles para cuando se necesiten
·         Intencionalidad: Saber para que queremos los datos?, a quien están enfocados y para que?
·         Formato: los datos deben de tener consistencia (integridad)
·         Interactividad: Que los datos estén en un medio disponible para que los sistemas externos puedan explotarlos cuando se necesiten
·         Control: Los datos deben de estar protegidos físicamente como lógicamente para evitar mal uso de ellos o siniestros

Un data werehouse no es una báse de datos pública, es interna por cada organización, que tiene también las características de:
  • Orientado a temas: Uno o mas objetivos bien definidos (para que la queremos
  • Integrada: Multiples fuentes de información en una sola
  • No volátil: Una vez que se ingrese un dato, éste no se mueve ni se altera
~Mario Vargas


"Two Wrongs Doesn't Make One Right"

No comments:

Post a Comment