La Interacción de los Componentes en un Datawarehouse
DWM (data warehouse manager): El Administrador de todo el servicio de DW, debe de atender a los usuarios y a sus
requerimientos (tip: debe de tener la característica de ser sociable). Es alguien que pueda entrar un poco en detalle (luego
cada quien tiene su propio lenguaje o conceptos). No debe de Atarse a la
tecnología, tomarla solo como un medio. El Administrador del Datawarehouse debe
de tener bien claro cómo funciona el negocio, y estar alineado con los
objetivos del negocio. Debe de estar en constante búsqueda de usuarios, o bien, usuarios
potenciales, porque esto le va a dar más fuerza al Datawarehouse y crecimiento.
También debe de definir el diseño de los datos con los que se van a trabajar
(verificar que sean los correctos) Debe de poder hacer que el acceso a los
datos sea de forma simple, consistencia
e integridad de los datos, debe de meterse a todas las fuentes de información y
enderezarlas para que entren bien al datawarehouse. Debe de estar verificando
los resultados con los usuarios (si no son confiables, bajo desempeño), debe de
ser parte de la toma de desciciones,
Esquema: Consiste en diseñar la arquitectura de como va a ser
alimentado, diseñado nuestro esquema de Data Warehousing. Construir el ETL es
lo más importante y tardado, el Datawarehouse es lo más rápido de construir, lo
que está a la derecha del datawarehouse son herramientas del usuario
Sistemas Fuente: Se toma en cuenta realizar una re-ingeniería a varios
niveles para que los datos vengan bien formateados e íntegros (por ejemplo
unificar un catálogo de cuentas, puede ser definir un rango de número de
empleados por empresa, prefijos, sufijos.
Area de Ensayo: o también llamado el Staging Area, puede estar
separado completamente del Datawarehouse
Extracción: Es importante que al procesar la extracción y
transformación, meter cifras control, para estar seguros que estamos trayendo
todos los datos que debemos traer (se procesaron 95,000 registros de 100,000
registros) ya sea por errores, problemas de comunicación, etc.
Transformación: Homogenizar los datos, si es necesario rechazar o
modificar un dato, se requiere hacer un reporte para saber el por que de los
campos. Reporte de que no se pudo resolver (este reporte debe de ser muy muy
mínimo)
Carga: es de los mas sencillos, pero de los mas críticos. (es recomendado que
no haya usuarios, bloquear la tabla donde se cambiarán los datos, deshabilitar
los objetos que estén colgados de dicha tabla, quitar índices, hacer el proceso
de carga (Bulk Copy) de los datos, re-indexar y luego volver a levantar todo
Herramientas: Hay cantidad inmensa de clientes que pueden explotar
el Datawarehouse (por ejemplo el WEKA) y garantizar la compatibilidad y
conectividad.
Metadatos: Son datos
acerca de los datos (rango de valores, de donde viene la información,
cada cuando se actualiza, que formato tiene). Se debe de tener el Diccionario
de datos bien actualizados y documentados
ODS: Operational Data Store (área de datos operacionales) cuando se tienen
paquetes estándar de reportes que siempre se piden. Un área entre el Datawarehouse
y el cliente que se conecta. Es una base de datos pequeña que replica una
cierta cantidad de información y el cliente se conecta a ella. Está fuera del
Datawarehouse. (triggers)
Data Mart: Algunos dicen que un Datawarehouse no existe físicamente,
es una colección de Data Marts. Un data mart es un mini-Datawarehouse por
región (territorio), por tiempo(rangos de fecha),por evento (ventas por
internet, ventas en mostrador, ventas por teléfono). En sí un data mart es una
sección del Datawarehouse principal. Es asilar cierto rango de datos, seccionar
los datos.
Teniendo un Data Mart, podemos ponerlo enfrente del datawarehouse y que del data mart se cuelguen
los clientes o incluso otros ODS’s, con el fin de distribuir la carga del
datawarehouse central
- - - - - - - - - - - - - - - - - - - - - - - -
~Mario Vargas
|
"Two Wrongs Doesn't Make One Right" |
No comments:
Post a Comment