Friday, January 25, 2013

ETL’s ¿Qué le falta? ¿Qué le sobra?

Proceso de Extracción con Software ETL
 
La primera parte del proceso ETL consiste en extraer los datos desde todas las diferentes  fuentes de información disponibles, ya sean otros sistemas, webservices, bases de datos o bien archivos estructurados (csv, mdf, txt, etc). Cada fuente de información debe rigurosamente de tener un formato constante y válido para poder ser explotado, por otro lado cada fuente de información es un sistema totalmente separado que puede pertenecer o no a una organización.
 Una parte muy importante del proceso de extracción es la de analizar los datos extraídos, se debe de revisar la consistencia de los datos al poner puntos de control y validar que toda la información se tenga completa y con la estructura que se esperaba. De no ser así los datos son rechazados (parcial o totalmente).
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo.


Proceso de Transformación con una Herramienta ETL

La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio establecidas o funciones sobre los datos extraídos para convertirlos y como su nombre lo indica, transformar los datos que serán cargados.

Ejemplos de transformaciones:
·         Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen)
·         Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y “M” para Mujer pero el destino tiene que guardar “1″ para Hombre y “2″ para Mujer)
·         Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″)
·         Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio)
·         Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.
·         Dividir una columna en varias (por ejemplo, columna “Nombre Completo”; pasar a tres columnas “Nombres”, “Apellido Paterno” y “Apellido Materno”
·         Manejo de datos con errores: Ejecutar políticas de tratamiento de excepciones (por ejemplo, rechazar el registro completo, dar al campo erróneo un valor nulo). 

 
Ejemplos de Herramientas ETL

1.       Ab Initio
2.       Benetl
3.       BITool – ETL Software
4.       CloverETL
5.       Cognos Decisionstream (IBM)
6.       Data Integrator (herramienta de Sap Business Objects)
7.       ETI*Extract (ahora llamada Eti Solution)
8.       IBM Websphere DataStage (antes Ascential DataStage)
9.       Microsoft Integration Services
10.    Oracle Warehouse Builder
11.    WebFocus-iWay DataMigrator Server
12.    Pervasive
13.    Informática PowerCenter
14.    Oxio Data Intelligence ETL full web
15.    SmartDB Workbench
16.    Sunopsis (Oracle)
17.    SAS Dataflux
18.    Sybase
19.    Syncsort: DMExpress.
20.    Opentext (antes Genio, Hummingbird).
 
 
 
ORACLE DATABASE 11G
ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION
Enterprise ETL Option
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que puede ser adquirida con “Oracle Warehouse Builder” como parte de la edición empresarial del motor de base de datos (Oracle DB Enterprise Edition).
 



Opciones Avanzadas para Carga de Datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los recursos debido a las grandes cantidades de datos que participan en la carga. Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de datos usando métodos rápidos y eficientes tales como el Oracle Data Pump y transportable tablespaces. Esta es una aproximación  completamente diferente al movimiento de datos que se realiza por medio de conjuntos de datos controlados por el motor de base de datos. Los incrementos en velocidad de carga se deben entonces a la omisión de las capas SQL tradicionales.

 

Productividad para el Desarrollador

¿Necesita hacer más con menos? ¿Necesita estar seguro de que sus transformaciones sean consistentes y correctamente documentadas? Warehouse Builder posee una característica llamada Pluggable Mapping. Esta característica permite que de manera gráfica, se creen piezas de transformación y se compartan a través de múltiples desarrolladores.

 

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder Dependency Management ) le permiten prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema ETL antes de que estos puedan afectarlo y deterióralo.
 
 

 
MS SQL Integration Services
 
 
La integración de los datos puede traer muchos beneficios para la organización. Al usar toda la información disponible se puede mejorar el análisis del negocio así como enriquecer los reportes, sin embargo la extracción, transformación y carga de dicha información puede ser extremadamente lenta y tomar mucho tiempo para llevar a cabo, los datos de que vienen de diferentes fuentes puede ser transformados en un formato consistente, limpio y homogéneo.
Para esto podemos usar el servicio de Integración de SQL Server, el cual automatiza tareas como copiar y descargar archivos, enviar correos electrónicos en respuesta a ciertos eventos definidos por el administrador, actualizar nuestras data warehouses, así como simplificar la minería de datos. Con SSIS se pueden integrar varias fuentes de datos de cualquier índole como SQL Server, Oracle, Teradata, DB2, SAP, CRM, SharePoint, realtime, aplicaciones basadas en la nube y mas
 
Características:
·         Integra y consolida información de cualquier fuente de información
·         Optimiza la productividad de desarrollar el ETL
·         Configura y Libera soluciones ETL de manera sencilla
·         Catálogos reusables (se pueden reusar partes de ETL’s anteriores o diferentes
·         Se puede integrar con “business workflows” de Microsoft BizTalk Server for SAP, ERP, CRM, Web Service y aplicaciones de  mainframe
·         Administrar grandes volúmenes de datos e irlos escalando hasta obtener lo necesario
·         Puede mover grandes cantidades de información de manera rápida
·         Ofrece un ambiente familiar para desarrolladores
·         Integration Services de SQL Server 2012 puede ser integrado con Visual Studio 2010 development studio especialmente para desarrolladores
·         Posee un familiar y comprensivo ambiente de desarollo
·         Se pueden instalar paquetes en producción con un wizard
·         Se puede explotar aún más si se integra con Business Intelligence Development Studio,  Analysis Services y Reporting Services de SQL Server 2012
 
- - - - - - - - - - - - - - - - - - - - - - - -
~Mario Vargas


"Two Wrongs Doesn't Make One Right"

No comments:

Post a Comment