Proceso
de Extracción con Software ETL
La primera parte del proceso ETL
consiste en extraer los datos desde todas las diferentes fuentes de información disponibles, ya sean
otros sistemas, webservices, bases de datos o bien archivos estructurados (csv,
mdf, txt, etc). Cada fuente de información debe rigurosamente de tener un
formato constante y válido para poder ser explotado, por otro lado cada fuente
de información es un sistema totalmente separado que puede pertenecer o no a
una organización.
Una parte muy importante del
proceso de extracción es la de analizar los datos extraídos, se debe de revisar
la consistencia de los datos al poner puntos de control y validar que toda la
información se tenga completa y con la estructura que se esperaba. De no ser
así los datos son rechazados (parcial o totalmente).
Un requerimiento importante que
se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en
el sistema origen. Si los datos a extraer son muchos, el sistema de origen se
podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse
con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las
operaciones de extracción suelen programarse en horarios o días donde este
impacto sea nulo o mínimo.
Proceso
de Transformación con una Herramienta ETL
La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio establecidas o funciones sobre los datos extraídos para convertirlos y como su nombre lo indica, transformar los datos que serán cargados.
Ejemplos de transformaciones:
·
Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las
columnas con valores nulos no se carguen)
·
Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y
“M” para Mujer pero el destino tiene que guardar “1″ para Hombre y “2″ para
Mujer)
·
Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en
“1″)
·
Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad *
precio)
·
Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones,
etc.
·
Dividir una columna en varias (por ejemplo, columna “Nombre Completo”;
pasar a tres columnas “Nombres”, “Apellido Paterno” y “Apellido Materno”
·
Manejo de datos con errores: Ejecutar políticas de tratamiento de
excepciones (por ejemplo, rechazar el registro completo, dar al campo erróneo
un valor nulo).
1.
Ab Initio
2.
Benetl
3.
BITool – ETL Software
4.
CloverETL
5.
Cognos Decisionstream (IBM)
6.
Data Integrator (herramienta de Sap Business Objects)
7.
ETI*Extract (ahora llamada Eti Solution)
8.
IBM Websphere DataStage (antes Ascential DataStage)
9.
Microsoft Integration Services
10.
Oracle Warehouse Builder
11.
WebFocus-iWay DataMigrator Server
12.
Pervasive
13.
Informática PowerCenter
14.
Oxio Data Intelligence ETL full web
15.
SmartDB Workbench
16.
Sunopsis (Oracle)
17.
SAS Dataflux
18.
Sybase
19.
Syncsort: DMExpress.
20.
Opentext (antes Genio, Hummingbird).
ORACLE DATABASE 11G
ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION
Enterprise
ETL Option
La opción empresarial ETL (Enterprise ETL Option) para
Warehouse Builder es una opción que puede ser adquirida con “Oracle Warehouse
Builder” como parte de la edición empresarial del motor de base de datos
(Oracle DB Enterprise Edition).
Opciones Avanzadas
para Carga de Datos
En grandes implementaciones, más y más procesos
se ejecutan en paralelo, agotando los recursos debido a las grandes cantidades
de datos que participan en la carga. Como parte de la Enterprise ETL Option,
Warehouse Builder permite ejecutar cargas de datos usando métodos rápidos y
eficientes tales como el Oracle Data Pump y transportable tablespaces. Esta es
una aproximación completamente diferente
al movimiento de datos que se realiza por medio de conjuntos de datos
controlados por el motor de base de datos. Los incrementos en velocidad de
carga se deben entonces a la omisión de las capas SQL tradicionales.
Productividad para
el Desarrollador
¿Necesita hacer más con menos? ¿Necesita estar
seguro de que sus transformaciones sean consistentes y correctamente
documentadas? Warehouse Builder posee una característica llamada Pluggable
Mapping. Esta característica permite que de manera gráfica, se creen piezas de
transformación y se compartan a través de múltiples desarrolladores.
Traza Lineal de
Principio a Fin
Los servicios de administración de dependencias
(Warehouse Builder Dependency Management ) le permiten prever el efecto que
puedan tener los cambios que se hagan en cualquier lugar de los metadatos del
sistema ETL antes de que estos puedan afectarlo y deterióralo.
MS SQL Integration
Services
La integración de los datos puede traer muchos beneficios para la organización.
Al usar toda la información disponible se puede mejorar el análisis del negocio
así como enriquecer los reportes, sin embargo la extracción, transformación y
carga de dicha información puede ser extremadamente lenta y tomar mucho tiempo
para llevar a cabo, los datos de que vienen de diferentes fuentes puede ser
transformados en un formato consistente, limpio y homogéneo.
Para esto podemos usar el servicio de Integración de SQL Server,
el cual automatiza tareas como copiar y descargar archivos, enviar correos
electrónicos en respuesta a ciertos eventos definidos por el administrador, actualizar
nuestras data warehouses, así como simplificar la minería de datos. Con SSIS se
pueden integrar varias fuentes de datos de cualquier índole como SQL Server,
Oracle, Teradata, DB2,
SAP, CRM, SharePoint, realtime, aplicaciones basadas en la nube y mas
Características:
·
Integra y consolida información de
cualquier fuente de información
·
Optimiza la productividad de desarrollar
el ETL
·
Configura y Libera soluciones ETL de
manera sencilla
·
Catálogos reusables (se pueden reusar
partes de ETL’s anteriores o diferentes
·
Se puede integrar con “business
workflows” de Microsoft BizTalk Server for SAP, ERP, CRM, Web Service y
aplicaciones de mainframe
·
Administrar grandes volúmenes de datos e
irlos escalando hasta obtener lo necesario
·
Puede mover grandes cantidades de
información de manera rápida
·
Ofrece un ambiente familiar para
desarrolladores
·
Integration Services de SQL Server 2012
puede ser integrado con Visual Studio 2010 development studio especialmente
para desarrolladores
·
Posee un familiar y comprensivo ambiente
de desarollo
·
Se pueden instalar paquetes en producción
con un wizard
·
Se puede explotar aún más si se integra
con Business Intelligence Development Studio, Analysis Services y Reporting Services de SQL
Server 2012
- - - - - - - - - - - - - - - - - - - - - - - -
~Mario Vargas
~Mario Vargas
"Two Wrongs Doesn't Make One Right" |