background preloader

Calidad de Datos

Facebook Twitter

Microsoft Business Intelligence y más....: Data Profiling Task en Integration Services 2008. Hola a todos, estoy de vuelta.

Microsoft Business Intelligence y más....: Data Profiling Task en Integration Services 2008

En esta ocasión vamos a revisar las posibilidades que nos da Integration Services 2008 para hacer data profiling o analizar perfil de nuestros datos. La respuesta la encontramos en el componente del mismo nombre Data Profiling Task que se encuentra dentro de los componentes del Control Flow. Como vamos a ver más adelante, este nuevo componente nos permite de una manera fácil hacer un análisis completo de nuestros datos resumiéndose en su distribución y calidad. El funcionamiento del Data Profiling Task es bastante sencillo: 1. El Data Profiling Task nos permite realizar los siguientes tipos de análisis (profile requests):• Candidate Key Profile Request: Para determinar si un campo puede servir como identificador (key) mostrando el porcentaje de valores únicos.• Column Lenght Distribution Profile Request: El mínimo y máximo tamaño de variables de tipo cadena.

Agregamos un DataProfiling Task desde el Toolbox al Control Flow: Ejecutamos el paquete: Alan. Tarea de generación de perfiles de datos. Using The Data Profiler Task and FTP Task in SQL Server 2008 Integration Services. Introduction SQL Server Integration Services (SSIS) is a Business Intelligence tool which can be used by database developers or administrators to perform Extract, Transform & Load (ETL) operations.

Using The Data Profiler Task and FTP Task in SQL Server 2008 Integration Services

In my previous article entitled Using Web Service and XML Task in SQL Server 2008 Integration Services I discussed how to use the Web Service Task and XML Task which are available in SQL Server 2008 Integration Services. SSIS New Features in SQL Server 2008 – Part 3. One common approach to defining data quality is data profiling.

SSIS New Features in SQL Server 2008 – Part 3

A data profile is a collection of aggregate statistics about data that may include the number of rows in the Customer table, the number of distinct values in the State column, the number of null or missing values in the Zip column, the distribution of values in the City column, the strength of the functional dependency of the State column on the Zip column—that is, the state should always be the same for a given zip value etc. SQL Server 2008 SSIS introduces the Data Profiling task in its toolbox, providing data profiling functionality inside the process of extracting, transforming, and loading data.

By using the Data Profiling task, analysis of source data can be conducted more effectively, better understanding of source data and prevention of data quality problems before introduced into the data warehouse. Note: One important caveat about this task is that it works only with SQL Server sources (2000 or higher version). Data profiling con SQL Server 2008. Una de las múltiples mejoras que aporta SQL Server 2008 en la parte de ETL con Integration Services es su capacidad para realizar perfilado de datos con su nueva Data Profile Task.

Data profiling con SQL Server 2008

El data profiling es una de las primeras tareas que se suelen abordar en procesos Calidad de Datos, y consiste en realizar un primer análisis sobre los datos de origen, normalmente sobre tablas, con el objetivo de empezar a conocer su estructura, formato y nivel de calidad. Se hacen consultas a nivel de tabla, columna, relaciones entre columnas, e incluso relaciones entre tablas. La Data Profile Task de SSIS funciona seleccionando una tabla de una base de datos SQLServer 2000 o superior (no sirven otras bases de datos), las opciones de perfilado que se quiera realizar sobre los datos de la tabla, y un fichero XML donde se almacenarán los resultados cuando se ejecute la misma.

Es realmente sencillo. Se pueden seleccionar hasta 8 tipos de perfilado, 5 a nivel de columna y 3 a nivel de varias columnas. ¿Le estamos dando la importancia que se merecen a los Procesos de Calidad de Datos? Dentro de las actividades de Gestión de los Datos que realiza una organización resultan cada vez más críticos los procesos que supervisan y garantizan la calidad de los datos.

¿Le estamos dando la importancia que se merecen a los Procesos de Calidad de Datos?

El volumen de información crece constantemente en las organizaciones y disponer de almacenes de datos fiables resulta imprescindible para realizar un correcto análisis y explotación de los mismos evitando inconsistencias, conclusiones erróneas y facilitando el desarrollo de futuros sistemas basados en maestros de datos consistentes, depurados, enriquecidos y fiables. Se trata de un pilar básico dentro de las actividades de Gobierno de Dato y tal y como revela el siguiente post: Un estudio de Information Builders revela la poca calidad de los datos en las empresas, un aspecto poco cuidado por las empresas. Por otro lado, actualmente hay situaciones coyunturales que obligan a una inversión fuerte en procesos de calidad de datos, como puede ser la fusión o compra de empresas. Caso similar puede ser el de los nombres: Perfilado de datos.