Modelamiento de Datos

De Computacion

Hoy en día las organizaciones manejan datos redundantes, heterogéneos e inconsistentes, sobre los cuales se suelen tomar decisiones importantes. Además la globalización, dinamismo e integración de mercados genera grandes cantidades de datos, los cuales no pueden ser aprovechados por las herramientas tradicionales de manera que les permita a las organizaciones hacer frente a los retos y exigencias del entorno actual. La Inteligencia de Negocios (Business Intelligence, BI), entonces, surge como una alternativa que permite el manejo efectivo de la información para la toma de mejores decisiones. Uno de los componentes tecnológicos de BI, son los Almacenes de Datos o Data Warehouse. Un almacén de datos es un repositorio central de datos historicos de toda la organización, de esta manera provee un ambiente para que se haga un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales. Al tener la data histórica de la organización en un solo almacén se simplifica el problema de acceso a la información, por tanto, acelera el proceso de análisis. Para facilitar el análisis y el acceso de los usuarios a los datos del almacén, se requiere herramientas de explotación. BI, proporciona algunos componentes para realizar esta tarea, dos de los cuales son tratados en este documento; Los sistemas OLAP y la Minería de datos. Los Sistemas OLAP son los sistemas de procesamiento analítico en línea, permiten realizar un análisis multidimensional de los datos, lo cual ofrece un enfoque más realista de los negocios; la Minería de datos se enfoca en la explotación de los datos para detectar patrones o relaciones entre los mismos, esto permite a los analistas entender los factores de éxito del negocio. El contenido desarrollado en éste material cubre los aspectos teóricos y procesos de desarrollo de cada uno de los tres componentes fundamentales de los Sistemas de Inteligencia de Negocio, sistemas que han permitido a las organizaciones tener ventajas competitivas y están en continuo crecimiento.

Tabla de contenidos


[editar] Objetivo General

  • Proporcionar al estudiante la formación necesaria para que pueda aplicar los conocimientos y herramientas de inteligencia de negocios más adecuados en un entorno empresarial tan exigente y dinámico como lo es el actual.


[editar] Objetivos Especificos

Los objetivos específicos de la materia, en función de los capítulos que se van a desarrollar son:

1. Conocer cómo han evolucionado los almacenes de datos, así como sus conceptos y principales ventajas.

2. Establecer diferencias entre los sistemas de procesamiento de transacciones en línea (OLPT) y los almacenes de datos.

3. Identificar la arquitectura y componentes de un data warehouse

4. Examinar las herramientas y tecnologías asociadas con la construcción y gestión de un almacén de datos.

5. Conocer la técnica de diseño de una base de datos para almacén de datos, modelado de dimensionalidad

6. Comprender la metodología para el diseño de bases de datos para un almacén de datos.

7. Identificar las principales categorías de servidores OLAP para el análisis de los datos de la organización.

8. Conocer las operaciones de minería de datos: modelado predictivo, segmentación de base de datos, análisis de enlaces y detección de desviaciones y sus principales aplicaciones.


[editar] Bibliografia

Texto Base

CONNOLLY, Thomas M.; BEGG, Carolyn E., Sistemas de Bases de datos: Un enfoque práctico para diseño, implementación y gestión, Pearson, España, 4ta. Edición, 2005.

La presente guía ha sido elaborada en función de los temas que se presentan en éste texto. El lenguaje y el nivel técnico que se presenta en el texto es Medio, aunque se empieza por temas teóricos, fundamentales para comprender los sistemas de inteligencia de negocios; por cada tópico, se abordan casos prácticos mediante el uso y configuración de las herramientas que se proponen.

Bibliografía complementaria

Por cada capítulo de esta Guía, se relaciona un Anexo -y algunas referencias adicionales-, los cuales deberán seguir el mismo proceso de aprendizaje que los temas del libro base.


[editar] Desarrollo del Aprendizaje

[editar] Capitulo 1 :INTRODUCCIÓN A LOS SISTEMAS DE INTELIGENCIA DE NEGOCIOS



[editar] Datos Generales:

Referencia base[1] GestioPolis.com. MEDINA J. Business Intelligence: Conceptos y Actualidad. Disponible en: www.gestiopolis.com/recursos5/docs/ger/buconce.htm. [20 de noviembre del 2006].

El material bibliográfico que debe ser tomado como base de este capítulo, es el anexo que se especifica a continuación y es el que se encuentra también disponible en la referencia [1]

AnexoAnexo 1. Business Intelligence. Conceptos y Actualidad
Referencias Adicionales[2] Monografías.com. SÀNCHEZ, R. Business Intelligence. Disponible en: www.monografias.com/trabajos14/bi/bi.shtml. [20 de noviembre del 2006].

[3] Club de Investigación Tecnológica. Inteligencia de Negocios. Resumen Ejecutivo. Disponible en: http://www.cit.co.cr/informes/34.html. [20 de noviembre del 2006].

[4] Main. Disponible en:

www.main.com.mx/inteligencia%20de%20negocios.asp [06 de febrero del 2007].
Horas de estudio empleadas para el desarrollo del contenido8 horas

[editar] Propósito


El propósito de este capítulo es introducir al estudiante en los ámbitos de la Inteligencia de Negocios, Business Intelligence -BI- como elemento clave en las organizaciones para alcanzar ventajas competitivas.

[editar] Conceptos Clave


  • Sistemas de Inteligencia de Negocios: La Inteligencia de Negocios, BI (Business Intelligence), es un área de especialización dentro de la Tecnología de Información (TI). Entre sus objetivos están la generación de información estratégica-gerencial e histórica, así como su despliegue y difusión entre los usuarios [2].

El uso masivo de sistemas transaccionales en las organizaciones para la gestión de sus datos, ha sido hasta hace unos años, suficiente para proporcionar -mediante reportes- información para la toma de decisiones; sin embargo, el entorno empresarial actual; dinámico, competitivo, exigente y globalizado, requiere de sistemas que permitan explotar los datos que almacenan de manera automatizada y avanzada para convertir la información en una herramienta valiosa para la toma de decisiones y obtener ventajas competitivas.

Las aplicaciones de BI son herramientas de soporte de decisiones que permiten en tiempo real, acceso interactivo, análisis y manipulación de información crítica para la empresa [1].

  • Tecnologías de Inteligencia de Negocios:

Imagen:Herramientasdds.jpg

Al usar inteligencia de negocio, una compañía tiene que integrar los datos de sus unidades y departamentos. Las herramientas del BI permiten recoger, depurar, transformar y organizar y explotar los datos desde diferentes fuentes de datos (bases de datos, hojas electrónicas). Como se puede observar en la Figura 1.1, los Sistemas de BI, comprenden componentes como:

  • Almacenes de datos (Data Warehouse), mercados de datos (Data Marts); sistemas de información histórica, resumida y consolidada.
  • Sistemas OLAP (Procesamiento Analítico en Línea, por sus siglas en inglés).
  • Sistemas de Minería de Datos (Data Mining) para realizar análisis estadísticos y/o matemáticos
  • Balanced Scorecard, muestran las métricas y metas de de la empresa
  • Sistemas de Administración de los Clientes, CRM (Customer Relation Management), con información sobre los clientes de la empresa.

Más adelante en los Capítulos 2, 5 y 6 de éste material, se revisa los conceptos de; almacén de datos, mercado de datos, OLAP y minería de datos. Mientras tanto, para entender la Figura 1.1 considere que:

Un almacén de datos es un repositorio integrado de los datos de toda la organización y un mercado de datos, es un repositorio que agrupa los datos de una unidad o departamento organizacional (menor alcance que un almacén de datos).

Los sistemas OLAP, son sistemas de soporte a la decisión, facilitan el análisis de los datos corporativos almacenados en los almacenes y mercados de datos mediante herramientas de acceso, consulta y visualización.

Los sistemas de minería de datos, mediante diferentes técnicas permite explotar los datos de grandes bases de datos (como almacenes o mercados de datos) para determinar relaciones y patrones entre esos datos, información que sirve para la toma de decisiones.

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Introducción Describe brevemente los orígenes y aplicaciones de BI Revise cuáles han sido las motivaciones de BI
Breve historia de BI Explica la evolución de los sistemas de soporte a decisiones Lea el apartado correspondiente al Anexo para comprender cuál ha sido la evolución de BI
Definición de Business Intelligence Presenta una definición de las aplicaciones de BI Defina con sus propias palabras lo que son las aplicaciones de Business Intelligence
Importancia de BI en las organizaciones Introduce en las ventajas y objetivos de BI Realice una lectura comprensiva de la sección para entender cuál es el aporte e importancia de BI en las organizaciones
Tipos de productos de BI Describe los dos tipos de productos de BI: BI empresarial y plataformas de BI Revise qué tipos de productos de BI existen y sus características principales
Contrastes: BI empresarial vs. Plataformas Presenta los usos y diferentes entre los dos tipos de productos de BI Revise esta sección para entender cuáles son las diferencias y en qué casos aplicar uno de los productos de BI
Tecnologías de BI Enlista y describe las tecnologías que son usadas para BI Revise cuáles son las 5 tecnologías que son parte de BI y que apoyan la toma de decisiones
Business Intelligence Operacional Presenta BI Operacional como el mecanismo para realizar análisis, manejar excepciones y tomar decisiones en tiempo real Indique cuál es el rol de BI operacional dentro de una solución completa de BI empresarial, puede analizar la Figura 3 para mayor comprensión
Factores críticos de éxito Enlista los factores de éxito, beneficios y desafíos de los sistemas de BI Analice cada uno de los factores de éxito y beneficios de BI; además revise cuáles son los desafíos que se deben superar para implementar sistemas de BI exitosos
Riesgos de BI Describe los riesgos inherentes a una implementación de sistemas de BI en las organizaciones Revise y enliste los riesgos asociados a los BI
Cuadrantes de BI empresarial Describe los 4 tipos de proveedores de software para BI Analice las Figura 4 y 5 para conocer cuáles son los fabricantes de software que ofrecen soluciones de BI, además indique las características de cada tipo


[editar] Capitulo 2 : ASPECTOS TEÓRICOS DE LOS ALMACENES DE DATOS



[editar] Datos Generales:

Referencia base[1] CONNOLLY, Thomas M.; BEGG, Carolyn E., Sistemas de Bases de datos: Un enfoque práctico para diseño, implementación y gestión, Pearson, España, 4ta. Edición, 2005.

[2] SQL MAX Transacction. Data Warehousing. Disponible en: http://www.sqlmax.com/dataw1.asp [05 de febrero del 2007]

AnexoAnexo 2. Data Warehousing
Referencias Adicionales[3] Monografías.com. PADRON L. Almacenes de datos: importancia de la estandarizacion de las direcciones para las empresas de hoy en día. Disponible en: www.monografias.com/trabajos31/almacenes-datos/almacenes-datos.shtml [05 de febrero del 2007]

[4] SERRANO, M. Data Warehouses. Disponible en: http://alarcos.inf-cr.uclm.es/doc/ARI/trans/TemaDW.pdf [05 de febrero del 2007]

Paginas1037-1065
Horas de estudio empleadas para el desarrollo del contenido14 horas

[editar] Propósito


El propósito de este capítulo es presentar los conceptos y fundamentos de los almacenes de datos como el repositorio central de datos de una organización y en base al cual se pueden tomar decisiones más efectivas.

[editar] Conceptos Clave


  • Sistema OLTP -Online Transactional Processing-

Sistemas que procesan las transacciones de tiempo real de un negocio [4]; sin embargo son poco eficaces o incapaces de soportar el procesamiento de consultas avanzadas.

Por ej. dentro de esta categoría están sistemas como: Gestión Académica, el cual soporta transacciones de matrículas, ingreso de notas, registro de pagos y es capaz de proveer respuestas a consultas del estilo; cuántos alumnos se matricularon por centro universitario y por carrera en el último período académico; pero no son muy efectivos a la hora de responder a preguntas cómo: en qué período académico, en qué centros universitarios y en qué materias hubo una proyección estadística incorrecta de material bibliográfico (faltó o sobró material). La respuesta a este tipo de pregunta puede ser proporcionada adecuadamente por un almacén de datos. Leyendo el concepto que sigue y el material correspondiente comprenderá por qué.

  • Almacenes de datos (Data warehouse)

Antes de presentar el concepto de un almacén de datos (tecnología de los Sistemas de Inteligencia de Negocios), es importante mencionar cuáles fueron las principales motivaciones por las que surgieron: presentar una vista integrada/consolidada de los datos de la organización, proporcionando no datos sino conocimiento al proceso de toma de decisiones.

Es una colección de datos clasificada por temas, integrada, variable en el tiempo y no volátil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen a una organización [1].

Ahora entiende ¿por qué se requiere un almacén de datos o data warehouse para responder la pregunta antes planteada?. Si aún no tiene la respuesta, no se preocupe, ahora se lo explico.

En una organización como la UTPL, se tienen distintos sistemas de información (Gestión Académica, Distribución de Material, Sistema Financiero, Registro de Personal, entre otros) en diferentes plataformas y arquitecturas. Al tener en una sola base de datos información histórica de éstos sistemas, se puede fácil y rápidamente proporcionar información para que los directivos y autoridades de la Universidad puedan tomar mejores decisiones; en el caso concreto de distribución de material bibliográfico por centro universitario les puede ayudar a identificar las causas de proyecciones incorrectas (para obtener las proyecciones de material se considera las matrículas del Sistema de Gestión Académica e inventario de material del Sistema de Distribución de Material), con lo cual podrían establecer medidas de acción proactivas, correctivas e incluso llevar a la mejora del modelo que se utiliza para proyecciones de material bibliográfico que se requiere por centro universitario.

  • Mercado de datos (Data Mart)
Es un subconjunto de un almacén de datos que soporta los requisitos de un departamento o área de negocio concretos [1].

Los mercados de datos surgen por la complejidad y elevados recursos asociados a la implementación de los proyectos de almacenes de datos.

Un almacén de datos al intentar integrar toda la información de la organización requiere tratar con más; fuentes de datos, plataformas, requisitos de usuarios, presupuesto, tiempo de desarrollo y personal. Una solución es enfocarse en una unidad de negocios y crear un mercado de datos que satisfaga sus requisitos de información.

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Introducción a los almacenes de datos Presenta los conceptos básicos de un almacén de datos, sus ventajas y problemas relacionados a su construcción. Finalmente compara los sistemas OLTP con los almacenes Analice el concepto de un almacén de datos, en cuanto al tipo de datos que almacena.

Revise las ventajas y problemas de un almacén de datos y sus diferencias con un sistema OLTP.

Además revise las secciones 1.1, 1.2 y 1.3 del Anexo 2, para completar el estudio en este tema

Arquitectura de un almacén de datos Describe los componentes de un almacén de datos Lea detenidamente la arquitectura de un almacén de datos y las características de cada componente.

Revise la sección 1.4 del Anexo 2, concerniente a la Estructura de un datawarehouse

Herramientas de acceso para usuarios finales Presenta los tipos de herramientas mediante las cuales los usuarios obtienen y visualizan la información de los almacenes. Conozca las herramientas que los usuarios pueden utilizar para acceder a los almacenes.
Flujos de datos en un almacén de datos Especifica las actividades asociadas con el procesamiento de los datos en un almacén de datos. Revise el diagrama de los flujos de datos en un almacén y la descripción de cada flujo.

Complemente sus estudios en este tema, revisando en el Anexo 2 las secciones 1.6 a 1.11

Herramientas y tecnologías de almacén de datos Presenta las herramientas y tecnologías asociadas con la gestión y construcción de un almacén de datos. Lea detenidamente las herramientas de gestión y administración para almacenes de datos; así como los requisitos y arquitecturas hardware ((SGBD paralelos)) de SGBD para el soporte de almacenes de datos.

Revise el capítulo 3. Software en un Data Warehouse del Anexo 2, para encontrar más información respecto del tema

Mercado de datos Describe el concepto y características de un mercado de datos Defina con sus propias palabras un mercado de datos y comprenda en qué casos se debe crear un mercado de datos.
Almacenes de datos en Oracle Especifica las características que ofrece Oracle9i Enterprise Edition para la gestión de almacenes de datos Describa brevemente las principales características de Oracle9i Enterprise Edition.


[editar] Capitulo 3 :CONSTRUCCIÓN DE ALMACENES DE DATOS



[editar] Datos Generales:

Referencia base1] SQL MAX Transacction. Data Warehousing. Disponible en: http://www.sqlmax.com/dataw1.asp [05 de febrero del 2007]

El material bibliográfico que debe ser tomado como base de este capítulo, es el anexo que se especifica a continuación y es el que se encuentra también disponible en la referencia [1]

AnexoAnexo 2. Data Warehousing
Referencias Adicionales[2] ICEMD. Instituto de Marketing Directo y Comercio Electrónico. Disponible en: www.icemd.com [17 de noviembre del 2006]
Horas de estudio empleadas para el desarrollo del contenido14 horas

[editar] Propósito


El propósito de éste capítulo es, presentar los temas relacionados con el desarrollo de un almacén de datos, incluyendo; fases del proyecto, metodologías y consideraciones de la arquitectura.

[editar] Conceptos Clave


  • Elaboración de un almacén de datos

La implementación de un proyecto de almacén de datos, puede seguir el mismo ciclo de desarrollo que todos los proyectos de software (requerimientos, análisis, diseño, construcción, pruebas e implantación). Sin embargo, hay que considerar que el usuario del almacén de datos -analista del negocio-, rara vez conoce de antemano lo que necesita, por lo que no se debe escatimar recursos y tiempo en el análisis de requerimientos. La etapa de recolección y análisis de requisitos implica entrevistar a dos tipos principales de empleados: responsables de los sistemas OLTP (para identificar las fuentes de datos) y usuarios departamentales (para identificar los requisitos).

Considerando la complejidad de construcción de un almacén de datos, se aconseja reducir el alcance del proyecto; diferentes metodologías de desarrollo proponen empezar con la construcción de mercados de datos e ir creciendo hacia un almacén.

  • Planificación

La planificación es el proceso más importante que determina la clase de tipo de estrategias data warehousing que una organización iniciará [1].

La planeación es la primera etapa dentro de un proyecto de elaboración de un Data Warehouse. Las decisiones tomadas durante la esta fase tienen un impacto significativo en el ámbito de implementación y en la magnitud del esfuerzo.

En las fases del alcance del proyecto se debería incluir una fase de formación en la herramienta utilizada para un máximo aprovechamiento de la aplicación. El seguir los pasos de la metodología y el comenzar el Data Warehouse por un área específica de la empresa, nos permitirá obtener resultados tangibles en un corto espacio de tiempo; es por esto que las organizaciones optan por crear primero un mercado de datos antes que directamente un almacén de datos.

  • Implementación incremental
La implementación incremental reduce riesgos y asegura que el tamaño del proyecto permanezca manejable en cada fase [1].

A diferencia de algunos paquetes de software y sistemas que se pueden comprar, un almacén de datos se tiene que construir. El proceso de construcción e implantación de un Data Warehouse es un proceso evolutivo.

Una metodología específica para la creación de un almacén es la propuesta por SAS Institute: “Rapid Warehousing Methodology”; esta metodología es iterativa, y está basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases.

  • Desarrollo del data warehouse

El desarrollo del data warehouse comienza con la estructura lógica y física de la base de datos del almacén más los servicios requeridos para operar y mantenerlo. Esta elección conduce a la selección de otros dos ítems fundamentales: el servidor de hardware y el DBMS [1].

  • Data Warehouses “Virtual”

Una estrategia de data warehouses virtual, significa que los usuarios finales pueden acceder a bases de datos operacionales directamente, usando cualquier herramienta que posibilite “la red de acceso de datos” [1].

Este tipo de almacén de datos, también es llamado: Point to Point, se considera dentro de la Etapa de Desarrollo del almacén; este enfoque en realidad no implica la creación de un repositorio central a los que tendrán que acceder los usuarios sino se utiliza cada base de datos de la organización.

  • Data Warehouses “Centrales”

Es una única base de datos física, que contiene todos los datos para un área funcional específica, departamento, división o empresa [1].

Son los almacenes de datos reales, es decir, hay un repositorio central al cual acceden los usuarios para obtener la información para la toma de decisiones.

  • Data Warehouses Distribuidos

Los data warehouses distribuidos son aquellos en los cuales ciertos componentes del depósito se distribuyen a través de un número de bases de datos físicas diferentes [1].

  • Implementación

En esta fase, el proyecto de data warehouse debe tener asignado el liderazgo adecuado, así como, los recursos humanos, recursos tecnológicos y el presupuesto apropiado [1]. En definitiva es la puesta en marcha del proyecto de elaboración.

  • Evaluación

Durante esta fase del proyecto, se evalúan los costos y beneficios en la elaboración de un proyecto de construcción de un data warehouse [1].

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Planificación Describe los aspectos relacionados a la creación de un almacén de datos, durante la fase de planificación: Realice una lectura comprensiva de los temas referentes a: factores en la planificación de un data warehouse y estrategias para el desarrollo, diseño y gestión de un Data Warehouse.
Desarrollo Presenta los requerimientos, actividades y factores de éxito para el desarrollo de un almacén de datos Esta fase incluye aspectos clave para entender el proceso de desarrollo de un almacén, por lo que se sugiere leer la sección correspondiente en el Anexo 2.
Implementación Describe las actividades relacionadas a la fase de implementación de un almacén de datos, como: consideraciones previas y estrategias para la implementación Analice los aspectos que se debe considerar y planear para la implementación de un almacén de datos
Evaluación Esta sección presenta los elementos que deben ser evaluados luego de la implementación de un almacén de datos, como son; los costos y beneficios Revise cómo se puede establecer los costos y beneficios asociados a la implementación de un proyecto para almacenes de datos


[editar] Capitulo 4:DISEÑO DE UN ALMACÉN DE DATOS



[editar] Datos Generales:

Referencia base[1] CONNOLLY, Thomas M.; BEGG, Carolyn E., Sistemas de Bases de datos: Un enfoque práctico para diseño, implementación y gestión, Pearson, España, 4ta. Edición, 2005.
AnexoAnexo 3. Modelamiento Multimensional
Referencias Adicionales[2] WOLFF, C. Modelamiento multidimensional. Disponible en: http://www.inf.udec.cl/revista/ediciones/edicion4/modmulti.PDF. [08 de enero del 2007].

[3] MONOGRAFIAS.COM. El Datawarehouse: nueva perspectiva de consulta para las empresas. Disponible en: http://www.monografias.com/trabajos16/datawarehouse/datawarehouse.shtml. [08 de enero del 2007]

Paginas1067-1087
Horas de estudio empleadas para el desarrollo del contenido12 horas

[editar] Propósito


El propósito de este capítulo es introducir en los temas relacionados al diseño lógico de un almacén de datos, considerando los tres tipos de esquemas que se pueden elegir y la importancia del modelado dimensional para construir el modeloss de una base de datos para un almacén.

[editar] Conceptos Clave


  • Diseño de la base de datos para un almacén de datos

Como recordará del Capítulo II, existen algunas diferencias entre los sistemas OLTP, orientados a aplicaciones y los sistemas de almacenes de datos, orientados a temas, al análisis y toma de decisiones; ésta y otras razones obliga a plantearse una nueva forma de diseñar las bases de datos para un almacén de datos. Los sistemas operacionales se sustentan en el Modelo Entidad Relación, E/R - el cual no ofrece un soporte directo para la toma de decisiones - y los almacenes trabajan con el Modelo Dimensional o Multidimensional, DM, el cual parte de una visión de la información como dimensiones de negocio-.

  • Modelado de la dimensionalidad

Modelamiento Dimensional es una técnica de diseño lógico utilizada para modelar bases de datos simples y entendibles al usuario final. La idea fundamental es que el usuario visualice fácilmente la relación que existe entre los distintos componentes del modelo [2].

El modelo dimensional divide los datos en dos grandes tipos: las medidas y las categorías del entorno de estas medidas. Las medidas, que generalmente son numéricas, se almacenan en las Tablas de Hechos y las categorías o descripciones que son textuales se almacenan en las Tablas de Dimensiones [3].

Imagen:Categorias.jpg

  • Tabla de Hechos

Las tablas de hechos son las tablas primarias en el modelo dimensional y contiene los valores del negocio. Los hechos son valores numéricos. Contiene dos o más claves foráneas que corresponden a sus respectivas tablas de dimensiones.

Tomando como referencia la Figura 2, existe una tabla de hechos que contiene una clave foránea (denunciante_id, denuncia_id, fecha y zona_id) por cada dimensión con la cual se relaciona; los hechos o medidas son los campos numéricos: valor y total. Esta tabla de hechos guarda las transacciones sobre denuncias registradas en alguna comisaría; el nivel de detalle de las transacciones que se almacenen dependerá del nivel de granularidad que se requiera.

  • Granularidad

La granularidad se refiere al nivel de detalle admitido en una tabla de hechos. Siguiendo con el ejemplo de la Figura 2, las 4 claves foráneas de la tabla de hechos nos muestran que ésta tabla guarda las transacciones diarias (fecha) de denuncias por denunciante, denuncia y zona; sino se quisiera este nivel de detalle, se podría quitar la dimensión fecha para almacenar las denuncias por denunciante sin considerar la fecha.

  • Tabla de dimensión

En este tipo de modelo, los datos se representan mediante dimensiones; cada dimensión se define por su llave primaria que sirve para mantener la integridad referencial en la tabla de hechos a la que se acopla. Los atributos de estas tablas sirven de base a las solicitudes que se hacen al almacén de datos.

Las tablas de dimensiones contienen información jerárquica que permitirán la realización de las agregaciones o las profundizaciones.

En la Figura 2 las dimensiones son: denunciante, denuncia, fecha y zona, esto permitirá realizar consultas sobre denuncias de acuerdo a estos 4 criterios, ya sea mediante filtros o agrupaciones.

  • Dimensiones lentamente cambiantes

Son aquellas dimensiones que se mantienen “casi” constantes en el tiempo y que pueden preservar la estructura dimensional independiente del tiempo, con sólo agregados menores relativos para capturar la naturaleza cambiante del tiempo [2].

  • Esquema en estrella

El esquema estrella deriva su nombre del hecho que su diagrama forma una estrella, con puntos radiales desde el centro. El centro de la estrella consiste de una o más tablas de hechos, y las puntas de la estrella son las tablas de dimensiones [2].

  • Esquema en copo de nieve

Es una variante del esquema en estrella en el que las tablas de dimensión no contienen datos desnormalizados [1].

  • Esquema en copo de estrella
Es una estructura híbrida que contiene una mezcla de esquemas en estrella y en copo de nieve [1].

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Diseño de la base de datos para un almacén de datos Describe básicamente las actividades relacionadas al diseño de una base de datos para un almacén de datos. Revise los temas relacionados al diseño de una base de datos para un almacén de datos (libro base) y sus diferencias con el diseño para sistemas OLTP.

También revise la sección 1.1 del Anexo 3

Modelado de la dimensionalidad Presenta los principales conceptos del modelado lógico de una base de datos para un almacén de datos. Lea la sección 1.1, Modelo de Datos, del Anexo 3 y la sección relacionada del libro base.

Analice la Figura 32.1 del libro base para comprender las diferencias y relaciones entre Tabla de Hechos y de Dimensiones.

Metodología de diseño de bases de datos para almacenes de datos Describe la metodología para diseño de base de datos propuesta por Kimball, “Metodología de los nueve pasos” Revise los pasos de la metodología de Kimball y analice las figuras que se proponen en cada paso de manera que se facilite su comprensión. Además en el Anexo 3, encontrará más ejemplos de los esquemas de base de datos
Criterios para verificar la dimensionalidad de un almacén de datos Describe los 3 grupos de criterios que se deben considerar para evaluar la dimensionalidad proporcionada por un almacén de datos Revise por qué es importante conocer cuáles son los criterios para verificar la dimensionalidad de un almacén de datos
Diseño de almacenes de datos con Oracle Presenta la tecnología de Oracle disponible para almacenes de datos Examine cuáles son los componentes de Oracle Warehouse Builder, así como el soporte que ofrece para la implementación de almacenes de datos

[editar] Capitulo 5: PROCESAMIENTO ANALÍTICO EN LÍNEA

[editar] Datos Generales:

Referencia base[1] CONNOLLY, Thomas M.; BEGG, Carolyn E., Sistemas de Bases de datos: Un enfoque práctico para diseño, implementación y gestión, Pearson, España, 4ta. Edición, 2005.
Referencias Adicionales[2] TRUJILLO, J. PALOMAR, M. (2001). Uso y diseño de bases de datos multidimensionales y almacenes de datos. Disponible en: http://www.dlsi.ua.es/~jtrujillo/doctotema3disedw.pdf [07 de febrero del 2007]
Paginas1089-1113
Horas de estudio empleadas para el desarrollo del contenido12 horas

[editar] Propósito


El propósito de este capítulo es introducir en las herramientas de acceso a repositorios grandes de información, Online Analytical Processing -OLAP-, como instrumento para proporcionar capacidades analíticas avanzadas.

[editar] Conceptos Clave


  • Procesamiento analítico en línea

Los SGBD relacionales (con soporte para sistemas OLTP) permiten la ejecución eficiente de un gran número de transacciones relativamente simples; sin embargo, los SGBD para soporte de almacenes de datos deben permitir la ejecución eficiente de consultas tanto simples como complejas, simples como cuántos estudiantes de modalidad clásica se han matriculado en el presente período o complejas como cuál fue el porcentaje de deserción de estudiantes nuevos hace un año atrás. OLAP, soporta consultas avanzadas, permitiendo el acceso rápido, coherente e interactivo a posibles vistas posibilitando: realizar análisis avanzado de datos y por ende facilita la comprensión de datos corporativos.

OLAP, es la síntesis, análisis y consolidación dinámica de grandes volúmenes de datos multidimensionales [1].

OLAP –Online Analytical Processing- se caracteriza por permitir realizar un análisis multidimensional (eL análisis multidimensional parte de una visión de la información como dimensiones de negocio) de datos corporativos, capaces de soportar el análisis de los usuarios y unas posibilidades de navegación, seleccionando la información a obtener. Para poder ofrecer estas características, éstos sistemas deben:

  • Soportar requerimientos complejos de análisis.
  • Analizar datos desde diferentes perspectivas.
  • Soportar análisis complejos contra un volumen ingente de datos.
  • Baterías de prueba OLAP

Las baterías de pruebas OLAP, APB-1, publicadas por la organización OLAP Council, sirven para medir las prestaciones OLAP globales de un servidor [1].

  • Vistas multidimensionales

Como se mencionó en el Capítulo 4, se utiliza el modelado multidimensional para el diseño de bases de datos para almacenes de datos, puesto que, las vistas multidimensionales de los datos corporativos es un requisito fundamental para la construcción de modelo de negocio realista [1].

Los servidores de bases de datos OLAP utilizan estructuras multidimensionales para almacenar los datos y las relaciones existentes entre los mismos (La tabla en un SGBDR (Sistema de Gestión de Base de Datos Relacional) sólo puede representar los datos multidimensionales en dos dimensiones). La mejor manera de representar intuitivamente las estructuras multidimensionales es como cubos de datos y cubos dentro de otros cubos de datos. Cada lado de un cubo es una dimensión.

  • Bases de datos multidimensionales

Son bases de datos compactas y fáciles de entender para visualizar y manipular elementos de datos que tengan múltiples relaciones [1]. Una base de datos multidimensional usa la idea de un cubo para representar las dimensiones disponibles para un usuario.

Los SGBDs multidimensionales soportan diversas técnicas para el almacenamiento de arreglos poco densos en una forma más eficiente.
  • Categorías de herramientas OLAP

De acuerdo al soporte del SGBD (modelado Entidad-Relación o Muldimensional) y del esquema de diseño, existen tres categorías de servidores OLAP:

  • ROLAP (Relational OLAP): Almacenamiento en un esquema en estrella (no normalizado) o copo de nieve (normalizado).
  • MOLAP (Multimensional OLAP): Los datos se almacenan en un sistema de matrices (Cubo) en donde cada eje es una dimensión.
  • HOLAP (Hybrid OLAP): Proporciona análisis multidimensional accediendo indistintamente a bases de datos multidimensionales o relacionales (es una unión entre ROLAP y MOLAP).

Como podrá concluir con lo estudiado hasta el momento, el diseño de una base de datos para un almacén de datos está determinado por la categoría o tipo de servidor OLAP que se elija. Si una empresa no desea o no puede invertir en la compra de un servidor o herramienta OLAP multidimensional, MOLAP, puede aprovechar su infraestructura actual, SGBD relacional, y desarrollar un modelo en estrella, copo de nieve o híbrido para poder construir su almacén de datos.

  • Extensiones OLAP al estándar SQL

SQL (Structured Query Language, Lenguaje Estructurado de Consultas), soporta actualmente -SQL 2003- unas funciones OLAP como extensiones al estándar SQL; dichas funciones proporcionan una serie de extensiones para capacidades de agrupamiento; así como operadores elementales para el cálculo de valores y funciones de clasificación ordenada de datos.

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Procesamiento analítico en línea, OLAP Introduce en los conceptos de OLAP y presenta opciones para medir las prestaciones de un servidor que implemente esta característica Lea el tema correspondiente en el libro base y determine cuáles son las ventajas de un servidor OLAP
Aplicaciones OLAP Describe las características de las aplicaciones OLAP y las principales áreas donde se puede usar Revise en qué casos se puede utilizar y resultar de mucho beneficio las aplicaciones OLAP
Representación de datos multidimensional Explica por qué se requiere tener una vista multidimensional de los datos y cómo se representan mediante cubos Realice una lectura comprensiva del tema en el libro base, especialmente analice la Figura 33.1, para comprender cómo es la representación mediante el modelo multidimensional
Herramientas OLAP Presenta algunas herramientas y arquitecturas OLAP disponibles en el mercado y cuáles son sus características Revise cuáles son las 12 características que se deben evaluar para seleccionar herramientas OLAP (Reglas de Codd) y las categorías de herramientas OLAP, comprendiendo sus características y diferencias entre ellas.
Extensiones OLAP al estándar SQL Describe las funciones OLAP que se han incorporado al estándar SQL Lea detenidamente esta sección para entender el uso y aplicación de las funciones OLAP soportadas por SQL, analice los ejemplos propuestos para comprender mejor el tema
Aplicaciones OLAP en Oracle Describe cómo Oracle soporta la tecnología OLAP como uno de los componentes más importantes de su plataforma Analice cuáles son las características y el componente OLAP de Oracle, así como sus prestaciones y beneficios


[editar] Capitulo 6: MINERÍA DE DATOS



[editar] Datos Generales:

Referencia base[1] CONNOLLY, Thomas M.; BEGG, Carolyn E., Sistemas de Bases de datos: Un enfoque práctico para diseño, implementación y gestión, Pearson, España, 4ta. Edición, 2005.
AnexoAnexo 4. Técnicas de Análisis de datos
Referencias Adicionales[2] Revista de la Facultad de Ingeniería Industrial. Data Mining y el Descubrimiento del Conocimiento (2004). Disponible en:

www.scielo.org.pe/pdf/id/v7n2/a13v7n2.pdf. [18 de diciembre del 2006]

[3] MOLINA J. GARCIA J (2004). Técnicas de Análisis de Datos. Aplicaciones prácticas utilizando Microsoft Excel y WEKA. Disponible en: galahad.plg.inf.uc3m.es/~docweb/ad/transparencias/apuntesAnalisisDatos.pdf. [29 de enero del 2007]

[4] TWO CROWS CORPORATION. Disponible en: www.twocrows.com [24 de enero del 2007].

[5] RODRIGUEZ, M. ALVAREZ, J. MESA J. GONZALEZ A. Metodologías para la realización de proyectos de data mining. Disponible en: www.aeipro.com/congreso_03/pdf/mayte@api.uniovi.es_dc2336 ab68ff252c5840828af4bc7999.pdf. [29 de enero del 2007]

[6] EDELSTEIN H. Construya relaciones rentables con sus clientes usando Data Mining. Disponible en: www.spss.com/la/whitepapers/Construya%20relaciones%20rentables%20con% 20sus%20clientes%20usando%20DM.pdf. [29 de enero del 2007]

[7] MONTES Y GOMEZ, M. GELBUKH, A. LOPEZ, A. Detección de los patrones raros en un conjunto de datos semiestructurados. Disponible en: http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/DesviacionGCs-cic01.pdf. [07 de febrero del 2007].

Paginas1115-1127
Horas de estudio empleadas para el desarrollo del contenido8 horas

[editar] Propósito


El propósito de este capítulo es introducir en el conocimiento del área de Descubrimiento de conocimiento a partir de datos; específicamente en el ámbito de la Minería de Datos, como herramienta que se puede aplicar sobre fuentes de datos extensas para extraer el conocimiento necesario para la toma de decisiones.

[editar] Conceptos Clave


  • Descubrimiento de conocimiento a partir de datos (KDD)

KDD, Knowledge Discovery Data, es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y entendibles a partir de los datos.

El descubrimiento de conocimiento implica descubrir información sin necesidad de formular previamente una hipótesis, es decir, se aplica en casos en los que generalmente no se conoce el problema a resolver por ello no se pueden aplicar herramientas analíticas tradicionales como SQL o incluso el análisis multidimensional (OLAP).

KDD, es un área multidisciplinaria; para dar respuesta a preguntas o problemas no estructurados o que requieren un análisis de datos avanzado, integra técnicas de Aprendizaje Automático, Estadística, Bases de Datos, Inteligencia Artificial, Redes Neuronales Artificiales, entre otras áreas.

  • Minería de datos

La Minería de datos, MD, es el proceso de extraer información válida, previamente desconocida, compresible y útil de una base de datos de gran tamaño y utilizar dicha información para tomar decisiones de negocio cruciales. [1]

La definición de Minería de Datos implica actuar sobre bases de datos de gran tamaño (a mayor volumen de datos mayor fiabilidad en las conclusiones) y complejidad elevada; para extraer el conocimiento que no es evidente o posible conocer mediante las herramientas de recuperación tradicionales.

MD, es una parte o componente de KDD. KDD, es el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos; aunque modelos de MD como: CRISP-DM, Two-Crows y SEMMA, consideran etapas referentes a estos procesos.

  • Algoritmos de minería de datos
Los algoritmos de minería de datos, se clasifican en dos grupos dependiendo del tipo de aprendizaje.

Supervisados o Predictivos: trabaja sobre un conjunto de datos y predicen el valor de un atributo, conocidos otros atributos. A partir del valor de los atributos conocidos se induce una relación entre esos datos y otra serie de atributos. Esas relaciones sirven para realizar la predicción en datos cuya etiqueta es desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases: entrenamiento, la cual consiste en construir un modelo utilizando una gran muestra de datos históricos, llamada conjunto de entrenamiento y prueba (comprobación del modelo utilizando datos nuevos).

  • No supervisados o de descubrimiento del conocimiento: Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese caso hay que recurrir a los métodos que descubren patrones y tendencias en los datos actuales (no utilizan datos históricos).
  • Técnicas de minería de datos

Así como para acceder y manipular los objetos de una base de datos, existen dos grupos de sentencias SQL básicas: DDL -Data Definition Language- y DML -Data Manipulation Language-; para extraer el conocimiento de éstas bases de datos, existen 4 tipos de operaciones: modelado predictivo, segmentación, análisis de enlaces y detección de desviaciones.

Una técnica de minería de datos es la implementación específica de una o más operaciones de minería de datos.[1]
  • Modelado Predictivo

Utiliza observaciones para formar un modelo de las características más importantes de algún tipo de fenómeno; en base a generalizaciones encaja nuevos datos dentro de un marco general.[1]

El modelado predictivo es muy aplicado en el marketing, pues permite realizar un análisis de los clientes y del mercado y crear modelos que permitan predecir el comportamiento del cliente y anticipar de qué manera oscilarán sus motivaciones para la adquisición de productos y servicios y sobretodo para determinar su valor potencial y su evolución en el tiempo.

  • Segmentación

Particiona una base de datos en un número desconocido de segmentos, clústeres o grupos de registros similares, los cuales comparten una serie de propiedades y que por ello se consideran homogéneos.[1]

Respuestas a preguntas como: ¿Existen segmentos de clientes con comportamiento o características similares?, pueden servir para el lanzamiento de productos específicos para ese grupo o la mejora de características de los productos y/o servicios; también puede servir para identificar los clientes que tienen la mayor probabilidad de responder positivamente a una campaña publicitaria.

  • Análisis de enlaces

Trata de establecer vínculos o asociaciones entre los registros individuales o entre los conjuntos de registros de una base de datos.[1]

Esta operación suele ser utilizada para responder preguntas del tipo: ¿Un cliente que consume el producto X tiende a consumir el producto Y?; con esta información se podría mejorar la ubicación física o lógica de los productos dentro de una estantería o sitio Web, respectivamente; además se podrían establecer ofertas o promociones que incluya a ambos productos y mejorar las ventas o liquidar productos desactualizados, entre otros fines.

  • Detección de desviaciones

Identifica las excepciones que expresan una desviación con respecto a una cierta expectativa o a una norma previamente conocida. Puede utilizarse mediante técnicas de visualización y estadísticas. [1]

Esta operación es utilizada por ejemplo, para detectar fraudes mediante tarjetas de crédito; para lo cual se comienza estableciendo un valor referencial (para facilitar su comprensión, considere que este monto puede ser un valor promedio, aunque realmente se suelen utilizar medidas estadísticas más complejas) de retiros de dinero por cliente; a partir de éste valor se pueden identificar excepciones o desviaciones en movimientos de este tipo e implementar acciones tendientes a prevenir o disminuir los fraudes.

  • Proceso de minería de datos

La minería de datos se desarrolla mediante procesos formales como: CRISP-DM, Two-Crows y SEMMA. El primer proceso es el que se explica en el libro base.

CRISP-DM, Cross Industry Standard Process for Data Mining (1996), especifica un modelo de proceso jerárquico de minería de datos que no es específico de ningún sector ni herramienta concretos.[1]

Two-Crows -Minería de Datos para el Descubrimiento de Conocimiento- propuesto por Two Crows Corporation (firma consultora especializada en el descubrimiento de conocimiento) incorpora elementos de aprendizaje considerando su propia experiencia y de los procesos de KDD y CRISP-DM.

SEMMA, es una metodología propuesta por SAS Institute y la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del proceso.

[editar] Esquema de Estudio


A continuación se detallan los temas que se debe desarrollar, una descripción general del mismo, y un conjunto de actividades que se recomienda sean desarrolladas para una mejor asimilación de los conceptos. Se han dispuesto las tres columnas de la derecha para llevar un control personal del tiempo de dedicación a cada tema, marcar las actividades que cada estudiante estima que necesita tutoría y realizar anotaciones personales.

<center>

Tema a revisar Descripción del Contenido a revisar Actividades Recomendadas Planificación Personal del estudio (fecha) ¿Requiero Tutorial? Anotaciones
Knowledge Discovery in Databases -KDD- y Minería de datos MD Introduce en las área de KDD y minería de datos y presenta algunas de sus aplicaciones Lea la sección 34.1, Minería de Datos, del libro base y revise algunos ejemplos de aplicaciones de ésta área y los conceptos fundamentales.

Además del Anexo 4, revise las secciones correspondientes al punto 1.1 para profundizar sus conocimientos en KDD y su relación con la minería de datos

Técnicas de minería de datos Presenta las operaciones y técnicas de la minería de datos La minería de datos se fundamenta en cuatro operaciones de la cual se implementan algunas técnicas, mismas que permiten explotar los datos de un repositorio de datos. Es importante que conozca cuáles son esas operaciones, técnicas y algoritmos de MD puede comprender mejor con los ejemplos que se describen en el libro base.
Proceso de minería de datos Describe el modelo CRISP-DM como base para el desarrollo de proyectos de minería de datos Revise cuáles son las fases del modelo CRISP-DM y las tareas asociadas a cada una.
Herramientas de minería de datos Presenta las características más importantes de las herramientas de minería de datos. Lea la sección 34.4 de libro base para conocer las características básicas que pueden incluir las herramientas de MD.

Revise la sección 1.3 del Anexo 4, para conocer las características, ventajas, desventajas y usos de algunas herramientas de minerías de datos.

Minería de datos y almacenes de datos Explica las razones por las que la minería de datos debe trabajar sobre una fuente de datos limpia, integrada y coherente Realice una lectura comprensiva de las secciones correspondiente en el libro base y del punto 1.2 del Anexo 4, para comprender la relación entre las áreas estudiadas (almacenes de datos y minería de datos)
Arquitectura Software para Data Mining Describe el soporte arquitectónico para integrar las tecnologías de minería de datos. Analice cuáles son las opciones arquitectónicas para poder integrar las tecnologías de MD que se presenta en el Anexo 4. Considere que en el libro base no se trata este tema por lo que la única fuente de consulta es el Anexo del capítulo.
Oracle Data Mining Presenta las capacidades de minería de datos que proporciona Oracle, así como el soporte para aplicaciones de MD Revise la sección 34.6 del libro base para conocer las capacidades, soporte para aplicaciones y entorno de Oracle Data Mining.
Herramientas personales