1 Conceptos de Data Warehousing

1 Conceptos de Data Warehousing

Este capítulo proporciona una visión general de la implementación de Oracle data warehousing. Incluye:

  • ¿Qué es un almacén de datos?
  • arquitecturas de Data Warehouse

tenga en cuenta que este libro está destinado a complementar los textos estándar sobre Data warehousing. Este libro se centra en material específico de Oracle y no reproduce en detalle material de naturaleza general., Dos textos estándar son:

  • The Data Warehouse Toolkit by Ralph Kimball (John Wiley and Sons, 1996)
  • Building the Data Warehouse by William Inmon (John Wiley and Sons, 1996)

¿qué es un almacén de datos?

un almacén de datos es una base de datos relacional que está diseñada para consultas y análisis en lugar de para el procesamiento de transacciones. Por lo general, contiene datos históricos derivados de datos de transacciones, pero puede incluir datos de otras fuentes., Separa la carga de trabajo de análisis de la carga de trabajo de transacción y permite a una organización consolidar datos de varias fuentes.

además de una base de datos relacional, un entorno de almacén de datos incluye una solución de extracción, transporte, transformación y carga (ETL), un motor de procesamiento analítico en línea (OLAP), herramientas de análisis de clientes y otras aplicaciones que gestionan el proceso de recopilación de datos y su entrega a los usuarios empresariales.,

una forma común de introducir el Data warehousing es hacer referencia a las características de un Data warehouse según lo establecido por William Inmon:

  • Subject Oriented
  • Integrated
  • Nonvolatile
  • Time Variant

Subject Oriented

Los data warehouses están diseñados para ayudarle a analizar datos. Por ejemplo, para obtener más información sobre los datos de ventas de su empresa, puede construir un almacén que se concentre en las ventas. Usando este almacén, puede responder preguntas como » ¿Quién fue nuestro mejor cliente para este artículo el año pasado?,»Esta capacidad de definir un almacén de datos por tema, ventas en este caso, hace que el almacén de datos esté orientado al tema.

Integrated

La integración está estrechamente relacionada con la orientación del sujeto. Los almacenes de datos deben poner los datos de fuentes dispares en un formato coherente. Deben resolver problemas tales como los conflictos de nombres y las inconsistencias entre unidades de medida. Cuando lo logran, se dice que están integrados.

no volátil

no volátil significa que, una vez ingresados en el almacén, los datos no deben cambiar., Esto es lógico porque el propósito de un almacén es permitirle analizar lo que ha ocurrido.

Time Variant

para descubrir tendencias en el negocio, los analistas necesitan grandes cantidades de datos. Esto contrasta mucho con los sistemas de procesamiento de transacciones en línea (OLTP), donde los requisitos de rendimiento exigen que los datos históricos se muevan a un archivo. El enfoque de un almacén de datos en el cambio a lo largo del tiempo es lo que se entiende por el término variante de tiempo.,

contrastar los entornos OLTP y Data Warehousing

La Figura 1-1 ilustra las diferencias clave entre un sistema OLTP y un Data warehouse.

Figura 1-1 contrastando entornos OLTP y Data Warehousing


texto Descripción de la ilustraciónhttps://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg005.gif

una diferencia importante entre los tipos de sistema es que los almacenes de datos no suelen estar en tercera forma normal (3NF), un tipo de normalización de datos común en entornos OLTP.

Los almacenes de datos y los sistemas OLTP tienen requisitos muy diferentes., Estos son algunos ejemplos de diferencias entre los almacenes de datos típicos y los sistemas OLTP:

  • Workload

    Los almacenes de datos están diseñados para acomodar consultas ad hoc. Es posible que no conozca la carga de trabajo de su almacén de datos de antemano, por lo que un almacén de datos debe optimizarse para funcionar bien para una amplia variedad de posibles operaciones de consulta.

    los sistemas OLTP solo admiten operaciones predefinidas. Es posible que sus aplicaciones estén específicamente ajustadas o diseñadas para admitir solo estas operaciones.,

  • modificaciones de datos

    un almacén de datos se actualiza regularmente mediante el proceso ETL (se ejecuta cada noche o semanalmente) utilizando técnicas de modificación de datos en masa. Los usuarios finales de un almacén de datos no actualizan directamente el almacén de datos.

    en los sistemas OLTP, los usuarios finales emiten rutinariamente declaraciones de modificación de datos individuales a la base de datos. La base de datos OLTP está siempre actualizada y refleja el estado actual de cada transacción comercial.,

  • Diseño de esquemas

    Los almacenes de datos suelen utilizar esquemas desnormalizados o parcialmente desnormalizados (como un esquema star) para optimizar el rendimiento de las consultas.

    los sistemas OLTP a menudo utilizan esquemas completamente normalizados para optimizar el rendimiento de actualización/inserción/eliminación, y para garantizar la consistencia de los datos.

  • operaciones típicas

    una consulta típica del almacén de datos escanea miles o millones de filas. Por ejemplo, «Encuentra las ventas totales de todos los clientes el mes pasado.»

    una operación OLTP típica solo accede a un puñado de Registros. Por ejemplo, «recuperar el pedido actual de este cliente.,»

  • Datos Históricos

    Los almacenes de datos suelen almacenar muchos meses o años de datos. Esto es para apoyar el análisis histórico.

    los sistemas OLTP suelen almacenar datos desde unas pocas semanas o meses. El sistema OLTP almacena solo los datos históricos necesarios para cumplir con éxito los requisitos de la transacción actual.

arquitecturas de almacén de datos

los almacenes de datos y sus arquitecturas varían según las características específicas de la situación de una organización., Tres arquitecturas comunes son:

  • Data Warehouse Architecture (Basic)
  • Data Warehouse Architecture (with a Staging Area)
  • Data Warehouse Architecture (with a Staging Area and Data Marts)

Data Warehouse Architecture (Basic)

La Figura 1-2 muestra una arquitectura simple para un Data warehouse. Los usuarios finales acceden directamente a los datos derivados de varios sistemas de origen a través del almacén de datos.,

Figura 1-2 arquitectura de un almacén de datos


Descripción de texto de la ilustraciónhttps://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg013.gif

en la Figura 1-2, los metadatos y datos brutos de un sistema OLTP tradicional están presentes, al igual que un tipo adicional de datos, los datos resumidos. Los resúmenes son muy valiosos en los almacenes de datos porque pre-computan operaciones largas por adelantado. Por ejemplo, una consulta típica del almacén de datos es recuperar algo como las ventas de agosto. Un resumen en Oracle se denomina vista materializada.,

arquitectura de almacén de datos (con un área de preparación)

en la Figura 1-2, debe limpiar y procesar sus datos operativos antes de colocarlos en el almacén. Puede hacer esto mediante programación, aunque la mayoría de los almacenes de datos utilizan un área de preparación en su lugar. Un área de preparación simplifica los resúmenes del edificio y la gestión general del almacén. La figura 1-3 ilustra esta arquitectura típica.,

figura 1-3 arquitectura de un almacén de datos con un área de preparación


texto Descripción de la ilustración https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg015.gif

arquitectura de almacén de datos (con un área de preparación y data Marts)

aunque la arquitectura de la figura 1-3 es bastante común, es posible que desee personalizar su almacén la arquitectura para diferentes grupos dentro de su organización. Puede hacer esto agregando data marts, que son sistemas diseñados para una línea de negocio en particular., La figura 1-4 ilustra un ejemplo donde las compras, las ventas y los inventarios están separados. En este ejemplo, un analista financiero podría querer analizar datos históricos de compras y ventas.

figura 1-4 arquitectura de un almacén de datos con un área de preparación y data Marts


Descripción de texto de la ilustraciónhttps://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg064.gif


Nota:

Data marts son una parte importante de muchos almacenes, pero no son el foco de este libro.,

Ver también:

documentación de Data Mart Suites para más información sobre data marts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *