Dieses Kapitel bietet einen überblick über die Oracle data warehousing Umsetzung. Es enthält:
- Was ist ein Data Warehouse?
- Data Warehouse Architectures
Beachten Sie, dass dieses Buch als Ergänzung zu Standardtexten über Data Warehousing gedacht ist. Dieses Buch konzentriert sich auf die Oracle-spezifische material und nicht detailliert nachvollziehen material von allgemeiner Natur., Zwei standard-Texte sind:
- Data Warehouse Toolkit von Ralph Kimball (John Wiley and Sons, 1996)
- Aufbau des Data-Warehouse von William Inmon (John Wiley and Sons, 1996)
Was ist ein Data Warehouse?
Ein data warehouse ist eine relationale Datenbank, die ist entworfen für die Abfrage und Analyse anstatt für die Verarbeitung von Transaktionen. Es enthält normalerweise historische Daten, die aus Transaktionsdaten stammen, kann jedoch Daten aus anderen Quellen enthalten., Es trennt die Analyse-Workload von der Transaktions-Workload und ermöglicht es einer Organisation, Daten aus mehreren Quellen zu konsolidieren.
Zusätzlich zu einer relationalen Datenbank umfasst eine Data Warehouse-Umgebung eine Extraktions -, Transport -, Transformations-und Ladelösung (ETL), eine OLAP-Engine (Online Analytical Processing), Clientanalysetools und andere Anwendungen, die den Prozess der Datenerfassung und Bereitstellung an Geschäftsanwender verwalten.,
Eine gängige Methode zur Einführung von Data Warehousing besteht darin, sich auf die von William Inmon festgelegten Merkmale eines Data Warehouse zu beziehen:
- Subject Oriented
- Integrated
- Nonvolatile
- Time Variant
Subject Oriented
Data Warehouses sind so konzipiert, dass Sie Daten analysieren können. Um beispielsweise mehr über die Verkaufsdaten Ihres Unternehmens zu erfahren, können Sie ein Lager aufbauen, das sich auf den Verkauf konzentriert. Mit diesem Lager können Sie Fragen beantworten wie „Wer war unser bester Kunde, für diesen Artikel im letzten Jahr?,“Diese Fähigkeit, ein Data Warehouse nach Themen zu definieren, Verkäufe in diesem Fall, macht das Data Warehouse themenorientiert.
Integriert
Die Integration steht in engem Zusammenhang mit der Themenorientierung. Data Warehouses müssen Daten aus unterschiedlichen Quellen in ein konsistentes Format bringen. Sie müssen Probleme wie Namenskonflikte und Inkonsistenzen zwischen Maßeinheiten lösen. Wenn sie dies erreichen, sollen sie integriert werden.
Nichtflüchtig
Nichtflüchtig bedeutet, dass sich die Daten nach der Eingabe in das Lager nicht ändern sollten., Dies ist logisch, da der Zweck eines Lagers darin besteht, Ihnen die Analyse des Vorfalls zu ermöglichen.
Zeitvariante
Um Trends im Geschäft zu erkennen, benötigen Analysten große Datenmengen. Dies steht sehr im Gegensatz zu OLTP-Systemen (Online Transaction Processing), bei denen Leistungsanforderungen erfordern, dass historische Daten in ein Archiv verschoben werden. Der Fokus eines Data Warehouse auf Veränderung im Laufe der Zeit ist mit dem Begriff Zeitvariante gemeint.,
Kontrastierende OLTP-und Data Warehousing-Umgebungen
Abbildung 1-1 veranschaulicht wesentliche Unterschiede zwischen einem OLTP-System und einem Data Warehouse.
Abbildung 1-1 Kontrastierende OLTP-und Data Warehousing-Umgebungen
Textbeschreibung der Abbildung https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg005.gif
Ein wesentlicher Unterschied zwischen den Systemtypen besteht darin, dass Data Warehouses normalerweise nicht in der dritten Normalform (3NF) vorliegen, einer Art von Datennormalisierung, die in OLTP-Umgebungen üblich ist.
Data Warehouses und OLTP-Systeme haben sehr unterschiedliche Anforderungen., Hier sind einige Beispiele für Unterschiede zwischen typischen Data Warehouses und OLTP-Systemen:
- Workload
Data Warehouses sind für Ad-hoc-Abfragen ausgelegt. Möglicherweise kennen Sie die Auslastung Ihres Data Warehouse nicht im Voraus, daher sollte ein Data Warehouse so optimiert werden, dass es für eine Vielzahl möglicher Abfragevorgänge geeignet ist.
OLTP-Systeme unterstützen nur vordefinierte Operationen. Ihre Anwendungen sind möglicherweise speziell abgestimmt oder so konzipiert, dass sie nur diese Vorgänge unterstützen.,
- Datenmodifikationen
Ein Data Warehouse wird regelmäßig durch den ETL-Prozess (nächtliche oder wöchentliche Ausführung) unter Verwendung von Massendatenmodifikationstechniken aktualisiert. Die Endbenutzer eines Data Warehouse aktualisieren das Data Warehouse nicht direkt.
In OLTP-Systemen geben Endbenutzer routinemäßig einzelne Datenmodifizierungsanweisungen an die Datenbank aus. Die OLTP-Datenbank ist immer auf dem neuesten Stand und spiegelt den aktuellen Status jeder Geschäftstransaktion wider.,
- Schemadesign
Data Warehouses verwenden häufig denormalisierte oder teilweise denormalisierte Schemas (z. B. ein Sternschema), um die Abfrageleistung zu optimieren.
OLTP-Systeme verwenden häufig vollständig normalisierte Schemas, um die Aktualisierungs – /Einfüge – / Löschleistung zu optimieren und die Datenkonsistenz zu gewährleisten.
- Typische Operationen
Eine typische Data Warehouse-Abfrage scannt Tausende oder Millionen von Zeilen. Zum Beispiel “ Finden Sie den Gesamtumsatz für alle Kunden im letzten Monat.“
Eine typische OLTP-Operation greift nur auf eine Handvoll Datensätze zu. Beispiel: „Rufen Sie die aktuelle Bestellung für diesen Kunden ab.,“
- Historische Daten
Data Warehouses speichern in der Regel viele Monate oder Jahre an Daten. Dies soll die historische Analyse unterstützen.
OLTP-Systeme speichern in der Regel Daten von nur wenigen Wochen oder Monaten. Das OLTP-System speichert nur historische Daten nach Bedarf, um die Anforderungen der aktuellen Transaktion erfolgreich zu erfüllen.
Data Warehouse-Architekturen
Data warehouses und Ihre Architekturen variieren je nach den Besonderheiten eines Unternehmens-situation., Drei gängige Architekturen sind:
- Data Warehouse Architecture (Basic)
- Data Warehouse Architecture (with a Staging Area)
- Data Warehouse Architecture (with a Staging Area and Data Marts)
Data Warehouse Architecture (Basic)
Abbildung 1-2 zeigt eine einfache Architektur für ein data-warehouse. Endbenutzer greifen über das Data Warehouse direkt auf Daten aus mehreren Quellsystemen zu.,
Abbildung 1-2 Architektur eines Data Warehouse
Textbeschreibung der Abbildung https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg013.gif
In Abbildung 1-2 sind die Metadaten und Rohdaten eines herkömmlichen OLTP-Systems vorhanden, ebenso wie ein zusätzlicher Datentyp, Zusammenfassungsdaten. Zusammenfassungen sind in Data Warehouses sehr wertvoll, da sie lange Vorgänge im Voraus vorberechnen. Eine typische Data Warehouse-Abfrage besteht beispielsweise darin, so etwas wie August Sales abzurufen. Eine Zusammenfassung in Oracle wird als materialisierte Ansicht bezeichnet.,
Data Warehouse-Architektur (mit einem Staging-Bereich)
In Abbildung 1-2 müssen Sie Ihre Betriebsdaten bereinigen und verarbeiten, bevor Sie sie in das Warehouse einfügen. Sie können dies programmgesteuert tun, obwohl die meisten Data Warehouses stattdessen einen Staging-Bereich verwenden. Ein Staging-Bereich vereinfacht die Gebäudezusammenfassungen und die allgemeine Lagerverwaltung. Abbildung 1-3 veranschaulicht diese typische Architektur.,
Abbildung 1-3 Architektur eines Data Warehouse mit einem Staging-Bereich
Textbeschreibung der Abbildung https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg015.gif
Data Warehouse-Architektur (mit einem Staging-Bereich und Data Marts)
Obwohl die Architektur in Abbildung 1-3 durchaus üblich ist, können Sie die Architektur Ihres Warehouse für verschiedene Gruppen innerhalb Ihrer Organisation anpassen. Sie können dies tun, indem Sie Data Marts hinzufügen, bei denen es sich um Systeme handelt, die für eine bestimmte Branche entwickelt wurden., Abbildung 1-4 zeigt ein Beispiel, in dem Einkauf, Verkauf und Lagerbestände getrennt sind. In diesem Beispiel möchte ein Finanzanalyst möglicherweise historische Daten für Käufe und Verkäufe analysieren.
Abbildung 1-4 Architektur eines Data Warehouse mit Staging-Bereich und Data Marts
Textbeschreibung der Abbildung https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg064.gif
Hinweis:
Data marts sind ein wichtiger Bestandteil vieler Warehouses, stehen aber nicht im Mittelpunkt dieses Buches.,
Siehe auch:
Data Marts Dokumentation für weitere Informationen zu data marts