1 Concetti di Data Warehousing

1 Concetti di Data Warehousing

Questo capitolo fornisce una panoramica dell’implementazione di Oracle data warehousing. Include:

  • Che cos’è un Data Warehouse?
  • Architetture di Data Warehouse

Si noti che questo libro è inteso come un supplemento ai testi standard sul data warehousing. Questo libro si concentra su materiale specifico di Oracle e non riproduce in dettaglio materiale di natura generale., Due testi standard sono:

  • Il toolkit di Data Warehouse di Ralph Kimball (John Wiley and Sons, 1996)
  • Costruire il Data Warehouse di William Inmon (John Wiley and Sons, 1996)

Che cos’è un Data Warehouse?

Un data warehouse è un database relazionale progettato per query e analisi piuttosto che per l’elaborazione delle transazioni. Di solito contiene dati storici derivati dai dati delle transazioni, ma può includere dati provenienti da altre fonti., Separa il carico di lavoro di analisi dal carico di lavoro di transazione e consente a un’organizzazione di consolidare i dati da diverse origini.

Oltre a un database relazionale, un ambiente di data warehouse include una soluzione ETL (estrazione, trasporto, trasformazione e caricamento), un motore OLAP (Online Analytical Processing), strumenti di analisi client e altre applicazioni che gestiscono il processo di raccolta dei dati e di distribuzione it agli utenti aziendali.,

Un modo comune per l’introduzione di data warehousing è quello di fare riferimento alle caratteristiche di un data warehouse, come stabilito da William Inmon:

  • Subject Oriented
  • Integrato
  • Non
  • Tempo di Variante

Subject Oriented

Data warehouse sono progettati per consentire di analizzare i dati. Ad esempio, per saperne di più sui dati di vendita della tua azienda, puoi creare un magazzino che si concentra sulle vendite. Utilizzando questo magazzino, puoi rispondere a domande come ” Chi è stato il nostro miglior cliente per questo articolo l’anno scorso?,”Questa capacità di definire un data warehouse per materia, le vendite in questo caso, rende il data warehouse soggetto orientato.

Integrato

L’integrazione è strettamente correlata all’orientamento del soggetto. I data warehouse devono mettere i dati provenienti da fonti diverse in un formato coerente. Devono risolvere problemi come i conflitti di denominazione e le incongruenze tra unità di misura. Quando raggiungono questo obiettivo, si dice che siano integrati.

Non volatile

Non volatile significa che, una volta inseriti nel magazzino, i dati non dovrebbero cambiare., Questo è logico perché lo scopo di un magazzino è quello di consentire di analizzare ciò che si è verificato.

Variante temporale

Per scoprire le tendenze del business, gli analisti hanno bisogno di grandi quantità di dati. Ciò è molto in contrasto con i sistemi OLTP (Online Transaction Processing), in cui i requisiti di prestazioni richiedono che i dati storici vengano spostati in un archivio. L’attenzione di un data warehouse sul cambiamento nel tempo è ciò che si intende con il termine variante temporale.,

Contrasto tra ambienti OLTP e Data Warehousing

La figura 1-1 illustra le principali differenze tra un sistema OLTP e un data warehouse.

Figura 1-1 Contrasto OLTP di Data Warehousing e di Ambienti


descrizione testuale dell’illustrazione https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg005.gif

Una delle principali differenze tra i tipi di sistema di data warehouse non sono di solito in terza forma normale (3NF), un tipo di normalizzazione dei dati comuni in ambienti OLTP.

I data warehouse e i sistemi OLTP hanno requisiti molto diversi., Ecco alcuni esempi di differenze tra i tipici data warehouse e i sistemi OLTP:

  • Workload

    I data warehouse sono progettati per ospitare query ad hoc. Si potrebbe non conoscere il carico di lavoro del data warehouse in anticipo, quindi un data warehouse dovrebbe essere ottimizzato per eseguire bene per un’ampia varietà di possibili operazioni di query.

    I sistemi OLTP supportano solo operazioni predefinite. Le tue applicazioni potrebbero essere specificamente sintonizzate o progettate per supportare solo queste operazioni.,

  • Modifiche dei dati

    Un data warehouse viene aggiornato regolarmente dal processo ETL (eseguito ogni notte o settimanalmente) utilizzando tecniche di modifica dei dati in blocco. Gli utenti finali di un data warehouse non aggiornano direttamente il data warehouse.

    Nei sistemi OLTP, gli utenti finali emettono regolarmente singole istruzioni di modifica dei dati al database. Il database OLTP è sempre aggiornato e riflette lo stato corrente di ogni transazione commerciale.,

  • Schema design

    I data warehouse utilizzano spesso schemi denormalizzati o parzialmente denormalizzati (ad esempio uno schema a stella) per ottimizzare le prestazioni delle query.

    I sistemi OLTP utilizzano spesso schemi completamente normalizzati per ottimizzare le prestazioni di aggiornamento/inserimento / eliminazione e per garantire la coerenza dei dati.

  • Operazioni tipiche

    Una tipica query di data warehouse esegue la scansione di migliaia o milioni di righe. Ad esempio, ” Trova le vendite totali per tutti i clienti il mese scorso.”

    Una tipica operazione OLTP accede solo a una manciata di record. Ad esempio, ” Recupera l’ordine corrente per questo cliente.,”

  • Dati storici

    I data warehouse di solito memorizzano molti mesi o anni di dati. Questo per supportare l’analisi storica.

    I sistemi OLTP di solito memorizzano i dati solo da poche settimane o mesi. Il sistema OLTP memorizza solo i dati storici necessari per soddisfare correttamente i requisiti della transazione corrente.

Architetture di data Warehouse

I data warehouse e le loro architetture variano a seconda delle specifiche della situazione di un’organizzazione., Tre architetture comuni sono:

  • Data Warehouse Architecture (Basic)
  • Data Warehouse Architecture (con area Staging)
  • Data Warehouse Architecture (con Area Staging e Data Mart)

Data Warehouse Architecture (Basic)

La figura 1-2 mostra un’architettura semplice per un data warehouse. Gli utenti finali accedono direttamente ai dati derivati da diversi sistemi di origine attraverso il data warehouse.,

Figura 1-2 Architettura di un Data Warehouse


descrizione testuale dell’illustrazione https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg013.gif

Nella Figura 1-2, i metadati e i dati grezzi di un tradizionale sistema OLTP è presente, come è un ulteriore tipo di dati, dati di sintesi. I riepiloghi sono molto preziosi nei data warehouse perché pre-calcolano in anticipo lunghe operazioni. Ad esempio, una tipica query di data warehouse consiste nel recuperare qualcosa come le vendite di agosto. Un riepilogo in Oracle è chiamato una vista materializzata.,

Architettura di data Warehouse (con un’area di staging)

In Figura 1-2, è necessario pulire ed elaborare i dati operativi prima di inserirli nel magazzino. È possibile farlo a livello di codice, anche se la maggior parte dei data warehouse utilizza invece un’area di staging. Un’area di sosta semplifica i riepiloghi degli edifici e la gestione generale del magazzino. La figura 1-3 illustra questa tipica architettura.,

Figura 1-3 Architettura di un Data Warehouse con un Area di sosta


descrizione testuale dell’illustrazione https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg015.gif

Architettura del Data Warehouse (con un Area di sosta e Data Mart)

anche se l’architettura in Figura 1-3 è abbastanza comune, è possibile personalizzare il vostro magazzino di architettura per i diversi gruppi all’interno dell’organizzazione. È possibile farlo aggiungendo data mart, che sono sistemi progettati per una particolare linea di business., La figura 1-4 illustra un esempio in cui acquisti, vendite e inventari sono separati. In questo esempio, un analista finanziario potrebbe voler analizzare i dati storici per acquisti e vendite.

Figura 1-4 Architettura di un Data Warehouse con un Area di sosta e Data Mart


descrizione testuale dell’illustrazione https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg064.gif


Nota:

Data mart sono una parte importante di molti magazzini, ma non sono il fulcro di questo libro.,

Vedere anche:

Documentazione Data Mart Suites per ulteriori informazioni sui data mart

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *