1 koncepcje hurtowni danych

1 koncepcje hurtowni danych

Ten rozdział zawiera przegląd implementacji Oracle data warehousing. Zawiera:

  • czym jest hurtownia danych?
  • architektury hurtowni danych

należy pamiętać, że ta książka jest przeznaczona jako uzupełnienie standardowych tekstów o hurtowni danych. Książka ta koncentruje się na materiale specyficznym dla wyroczni i nie reprodukuje w szczegółach materiału o charakterze ogólnym., Dwa standardowe teksty to:

  • the Data Warehouse Toolkit By Ralph Kimball (John Wiley and Sons, 1996)
  • Building the Data Warehouse by William Inmon (John Wiley and Sons, 1996)

Co to jest hurtownia danych?

hurtownia danych jest relacyjną bazą danych, która jest przeznaczona do zapytań i analizy, a nie do przetwarzania transakcji. Zazwyczaj zawiera dane historyczne pochodzące z danych transakcji, ale może zawierać dane z innych źródeł., Oddziela obciążenia analityczne od obciążenia transakcyjnego i umożliwia organizacji konsolidację danych z kilku źródeł.

oprócz relacyjnej bazy danych, środowisko hurtowni danych obejmuje rozwiązanie do ekstrakcji, transportu, transformacji i ładowania (ETL), silnik analitycznego przetwarzania online (OLAP), narzędzia do analizy klientów i inne aplikacje, które zarządzają procesem gromadzenia danych i dostarczania ich użytkownikom biznesowym.,

powszechnym sposobem wprowadzenia hurtowni danych jest odwołanie się do cech hurtowni danych określonych przez Williama Inmona:

  • zorientowane tematycznie
  • zintegrowane
  • Nieulotne
  • wariant czasu

zorientowane tematycznie

hurtownie danych są zaprojektowane, aby pomóc ci analizować dane. Na przykład, aby dowiedzieć się więcej o danych sprzedażowych Twojej firmy, możesz zbudować magazyn, który koncentruje się na sprzedaży. Korzystając z tego magazynu, możesz odpowiedzieć na pytania typu ” kto był naszym najlepszym klientem dla tego przedmiotu w zeszłym roku?,”Ta możliwość zdefiniowania hurtowni danych według przedmiotu, w tym przypadku sprzedaży, sprawia, że hurtownia danych jest zorientowana tematycznie.

Integracja

integracja jest ściśle związana z orientacją przedmiotu. Hurtownie danych muszą umieszczać dane z różnych źródeł w spójnym formacie. Muszą one rozwiązać takie problemy, jak konflikty nazewnictwa i niespójności między jednostkami miar. Kiedy to osiągną, mówi się, że zostaną zintegrowane.

nieulotna

nieulotna oznacza, że po wprowadzeniu do magazynu dane nie powinny się zmieniać., Jest to logiczne, ponieważ celem magazynu jest umożliwienie analizy tego, co się wydarzyło.

wariant czasowy

aby odkryć trendy w biznesie, analitycy potrzebują dużych ilości danych. Jest to bardzo w przeciwieństwie do systemów przetwarzania transakcji online (OLTP), w których wymagania dotyczące wydajności wymagają przenoszenia danych historycznych do archiwum. Hurtownia danych koncentruje się na zmianach w czasie, co oznacza wariant czasowy.,

kontrastujące środowiska OLTP i hurtowni danych

rysunek 1-1 ilustruje kluczowe różnice między systemem OLTP a hurtownią danych.

rysunek 1-1 kontrastujące środowiska OLTP i hurtowni danych


opis ilustracjihttps://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg005.gif

jedną z głównych różnic między typami systemów jest to, że hurtownie danych nie są zwykle w trzeciej normalnej formie (3NF), Typ normalizacji danych powszechne w środowiskach OLTP.

hurtownie danych i systemy OLTP mają bardzo różne wymagania., Oto kilka przykładów różnic między typowymi hurtowniami danych a systemami OLTP:

  • Workload

    hurtownie danych są zaprojektowane do obsługi zapytań ad hoc. Możesz nie znać obciążenia magazynu danych z góry, więc hurtownia danych powinna być zoptymalizowana tak, aby dobrze działała dla szerokiej gamy możliwych operacji zapytań.

    systemy OLTP obsługują tylko predefiniowane operacje. Twoje aplikacje mogą być specjalnie dostrojone lub zaprojektowane do obsługi tylko tych operacji.,

  • modyfikacje danych

    hurtownia danych jest regularnie aktualizowana przez proces ETL (uruchamiany co noc lub co tydzień) przy użyciu technik masowych modyfikacji danych. Użytkownicy końcowi hurtowni danych nie aktualizują bezpośrednio hurtowni danych.

    w systemach OLTP użytkownicy końcowi rutynowo wydają indywidualne instrukcje modyfikacji danych do bazy danych. Baza danych OLTP jest zawsze aktualna i odzwierciedla aktualny stan każdej transakcji biznesowej.,

  • projektowanie schematów

    hurtownie danych często wykorzystują Schematy denormalizowane lub częściowo denormalizowane (takie jak schemat gwiazdy) w celu optymalizacji wydajności zapytań.

    Systemy OLTP często wykorzystują w pełni znormalizowane Schematy w celu optymalizacji wydajności aktualizacji / wstawiania/usuwania oraz zagwarantowania spójności danych.

  • Typowe operacje

    typowe zapytanie hurtowni danych skanuje tysiące lub miliony wierszy. Na przykład „Znajdź całkowitą sprzedaż dla wszystkich klientów w zeszłym miesiącu.”

    typowa operacja OLTP uzyskuje dostęp tylko do garstki rekordów. Na przykład „Pobierz aktualne zamówienie dla tego klienta.,”

  • Dane historyczne

    hurtownie danych zazwyczaj przechowują wiele miesięcy lub lat danych. Ma to wspierać analizę historyczną.

    systemy OLTP zwykle przechowują dane z zaledwie kilku tygodni lub miesięcy. System OLTP przechowuje tylko Dane historyczne, które są potrzebne, aby skutecznie spełnić wymagania bieżącej transakcji.

architektury hurtowni danych

hurtownie danych i ich architektury różnią się w zależności od specyfiki sytuacji organizacji., Trzy typowe architektury to:

  • Architektura hurtowni danych (Basic)
  • Architektura hurtowni danych (z obszarem przejściowym)
  • Architektura hurtowni danych (z obszarem przejściowym i Martami danych)

Architektura hurtowni danych (Basic)

rysunek 1-2 przedstawia prostą architekturę hurtowni danych. Użytkownicy końcowi mają bezpośredni dostęp do danych pochodzących z kilku systemów źródłowych za pośrednictwem hurtowni danych.,

rysunek 1-2 Architektura hurtowni danych


opis ilustracji https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg013.gif

na rysunku 1-2 przedstawiono metadane i surowe dane tradycyjnego systemu OLTP, podobnie jak dodatkowy typ danych, dane podsumowujące. Podsumowania są bardzo cenne w hurtowniach danych, ponieważ wstępnie obliczają długie operacje z wyprzedzeniem. Na przykład, typowym zapytaniem hurtowni danych jest pobieranie czegoś takiego jak sprzedaż sierpniowa. Podsumowanie w Oracle nazywa się zmaterializowanym widokiem.,

Architektura hurtowni danych (z miejscem postojowym)

na rysunku 1-2 musisz wyczyścić i przetworzyć swoje dane operacyjne przed umieszczeniem ich w magazynie. Możesz to zrobić programowo, chociaż większość hurtowni danych używa zamiast tego obszaru przejściowego. Miejsce postojowe upraszcza podsumowania budynków i ogólne zarządzanie magazynem. Rysunek 1-3 ilustruje tę typową architekturę.,

rysunek 1-3 Architektura hurtowni danych z miejscem postojowym


tekstowy opis ilustracji https://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg015.gif

Architektura hurtowni danych (z miejscem postojowym i Martami danych)

chociaż Architektura na rysunku 1-3 jest dość powszechna, możesz dostosować swoją architekturę do własnych potrzeb.Architektura magazynu dla różnych grup w Twojej organizacji. Możesz to zrobić, dodając data marts, czyli systemy przeznaczone dla danej branży., Rysunek 1-4 ilustruje przykład, w którym zakupy, sprzedaż i zapasy są oddzielone. W tym przykładzie analityk finansowy może chcieć przeanalizować dane historyczne dotyczące zakupów i sprzedaży.

rysunek 1-4 Architektura hurtowni danych z miejscem postoju i Data Marts


opis ilustracjihttps://docs.oracle.com/cd/B10500_01/server.920/a96520/dwhsg064.gif


Uwaga:

Data marts są ważną częścią wielu magazynów, ale nie są przedmiotem tej książki.,

Zobacz także:

dokumentacja Data Mart Suites, aby uzyskać więcej informacji na temat danych marts

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *