20 Juni 2021 11:45

Data Warehousing

Was ist Data Warehousing?

Data Warehousing ist die elektronische Speicherung einer großen Menge von Informationen durch ein Unternehmen oder eine Organisation. Data Warehousing ist eine wichtige Komponente von Business Intelligence, bei der Analysetechniken für Geschäftsdaten eingesetzt werden.

Das Konzept des Data Warehousing wurde 1988 von den IBM- Forschern Barry Devlin und Paul Murphy eingeführt. Die Notwendigkeit, Daten zu lagern, entwickelte sich, als Computersysteme komplexer wurden und immer mehr Datenmengen handhabten. Ein Schlüsselbuch zum Thema Data Warehousing ist WH Inmons „Building the Data Warehouse“, das erstmals 1990 veröffentlicht wurde und seitdem mehrmals nachgedruckt wurde.

So funktioniert Data Warehousing

Data Warehousing wird verwendet, um einen besseren Einblick in die Leistung eines Unternehmens zu erhalten, indem Daten aus mehreren heterogenen Quellen verglichen werden. Ein Data Warehouse dient zum Ausführen von Abfragen und Analysen historischer Daten aus Transaktionsquellen.

Sobald die Daten in das Lager eingebaut wurden, ändert es nicht und kann nicht verändert werden, da ein Data Warehouse führt Analysen auf Ereignisse, die bereits stattgefunden haben, indem sie in Daten im Laufe der Zeit auf die Veränderungen konzentrieren. Lagerdaten müssen auf sichere, zuverlässige, leicht abrufbare und leicht zu verwaltende Weise gespeichert werden.

Es werden bestimmte Schritte ausgeführt, um ein Data Warehouse zu erstellen. Der erste Schritt ist die Datenextraktion, bei der große Datenmengen von mehreren Quellpunkten erfasst werden. Nachdem die Daten zusammengestellt wurden, werden die Daten bereinigt, die Daten auf Fehler durchsucht und gefundene Fehler korrigiert oder ausgeschlossen.

Die bereinigten Daten werden dann von einem Datenbankformat in ein Lagerformat konvertiert. Sobald die Daten im Lager gespeichert sind, werden sie sortiert, konsolidiert, zusammengefasst usw., damit sie besser koordiniert und einfacher zu verwenden sind. Mit der Zeit werden dem Warehouse mehr Daten hinzugefügt, wenn die mehreren Datenquellen aktualisiert werden.

Die zentralen Thesen

  • Data Warehousing ist die elektronische Speicherung einer großen Menge von Informationen durch ein Unternehmen oder eine Organisation.
  • Ein Data Warehouse dient zum Ausführen von Abfragen und Analysen historischer Daten aus Transaktionsquellen für Business Intelligence- und Data Mining-Zwecke.
  • Data Warehousing wird verwendet, um einen besseren Einblick in die Leistung eines Unternehmens zu erhalten, indem Daten aus mehreren heterogenen Quellen verglichen werden.

Besondere Überlegungen: Data Mining

Unternehmen lagern möglicherweise Daten für Explorations- und Data Mining Zwecke ein und suchen nach Informationsmustern, mit denen sie ihre Geschäftsprozesse verbessern können. Ein gutes Data Warehousing-System kann es auch verschiedenen Abteilungen eines Unternehmens erleichtern, auf die Daten des jeweils anderen zuzugreifen.

Ein Data Warehouse kann es einem Unternehmen beispielsweise ermöglichen, die Daten des Verkaufsteams einfach zu bewerten und Entscheidungen darüber zu treffen, wie der Vertrieb verbessert oder die Abteilung optimiert werden kann. Das Unternehmen könnte sich auf die Ausgabegewohnheiten seiner Kunden konzentrieren, um seine Produkte besser zu positionieren und den Umsatz zu steigern.

Mit Data Warehousing kann das Unternehmen historische Daten über die Ausgaben seiner Kunden in den letzten 20 Jahren erfassen und Analysen für diese Daten durchführen. Die daraus resultierenden Informationen könnten einen Einblick in die Vorlieben der Verbraucher geben. die Tageszeit, den Monat oder das Jahr mit höheren Umsätzen; oder Kunde mit den höchsten Ausgaben für das Jahr.

Eine effektive Datenspeicherung und -verwaltung ermöglicht auch Prozesse wie das Initiieren von Reisereservierungen und die Verwendung von Geldautomaten.

Der Data Mining-Prozess gliedert sich in fünf Schritte:

  1. Unternehmen sammeln Daten und laden sie in ihre Data Warehouses.
  2. Anschließend speichern und verwalten sie die Daten entweder auf internen Servern oder in der Cloud.
  3. Geschäftsanalysten, Managementteams und IT-Experten greifen auf die Daten zu und bestimmen, wie sie sie organisieren möchten.
  4. Die Anwendungssoftware sortiert die Daten dann basierend auf den Ergebnissen des Benutzers
  5. Der Endbenutzer präsentiert die Daten schließlich in einem einfach zu teilenden Format, z. B. einem Diagramm oder einer Tabelle.

Data Warehousing vs. Datenbanken

Ein Data Warehouse ist nicht unbedingt das gleiche Konzept wie eine Standarddatenbank. Eine Datenbank ist ein Transaktionssystem, das Echtzeitdaten überwacht und aktualisiert, um nur die neuesten verfügbaren Daten zur Verfügung zu haben. Ein Data Warehouse ist so programmiert, dass strukturierte Daten über einen bestimmten Zeitraum hinweg aggregiert werden. Beispielsweise hat eine Datenbank möglicherweise nur die aktuellste Adresse eines Kunden, während ein Data Warehouse möglicherweise alle Adressen enthält, in denen der Kunde in den letzten 10 Jahren gelebt hat.