Datenlagerung
Was ist Data-Warehousing?
Data Warehousing ist die elektronische Speicherung einer großen Menge an Informationen durch ein Unternehmen oder eine Organisation. Data Warehousing ist eine wichtige Komponente der Business Intelligence, die analytische Techniken für Geschäftsdaten einsetzt.
Das Konzept des Data Warehousing wurde 1988 von den IBM- Forschern Barry Devlin und Paul Murphy eingeführt. Die Notwendigkeit, Daten zu lagern, entwickelte sich, als Computersysteme komplexer wurden und immer mehr Datenmengen handhabten. Ein Schlüsselbuch zum Thema Data Warehousing ist WH Inmons „Building the Data Warehouse“, das erstmals 1990 veröffentlicht wurde und seitdem mehrmals nachgedruckt wurde.
So funktioniert Data Warehousing
Data Warehousing wird verwendet, um einen besseren Einblick in die Leistung eines Unternehmens zu erhalten, indem konsolidierte Daten aus mehreren heterogenen Quellen verglichen werden. Ein Data Warehouse ist darauf ausgelegt, Abfragen und Analysen zu historischen Daten auszuführen, die aus Transaktionsquellen stammen.
Sobald die Daten in das Warehouse aufgenommen wurden, ändern sie sich nicht und können nicht geändert werden, da ein Data Warehouse Analysen zu bereits aufgetretenen Ereignissen durchführt, indem es sich auf die Änderungen der Daten im Laufe der Zeit konzentriert. Gelagerte Daten müssen sicher, zuverlässig, leicht abrufbar und einfach zu verwalten sein.
Es gibt bestimmte Schritte, die unternommen werden, um ein Data Warehouse zu erstellen. Der erste Schritt ist die Datenextraktion, bei der große Datenmengen von mehreren Quellpunkten gesammelt werden. Nachdem die Daten zusammengestellt wurden, durchlaufen sie die Datenbereinigung, das Durchsuchen der Daten auf Fehler und das Korrigieren oder Ausschließen von gefundenen Fehlern.
Die bereinigten Daten werden dann von einem Datenbankformat in ein Warehouse-Format konvertiert. Sobald sie im Lager gespeichert sind, werden die Daten sortiert, konsolidiert, zusammengefasst usw., damit sie besser koordiniert und einfacher zu verwenden sind. Im Laufe der Zeit werden dem Warehouse mehr Daten hinzugefügt, wenn die mehreren Datenquellen aktualisiert werden.
Die zentralen Thesen
- Data Warehousing ist die elektronische Speicherung einer großen Menge an Informationen durch ein Unternehmen oder eine Organisation.
- Ein Data Warehouse dient der Durchführung von Abfragen und Analysen zu historischen Daten, die aus Transaktionsquellen für Business Intelligence- und Data Mining-Zwecke abgeleitet wurden.
- Data Warehousing wird verwendet, um einen besseren Einblick in die Leistung eines Unternehmens zu erhalten, indem konsolidierte Daten aus mehreren heterogenen Quellen verglichen werden.
Besondere Überlegungen: Data Mining
Unternehmen können Daten zur Verwendung in Exploration und Data Mining speichern und nach Informationsmustern suchen, die ihnen helfen, ihre Geschäftsprozesse zu verbessern. Ein gutes Data-Warehousing-System kann es auch verschiedenen Abteilungen innerhalb eines Unternehmens erleichtern, auf die Daten des jeweils anderen zuzugreifen.
Ein Data Warehouse kann es einem Unternehmen beispielsweise ermöglichen, die Daten des Vertriebsteams einfach auszuwerten und Entscheidungen darüber zu treffen, wie der Vertrieb verbessert oder die Abteilung rationalisiert werden kann. Das Unternehmen könnte sich dafür entscheiden, sich auf das Kaufverhalten seiner Kunden zu konzentrieren, um seine Produkte besser zu positionieren und den Umsatz zu steigern.
Mit Data Warehousing kann das Unternehmen historische Daten über die Ausgaben seiner Kunden in der Vergangenheit – sagen wir 20 Jahre – sammeln und Analysen dieser Daten durchführen. Die resultierenden Informationen könnten einen Einblick in die Präferenzen seiner Verbraucher geben; die Tages, Monats- oder Jahreszeit mit höheren Umsätzen; oder Kunde mit den höchsten Ausgaben für das Jahr.
Eine effektive Datenspeicherung und -verwaltung macht auch Prozesse wie die Anbahnung von Reisebuchungen und die Nutzung von Geldautomaten möglich.
Der Data-Mining-Prozess gliedert sich in fünf Schritte:
- Organisationen sammeln Daten und laden sie in ihre Data Warehouses.
- Anschließend speichern und verwalten sie die Daten entweder auf hauseigenen Servern oder in der Cloud.
- Business-Analysten, Managementteams und IT-Experten greifen auf die Daten zu und legen fest, wie sie diese organisieren möchten.
- Die Anwendungssoftware sortiert dann die Daten basierend auf den Ergebnissen des Benutzers
- Der Endbenutzer präsentiert die Daten schließlich in einem einfach zu teilenden Format, z. B. einem Diagramm oder einer Tabelle.
Data Warehousing vs. Datenbanken
Ein Data Warehouse ist nicht unbedingt das gleiche Konzept wie eine Standarddatenbank. Eine Datenbank ist ein Transaktionssystem, das so eingestellt ist, dass es Echtzeitdaten überwacht und aktualisiert, damit nur die neuesten Daten verfügbar sind. Ein Data Warehouse ist so programmiert, dass es strukturierte Daten über einen bestimmten Zeitraum aggregiert. Beispielsweise kann eine Datenbank nur die neueste Adresse eines Kunden enthalten, während ein Data Warehouse alle Adressen enthält, in denen der Kunde in den letzten 10 Jahren gelebt hat.