integrierte Datenbasis ermöglicht die Verarbeitung von Daten aus mehreren
verschiedenen (internen und externen) Datenquellen, z.B. operationalen DB
oder dem Web. Die Datenbasis selbst ist hierbei nicht-flüchtig, d.h. sie ist über
die Zeit stabil und persistent. Daten innerhalb des Data Warehouse werden so-
mit im Normalfall nicht mehr gelöscht oder verändert. Zudem sind die Daten
im Data Warehouse zeitbezogen. So sind Zeitreihenanalysen möglich, also der
Vergleich der Daten über zeitliche Aspekte. Auch wird im Kontext des Data
Warehouse von einem Historisierungskonzept der Daten gesprochen, die Daten
werden über einen längeren Zeitraum gesammelt und gespeichert.
Unter Data Warehousing verstehen wir den Data-Warehouse-Prozess, d.h.
alle Schritte von der Datenbeschaffung (Extraktion, Transformation, Laden)
über die Speicherung bis hin zur Analyse. Die Daten im Data Warehouse sind
multidimensional und werden in einem Datenwürfel zusammengeführt. Die-
ser Datenwürfel stellt dabei ein mehrdimensionales Konstrukt zur Datendar-
stellung dar. Die Informationen zum Datenzugriff werden als Dimension be-
zeichnet und die Daten selbst als Kennzahlen. Es ist aber auch oft notwendig,
anwendungsspezifische Analysedaten zu erstellen. Diese spezifische Sicht auf
den Datenwürfel wird als Data Mart bezeichnet und erfolgt durch Kopieren der
notwendigen Daten aus dem Datenwürfel bzw. Transformationen dieser Daten.
Die explorative und interaktive Analyse auf Basis des konzeptionellen Daten-
modells wird als Online Analytical Processing (OLAP) bezeichnet. Das Schlag-
wort Business Intelligence umspannt die Aktivitäten im Data Warehouse und
zielt zudem auf die Managementunterstützung hin. Somit besteht Business In-
telligence aus dem Data Warehousing, Reportingaktivitäten für das Manage-
ment und Analysen zur Wissensentdeckung aus den Data-Warehouse-Daten.
Dies beinhaltet ebenfalls die automatisierte Erstellung von Berichten in Un-
ternehmen.
1.4 Big Data und Data Warehousing
Seit ca. 2010 hat sich das Thema „Big Data“ zu einem großen Trend entwickelt.
Big Data ist zunächst ein eher unscharfer Begriff, der Datensammlungen be-
zeichnet, die für klassische Techniken der Datenverarbeitung zu groß sind, so
dass neue Techniken benötigt werden. Allerdings gibt es hier keine konkrete
Größenangabe je nach Bedarf fallen unter „Big Data“ Datenmengen im Be-
reich von Terabyte bis Exabyte. Ein wesentlicher Faktor für das Interesse an
Big Data bildet die massive Zunahme an (maschinell) erzeugten Daten, die von
Sensoren, Kameras, Mobilgeräten etc. produziert werden. Dies betrifft nicht
nur Geschäftsprozesse und unser tägliches Leben, sondern auch den Finanz-
bereich (z.B. Börsentransaktionen), Telekommunikationssysteme (z.B. Verbin-
dungsdaten), die Energieversorgung (z.B. Smart Metering) und natürlich den
Bereich der Naturwissenschaften, Astronomie, Klima- und Umweltforschung.
1.4 Big Data und Data Warehousing 9
So hat Jim Gray in [HTT09] ein „viertes Paradigma“ der Wissenschaften formu-
liert, wonach nach der empirischen Forschung durch Beobachtung, den theo-
retischen Wissenschaften mit mathematischen Modellen, dem wissenschaftli-
chen Rechnen (Computational Sciences) mit (numerischen) Simulationen ein
neuer Trend zu datenintensiven Naturwissenschaften zu erkennen ist. Hierbei
liegt der Schwerpunkt auf der Analyse großer Datenbestände wie etwa Klima-,
Satelliten- oder Teleskopdaten. Aber auch für Unternehmen und Behörden er-
öffnen sich durch die Nutzung und Auswertung großer Datenbestände neue
Möglichkeiten, etwa durch die Analyse von Nutzerverhalten, Bewegungs- oder
Verbrauchsdaten. Einige Beispiele aus der jüngeren Vergangenheit haben aber
auch die Probleme und Gefahren von Big Data aufgezeigt. Neben Fragen des
Datenschutzes ist auch zu berücksichtigen, dass mehr Daten nicht gleichzeitig
bessere Daten bedeuten.
Big Data wird in Anlehnung an eine Studie der META Group [Lan01] oft
auch durch die 3V beschrieben: Neben dem naheliegenden Volume zählen dazu
noch Variety, um auszudrücken, dass strukturierte sowie unstrukturierte Da-
ten, Texte und sogar Bilder und Videos zu verarbeiten sind, sowie Velocity zur
Charakterisierung des Wechsels von einer Batch- zur Echtzeitverarbeitung.
Klassische relationale Datenbanksysteme und damit auch Data-
Warehouse-Systeme können diese Anforderungen offensichtlich nicht voll-
ständig erfüllen. Daher wurden für die Verarbeitung von Big Data eine Reihe
neuer Technologien entwickelt. Beispiele hierfür sind Systeme wie Apache
Hadoop auf Basis des MapReduce-Paradigmas zur verteilten (datenparallelen)
Verarbeitung großer Datenmengen in großen Rechenclustern von hunderten
oder mehr Knoten. Auch einige NoSQL-Systeme, die auf die strenge rela-
tionale Strukturierung, leistungsfähige Anfrageoperatoren und häufig auch
strikte Konsistenzgarantien zugunsten einer besseren horizontalen Skalierung
über viele Knoten hinweg verzichten, werden unter Big-Data-Technologien
eingeordnet. Beispiele hierfür sind der Amazon-Dienst DynamoDB, Google’s
Spanner sowie Systeme wie Cassandra, MongoDB oder CouchDB.
Allerdings ist die Grenze zwischen Big Data und Data Warehousing flie-
ßend. So existieren durchaus Data-Warehouse-Installationen, die Datenmen-
gen im Petabyte-Bereich verwalten sowie Text- und Bilddaten integrieren kön-
nen. Auch das Problem der Analyse in „Echtzeit“ wird beispielsweise durch In-
Memory-Techniken adressiert. Schließlich haben einige DBMS-Hersteller in-
zwischen auch MapReduce in ihre SQL-Systeme integriert, so dass ETL- und
Analyseprozesse in MapReduce-Programmen formuliert werden und somit ex-
terne Daten auf einfache Weise integriert werden können. Ein Beispiel hierfür
ist u.a. TeraData Aster.
Eines der wesentlichen Unterscheidungsmerkmale ist jedoch, dass ein Da-
ta Warehouse eine integrierte, dauerhafte Datenbasis für Reports und Ana-
lysen bildet und somit auch sorgfältige Planung, Entwurf und Betrieb er-
fordert. Demgegenüber sind MapReduce-Technologien wie Hadoop auf die
10 1 Einführung in Data-Warehouse-Systeme

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.