Enterprise Data Warehousing: Architektur, Typen, beste Tools und Auswahltipps

18. Februar 2025

Leiter der BI-Praxis

Ein Enterprise Data Warehouse (EDW) zentralisiert Daten aus heterogenen Unternehmensquellen, bricht Datensilos auf und macht Unternehmensinformationen für weitere Analysen zugänglich.

Die Berater von Itransition verfügen über langjährige Erfahrung in der Bereitstellung von Data-Warehousing-Services und können Sie beim Aufbau eines leistungsstarken EDW-Ökosystems unterstützen, um große Mengen an Geschäftsdaten zu konsolidieren und daraus wertvolle Erkenntnisse zu gewinnen.

Überblick über den Markt für Enterprise Data Warehousing

die voraussichtliche Größe des Marktes für Unternehmensdatenlager bis 2032

Marktforschung Zukunft

Wachstum der Investitionen in die Datenanalyse im Jahr 2024

CX-Netzwerk

8 Komponenten eines Unternehmensdatenlagers

Ein Enterprise Data Warehouse ist mehr als ein Repository, das auf der einen Seite mit Ihren Datenquellen (CRM, IoT-Geräte, SaaS-Apps usw.) und auf der anderen Seite mit BI- und Datenanalytik-Software verbunden ist. In Wahrheit ist eine Enterprise-Data-Warehousing-Lösung eine umfassende Datenverarbeitungs- und Speicherumgebung, die aus den folgenden Komponenten besteht:

1 ETL/ELT

Tools zum Extrahieren, Transformieren, Laden (ETL) oder Extrahieren, Laden und Transformieren (ELT) nehmen Informationen aus den Quellsystemen auf und verarbeiten sie, bis sie für die dauerhafte Speicherung geeignet sind. Da Unternehmen in der Regel über zahlreiche Datenquellen mit unterschiedlichen Datentypen, Modellen und Informationsgenerierungsgeschwindigkeiten verfügen, ist ETL/ELT eines der Kernelemente für unternehmensgerechte Analysen.

2 Bereitstellungsraum

Ein Staging-Bereich ist ein temporärer Rohdatenspeicher zwischen den Datenquellen und dem permanenten Speicher, in dem die Daten während der Umwandlungsphase gespeichert werden. Dieses Element ist typisch für Lösungen, die mit dem ETL-Ansatz erstellt wurden, kann aber weggelassen werden, wenn die Umwandlungen in der Data-Warehouse-Datenbank durchgeführt werden.

3 Data-Warehouse-Datenbank

Bei einer Unternehmensdatenbank handelt es sich traditionell um eine relationale Datenbank, in der integrierte und themenorientierte Geschäftsinformationen in Datenmodelle für analytische Abfragen geladen werden. Diese Komponente umfasst auch ein Metadaten-Repository, in dem ein Unternehmen eine Abbildung seiner Daten für einen einfachen Zugriff und eine einfache Handhabung speichert, sowie ein Verwaltungssystem zur Organisation und Aktualisierung von Metadaten.

4 Data Marts

Dimensionale Data Marts werden erstellt, um die Analyseanforderungen bestimmter Benutzergruppen und Entscheidungsträger aus den Bereichen Vertrieb und Marketing, Produktion, Lieferkettenmanagement, Finanzen und anderen Abteilungen zu erfüllen. Data Marts ermöglichen einen einfacheren und schnelleren Datenzugriff und eine schnellere Analyse, da sie kleinere Datensätze verarbeiten.

5 OLAP-Würfel

Der Einsatz von multidimensionalen OLAP-Würfeln (Online Analytical Processing), in denen Daten in voraggregierter Form gespeichert werden, hilft, die Beschränkungen relationaler Datenbanken zu überwinden und die Datenanalyse zu optimieren. Die Daten in OLAP-Würfeln können in Scheiben und Würfel geschnitten, aufgeschlüsselt, aufgerollt und gedreht werden, um verschiedene Analyseanforderungen von Geschäftsanwendern zu erfüllen.

6 Datenverwaltung

Die Data-Governance-Komponente definiert Prozesse und Richtlinien für die Verwaltung von Datenqualität und -sicherheit, Datenmodellierung, Metadaten, Datenaufbewahrung und -sicherung, Datennutzung und Benutzeraktivitäten.

7 Analyse- und Abfrageebene

Die Analyse- und Abfrageschicht stellt ein benutzerfreundliches Frontend dar, das es autorisierten Benutzern ermöglicht, Daten im Warehouse abzufragen, zu analysieren und zu visualisieren sowie Berichte gemeinsam zu nutzen. Zu diesen Tools gehören SQL-Clients, Business-Intelligence-Systeme (BI), Reporting-Tools, Dashboards und eine breite Palette von Datenvisualisierungslösungen. Sie machen die Daten zugänglich und verwertbar und ermöglichen Datenanalysten und Geschäftsanwendern, strategische Erkenntnisse zu gewinnen.

8 Optimierung der Leistung

Damit Data Warehouses unabhängig von der Größe des Datenvolumens eine schnelle Abfrageleistung erbringen können, sollten sie über Leistungsoptimierungsfunktionen verfügen. Dazu gehören die In-Memory-Verarbeitung für eine schnellere Ausführung von Datenabfragen und Analysen, die Zwischenspeicherung von Daten, auf die häufig zugegriffen wird, um die Abfragezeit zu verkürzen, und die parallele Verarbeitung, bei der es um die Nutzung verteilter Systeme zur Verarbeitung großer Datensätze geht.

Suchen Sie einen vertrauenswürdigen DWH-Berater?

Kontakt

Architektur von Unternehmensdatenlagern

Traditionelle Data-Warehouse-Lösungen für Unternehmen sind nach der dreistufigen Architektur aufgebaut, die Folgendes umfasst:

Data-Warehouse-Server (unterste Ebene)
Hier werden die Daten aus unterschiedlichen Quellen, die extrahiert, bereinigt und transformiert wurden, in Datenlagern gespeichert. Er kann auch Datenquellen und ETL-Prozesse für die Datenintegration enthalten.
OLAP-Server (mittlere Ebene)
Hier werden die Daten in mehreren Dimensionen dargestellt und Diagramme, Berichte und Vorhersagen erstellt und verwaltet. Ein OLAP-System bietet in der Regel Unterstützung für relationales Online Analytical Processing (ROLAP), multidimensionales Online Analytical Processing (MOLAP) und hybrides Online Analytical Processing (HOLAP).

Datenzugangsschicht (oberste Ebene)
Diese Schicht verfügt entweder über eine Befehlszeile oder eine grafische Benutzeroberfläche und ermöglicht den Benutzern die Interaktion mit Werkzeugen zur Datengewinnung, -verarbeitung, -abfrage und -auswertung.

Es gibt jedoch auch andere Entwurfsmethoden (z.B. eine ein- oder zweistufige Architektur), deren Architekturansatz von den Bedürfnissen des Unternehmens diktiert werden sollte und sich daher in einigen Fällen als geeigneter erweisen kann.

Funktionen für das Data Warehousing im Unternehmen

Ein Unternehmens-Data-Warehouse ist kein bestimmter Softwaretyp, sondern eine Umgebung, die mehrere Technologien kombiniert. Zusammen ermöglichen sie die folgenden Funktionen:

Konnektivität

Vorgefertigte Konnektoren zu verschiedenen Cloud- und lokalen Datenquellen, einschließlich Datenbanken, operativen Systemen, Geschäftsanwendungen, Flat Files, Feeds, Web-URLs, IoT-Geräten und E-Commerce-Plattformen
API-Bibliotheken für die Erstellung benutzerdefinierter Anschlüsse
Integration mit Business-Intelligence- und Analysesoftware, einschließlich Big-Data-Analysen und ML-Tools
Integration mit einem operativen Datenspeicher und einem Data Lake

Vorbereitung der Daten

Verarbeitung von strukturierten, halbstrukturierten und unstrukturierten Daten
Batch- und Streaming-Datenverarbeitung
Erstellung von Datenprofilen
Automatisierte Datenstandardisierung, Deduplizierung, Entfernung, Bereinigung und Transformation mit dem ETL/ELT-Prozess
Auffinden, Bereinigen und Aktualisieren von Metadaten
Modellierung von Daten

Speicherung von Daten

Speicherung vorverarbeiteter Geschäftsdaten im Data Staging-Bereich
Speicherung integrierter, subjektorientierter, nichtflüchtiger Geschäftsdaten in einer zentralen Datenbank nach einem vordefinierten Datenmodell(en)
Speicherung von Daten in einem relationalen, spaltenförmigen oder/und multidimensionalen Format
Speicherung von Daten in einer unternehmensweiten Datenbank und Data Marts auf Abteilungsebene
Speicherung von Metadaten in Datenkatalogen, Datenwörterbüchern und Glossaren

Datensicherheit und Compliance-Management

Erkennung und Kennzeichnung sensibler Daten
Ende-zu-Ende-Datenverschlüsselung
Dynamische Datenmaskierung
Feinkörnige Zugriffskontrolle
Konfigurierbare Datensicherheitsstufen (Tabelle, Spalte, Rohdaten)
Verwaltung von Compliance-Konfigurationen (HIPAA, GDPR, PCI, SOC, FedRAMP)
Überwachung der Benutzeraktivitäten
Automatisierte Datensicherung und anpassbare Fehlertoleranz

Integration von Unternehmensdatenlagern

Um den Anforderungen der verschiedenen Benutzer im Unternehmen gerecht zu werden, sollte das Enterprise Data Warehouse Daten aus allen Quellen integrieren, die durch die festgelegten Analyseziele auf der erforderlichen Granularitätsebene definiert sind. Zu den am häufigsten integrierten Datenquellen gehören:

CRM-Systeme

Externe Datenquellen

CSV und flache Dateien

Projektleitung Software

Unternehmenswebsite und Intranet

Unternehmensdatenlager

Software für das Lieferkettenmanagement

Plattformen für den elektronischen Handel

Buchhaltungs- und Finanzsoftware

Marketing-Software

ERP-Systeme

Typen von Unternehmensdatenlagern

Bei der Einrichtung eines Unternehmens-Data-Warehouses müssen sich Unternehmen zwischen einer Cloud-, On-Premises- oder hybriden Umgebung entscheiden.

Vor-Ort

Wolke

Hybride

Beschreibung

Ein internes oder ausgelagertes IT-Team vor Ort stellt DWH auf dem lokalen Server bereit.

Ein Cloud Data Warehouse wird in der Cloud gehostet und verwaltet. Alle Kosten für Hardware, Software-Einrichtung, Infrastruktur-Audits und Wartung liegen in der Verantwortung des Anbieters (wenn ein DWH als verwalteter Server geliefert wird).

Ein hybrides Data Warehouse ist sowohl auf Cloud- als auch auf lokale Umgebungen verteilt

Große Vorteile

Umfassende Kontrolle über die Hardware- und Software-Infrastruktur des Data Warehouse Hohe Verfügbarkeit und Sicherheit Einhaltung von Datenvorschriften, die die Aufbewahrung von Daten vor Ort vorschreiben

Schnelle Bereitstellung und schnelle und kosteneffiziente Skalierung von Speicher- und Berechnungsressourcen Minimierte Vorlaufkosten durch ein Pay-as-you-go-Modell Hohe Fehlertoleranz und Notfallwiederherstellung aufgrund der verteilten Natur der Cloud Data Warehouses

Effizienter Betrieb in der cloud unter Einhaltung strengster gesetzlicher Vorschriften und unter Berücksichtigung von Datenlatenzproblemen

Beschränkungen

Hohe Vorabinvestitionen für den Erwerb von Hardware, Softwarelizenzen, IT-Ressourcen usw. Erfordert umfassende Kapazitätsplanung aufgrund der komplizierten Skalierung Erfordert ein erfahrenes IT-Team, um das System effizient am Laufen zu halten

Nichteinhaltung von Compliance-Anforderungen, die die Speicherung von Daten in der Cloud verbieten Mangelnde Preistransparenz und komplizierte Preisstrukturen (z. B. Ausstiegsgebühren, zusätzliche Gebühren für Hot Data Storage, überschüssige Rechenleistung, Georedundanz)

Hoher Preis aufgrund der Anschaffung von Hardware und Software und der Zahlung für die Cloud-Ressourcen Erfordert solide Fachkenntnisse in Entwicklung und Wartung

Top-Tools für Enterprise Data Warehouse-Lösungen

Wir empfehlen, den Auswahlprozess für ein Data Warehouse mit der Prüfung der Lösungen zu beginnen, die in den Berichten Forrester Wave und Gartner Magic Quadrant anerkannt sind.

Eigenschaften

Direkte Abfrage von strukturierten, halbstrukturierten und unstrukturierten Daten aus Amazon S3 zur Analyse ohne Laden und Umwandlung Nahtlose Integration mit den AWS-Analyseservices und ausgewählten AWS-Partnern zur Aufnahme von Daten aus Salesforce, Google Analytics, Facebook Ads, Slack, Jira, Splunk usw. Abfrage von Live-Daten über Amazon Relational Database Service (RDS), Aurora PostgreSQL, RDS MySQL und Aurora MySQL-Datenbanken mit der Funktion für föderierte Abfragen Native Unterstützung von semi-strukturierten Daten Native Unterstützung von erweiterten Analysen

Flexible getrennte Bezahlung von Rechen- und Speicherressourcen mit RA3-Knoten Dynamische Gleichzeitigkeitsskalierung für zusätzliche Rechenleistung Kontinuierliche Zustandsüberwachung des Clusters Manuelle und automatische Snapshots für die Notfallwiederherstellung Auf Tabellen angewendete Datenzugriffsberechtigungen, mehrstufige Authentifizierung, manuell aktivierte Datenverschlüsselung, dynamische Datenmaskierung Einhaltung von HIPAA, ISO 27001, PCI DSS, SOC 1 Typ II und SOC 2 Typ II

Kategorie Software

Cloud Data Warehousing