Data Fabric vs. Data Lake: Kampf der Titanen

Data Fabric vs. Data Lake: Kampf der Titanen

May 20, 2022

Tatjana Korobeyko

Daten-Stratege

Vor nur drei Jahren, als der Ausbruch von COVID-19 die Unternehmen auf der ganzen Welt überraschte, mussten sie die Mittel für digitale Initiativen aufstocken, um sich in einem unbekannten und instabilen Geschäftsumfeld über Wasser zu halten. Mehrere Umfragen zeigen, dass Covid-19 die Digitalisierung des Kundenerlebnisses, der Lieferketten, der Produkte und Dienstleistungen sowie der Unternehmen selbst Monate oder Jahre früher als erwartet ausgelöst hat.

The pandemic’s impact on digitalization across countries

Dieser rasche Wandel hat dazu geführt, dass Unternehmen mehr Daten erzeugen, als sie mit den vorhandenen Möglichkeiten verarbeiten können. Bei der Inanspruchnahme von Datenmanagementdiensten stehen Unternehmen vor dem Paradoxon der Wahl und müssen sich zwischen Ansätzen und Technologien entscheiden, die auf den ersten Blick sehr ähnlich sind, wie ein Enterprise Data Warehouse, Data Lakes, Data Fabrics und andere beliebte Datenmanagementlösungen.

Um Ihnen zu helfen, eine fundierte Entscheidung für Ihr Unternehmen zu treffen, beleuchten wir in diesem Artikel zwei häufig gegensätzliche Begriffe - einen Data Lake und eine Data Fabric.

Datensee, erklärt

Was ist ein Datensee?

Datenseen sind Repositories, die Kopien von Informationen aus verschiedenen Quellsystemen (Transaktionsdatenbanken, Sensorgeräte, SaaS-Anwendungen, File-Sharing-Systeme usw.) in ihrem nativen Format für die Verarbeitung durch ML-Lösungen, Backup und Archivierung, Big-Data-Analysen usw. speichern.

Wie funktionieren Data Lakes?

Zunächst einmal gelangen Informationen aus verschiedenen Quellen in die Landing Zone, wo sie vorübergehend in einem Ist-Zustand verbleiben. Wenn ein Unternehmen kontinuierliche Ingestions-, Extraktions-, Transformations- und Ladefunktionen (ETL) und Funktionen zur Erfassung von Änderungsdaten (CDC) eingerichtet hat, können Informationen unterschiedlicher Art sofort nach ihrer Erstellung in Data Lakes gelangen.

Sobald sich die Daten im Data Lake befinden, wird jedem Satz ein eindeutiger Indikator oder Index und ein Metadaten-Tag zugewiesen, um Abfragen zu beschleunigen und den Benutzern das schnelle Auffinden der gewünschten Daten zu erleichtern. Danach können die Daten bereinigt, dedupliziert, neu formatiert, angereichert usw. werden und dann in die vertrauenswürdige Zone zur dauerhaften Speicherung verschoben werden. Wenn die Informationen für nachgeschaltete Benutzer bereit sind, können sie direkt in Berichte und Dashboards einfließen oder eine weitere ETL-Runde durchlaufen und im Data Warehouse zur weiteren Verarbeitung gespeichert werden.

Data Lakes können auch über separate Umgebungen, so genannte Analytics Sandboxes, verfügen, in denen Datenwissenschaftler die Daten untersuchen können.

Um die Qualität, Sicherheit, Verfügbarkeit und Aktualität von Informationen zu gewährleisten, richten Unternehmen in der Regel ein Data-Governance-Framework ein, da es hilft, Datenpipelines in jeder Phase zu kontrollieren.

Data lake architecture

Warum einen Datensee wählen?

Diese schemaagnostischen Repositories sind auf dem Vormarsch und werden ihre Position wahrscheinlich nicht verlieren, und zwar aus vielen Gründen, darunter:

  • Data Lakes helfen bei der schnellen Konsolidierung nahezu unendlicher Mengen an Informationen aller Art, da die Daten vor der Speicherung nicht auf eine bestimmte Art und Weise modelliert und verarbeitet werden müssen. Data Lakes sind auch kostengünstigere Lösungen im Vergleich zu Bau von Data Warehouses, die es ermöglichen, alle möglichen Daten für den Fall der Fälle zu sammeln, auch ohne zu wissen, wo sie verwendet werden sollen.
  • Ein Data Lake arbeitet gut mit einem Data Warehouse zusammen, da er die mühsame Datentransformation übernimmt und Data-Warehouse-Ressourcen für Analysen einspart.
  • Data Lakes lassen sich leicht in Hadoop und ähnliche Technologien integrieren, und genau das ist es, wofür Datenwissenschaftler Data Lakes loben. Dadurch können sie ML-Modelle im See einsetzen und dort fortschrittliche Algorithmen ausführen.
  • Data Lakes können als immer verfügbares Datenarchiv und Backup fungieren. Da sie standardmäßig über eine hohe Verfügbarkeit und Fehlertoleranz verfügen, eignen sie sich gut zum Speichern von Daten, die aus irgendeinem Grund alt oder ungenutzt sind.
Business value of data lakes, analytics, and ML services

Beschränkungen des Datensees

Manchmal scheitern Data-Lake-Initiativen an den folgenden Gründen:

  • Angeregt durch die nahezu unbegrenzten Möglichkeiten der Datenkonsolidierung im Data Lake, häufen Unternehmen am Ende einfach alle verfügbaren Daten an, in der Hoffnung, später etwas Sinnvolles damit anzufangen. Ohne einen soliden Rahmen für die Erstellung, Anreicherung und Verwaltung von Metadaten wird Ihr Data Lake wahrscheinlich zu einem Datenfriedhof, so dass Sie keine Chance haben, die vorhandenen Daten zu verstehen und sie sinnvoll zu nutzen.
  • Traditionell sind Data Lakes schwer zu sichern und zu unterstützen, um die erforderliche Compliance zu erreichen. Sie müssen viel Aufwand in die Sicherung und Durchsetzung von Data Governance investieren, um das Risiko der Offenlegung von Informationen sowie Geldbußen und Strafen für die Nichteinhaltung von Datenschutzvorschriften zu minimieren.

Suchen Sie einen Anbieter für eine maßgeschneiderte Datenmanagementlösung?

Zu Itransition wechseln

Datengewebe, erklärt

Was ist ein Datengewebe?

Data Fabric ist ein Designansatz, der die Kombination komplexer Komponenten von Datenökosystemen zu einer einheitlichen Plattform beinhaltet, um eine vollständige und kohärente Datenverwaltung zu ermöglichen. Im Gegensatz zu einem Data Lake müssen bei einer Data Fabric die Daten nicht an einen zentralen Ort verschoben werden, sondern es werden robuste Data-Governance-Richtlinien eingesetzt, um eine Vereinheitlichung der Datenverwaltung zu erreichen.

Eine Data Fabric ist eine fortschrittlichere Lösung, auf die Unternehmen zurückgreifen, die ihre bestehenden Datenprozesse verbessern wollen. In der Regel haben sie bereits eine Art Datenspeicher, eine ETL-Lösung, vielleicht einen Datenkatalog oder eine Datenschutzsoftware im Einsatz. Informationen sind nie statisch, ihre Arten und Mengen ändern sich. Vielleicht möchten Sie einen Teil Ihrer Daten in die Cloud verlagern, vielleicht ist es aber auch an der Zeit, Ihre SaaS-Anwendungen in Analyse-Workflows zu integrieren und den Geschäftsanwendern auf sichere Weise mehr Freiheit zu gewähren. Aber wie können Sie all diese Daten verwalten, ohne die Qualität und Sicherheit der Informationen zu gefährden? Hier kommt das Konzept der Data Fabric ins Spiel.

Wie funktioniert die Datenstruktur?

Um den Zugriff auf Informationen über verschiedene Systeme hinweg zu erleichtern, ihren Lebenszyklus zu verwalten und sie den Endbenutzern zugänglich zu machen, unterstützt die Data-Fabric-Architektur:

Datenintegration

Alle Informationen, unabhängig von ihrer Art, ihrem Umfang und ihrem Speicherort, können konsolidiert und von den Benutzern abgerufen werden, da Data Fabric die Nutzung einer Datenvirtualisierungsschicht ermöglicht, die Daten konsolidiert, ohne sie zu verschieben und zahlreiche Kopien zu erstellen. Um die Datenintegrität zu gewährleisten, kann Data Fabric außerdem ETL, CDC, Stream Processing usw. einsetzen.

Smarte Datenkataloge

Datenkataloge sind detaillierte Verzeichnisse aller Daten, die ein Unternehmen besitzt. Während Data Fabrics riesige Informationsmengen zusammenführen, pflegen Datenkataloge die Metadaten, um Datenkonsumenten, einschließlich Analysten, Datenbankingenieuren, Wissenschaftlern, Geschäftsanwendern usw., dabei zu helfen, Daten zu finden und zu verstehen, ihre Herkunft zu verfolgen, sie zu bewerten und zu steuern und vieles mehr.

Dynamisches Metadatenmanagement

Eine Data Fabric setzt in der Regel KI-Funktionen ein, die dabei helfen, Metadaten automatisch zu erkennen, zu analysieren, zu sammeln und zu aktivieren.

Data Governance

Data Governance stellt sicher, dass Datenkonsumenten mit Hilfe entsprechender Richtlinien (Zugriffsrichtlinien, Maskierungsrichtlinien, Datenqualitätsrichtlinien usw.), die dank der Metadaten-Aktivierungsfunktionen automatisch durchgesetzt werden, nur auf qualitativ hochwertige Informationen zugreifen, die sie benötigen.

Gründe für die Einführung einer Datenstruktur

Wie Sie sehen, ist Data Fabric nicht etwas, das Sie anstelle eines Data Lakes implementieren, sondern eher eine Entwicklung, die stattfindet, wenn Sie:

  • Erkennen Sie, dass es unmöglich ist, Ihre Informationen physisch in einem einzigen Speicher zu konsolidieren, ohne Datensilos zu schaffen.
  • Datenmanagement, Governance, Analyse usw. über Ihre verteilte Datenlandschaft hinweg vereinheitlichen wollen, um die Informationsaufnahme und das Qualitätsmanagement zu vereinfachen und gleichzeitig den Datenzugang zu demokratisieren.
  • Suchen Sie nach Möglichkeiten, die Leistung der bestehenden Technologieumgebung zu maximieren, ohne sie strukturell neu aufzubauen, und sie zukunftssicher zu machen, um sicherzustellen, dass sie wachsenden Informationsmengen, neuen Analyseanforderungen usw. standhält.
  • Sie möchten einen Self-Service-Marktplatz für Daten schaffen.

Warum Sie auf Data-Fabric-Lösungen achten sollten

Keine ausgereifte technologische Lösung

Obwohl ihr weltweiter Marktanteil voraussichtlich wachsen wird, handelt es sich bei Data Fabric immer noch um ein neues Konzept, für das es bisher keine ausgereifte technologische Lösung gibt.

Data fabric market size

Während man separate Lösungen zusammenstellen kann, um eine umfassende Data Fabric-Funktionalität zu ermöglichen, ordnet Gartner Data Fabric dem Stadium "Peak of Inflated Expectations" zu, was bedeutet, dass die allgemeine Akzeptanz nicht früher als in fünf Jahren erwartet wird.

Data fabric in the Gartner Hype Cycle

Unzureichende Zusammenarbeit von IT und Fachanwendern

In Bezug auf das technische Fachwissen erfordert das Data-Fabric-Projekt IT-Spezialisten, die sich mit ETL-Tools, Microservices-Architektur, Cloud-Diensten, SQL und NoSQL, Hadoop und Ähnlichem, Python, Java usw. auskennen. Das Data-Fabric-Projekt sollte jedoch kein reines IT-Projekt sein, da Sie sonst Ihr Geld verschwenden. Auch die Endnutzer müssen einbezogen werden, insbesondere in der Phase der Definition der Anforderungen an die Datenstruktur und der Einführung der Lösung.

Nachwort

Es ist offensichtlich, dass es in der Debatte zwischen Data Fabric und Data Lake keinen Gewinner geben kann, da beide ihre Vor- und Nachteile haben und, was noch wichtiger ist, unterschiedlichen Zwecken dienen und somit als ergänzende Lösungen genutzt werden können. Wenn Ihre derzeitigen Methoden der Datenverwaltung mit einem Data Lake und Data Warehouses nicht das gewünschte Ergebnis liefern, sollten Sie die Nutzung einer Data Fabric in Betracht ziehen. Auch wenn Ihre aktuellen Daten-Repositories wichtige Komponenten Ihrer Datenlandschaft bleiben, würde die Einbeziehung des Data-Fabric-Ansatzes mehr Agilität in den Geschäftsbetrieb bringen und Ihnen helfen, mit den aktuellen Trends der digitalen Transformation Schritt zu halten.