Da die Datenmengen massiv wachsen und die Kosten für die Datenspeicherung sinken, lernen Unternehmen, die Vorteile von Big Data zu nutzen. Anstatt sofortige Vorteile zu erzielen, müssen die Unternehmen jedoch feststellen, dass sie trotz der bereits vorhandenen Data-Governance-Rahmenregelungen eine Reihe von Datenanalysediensten einbeziehen müssen, um Herausforderungen im Zusammenhang mit verschiedenen Datenformaten und der Sicherheit zu lösen.
Aus diesem Grund erfordert Big-Data-Governance einen anderen Ansatz, um sicherzustellen, dass die richtigen Personen auf die richtigen Daten zugreifen können, die dann für datengestützte Entscheidungsfindung genutzt werden können.
Big Data Governance Q&A
Ein Big-Data-Governance-Plan sollte auf die Bedürfnisse des Unternehmens und die Gesetze der Branche zugeschnitten sein und gleichzeitig die wesentlichen Merkmale und Anforderungen der Big-Data-Verarbeitung berücksichtigen. So würden beispielsweise Data Governance für das Gesundheitswesen und der Einzelhandel beide personenbezogene Daten abdecken, aber die Sicherheitsmaßnahmen für deren Übertragung würden sich in jedem Fall unterscheiden.
Big Data Governance vs. Data Governance: was ist der Unterschied?
Eigentlich sollte es keinen Unterschied geben - für beide sollten die gleichen Grundsätze gelten. Big Data Governance ist in Bezug auf die Herausforderungen und Grundsätze der traditionellen Data Governance sehr ähnlich. Erstere muss jedoch eine Reihe von besonderen Merkmalen von Big Data berücksichtigen:
- Das Volumen von Big Data kann Petabytes und mehr erreichen
- Big Data kann strukturiert, halbstrukturiert oder unstrukturiert sein
- Big-Data-Repositories umfassen Dateien, NoSQL-Datenbanken, Data Lakes und Streams
- Daten werden aus internen und externen Quellen extrahiert, einschließlich angeschlossener Geräte
- Daten werden in Echtzeit verarbeitet
Da die heute auf dem Markt befindlichen traditionellen Data-Governance-Tools die Anforderungen der Big-Data-Verarbeitung nicht unterstützen können, müssen Unternehmen ihre Datenanalytik-Strategie überdenken und die vorhandenen Technologien ausbauen und weiterentwickeln, um den neuen Herausforderungen gerecht zu werden.
Wer ist für die Datenverwaltung verantwortlich?
Data Governance überschreitet die Grenzen von Abteilungen und beeinflusst das Ergebnis jeder Abteilung - im Guten wie im Schlechten. Sie erfordert die Zusammenarbeit im gesamten Unternehmen und klar definierte Rollen und Dateneigentumsverhältnisse. Wenn jeder weiß, wer welche Befugnisse und Verantwortlichkeiten in Bezug auf Daten hat, können Chaos und Fehler vermieden werden, und die Data Governance wird sozialisiert.
Abhängig von der Größe und den Zielen des Unternehmens können die folgenden Rollen für ein leistungsstarkes Big-Data-Team erforderlich sein:
- Ein Data-Governance-Komitee besteht aus Top-Managern, die für die Erstellung oder Genehmigung von Datenstrategien, die Priorisierung von Projekten und die Genehmigung von Datenrichtlinien und -standards verantwortlich sind.
- Chief Data Officers (CDOs) nehmen an der Entwicklung der Datenstrategie teil, überwachen die Implementierung des Datenrahmens und nutzen Daten als strategisches Gut. Sie schaffen Datenstandards, -richtlinien und -praktiken und fördern die Datenkultur im Unternehmen.
- Big-Data-Architekten kennen sich mit den relevanten Technologien aus und verstehen die Beziehungen zwischen ihnen. Sie sind für den Entwurf von Big-Data-Verarbeitungslösungen verantwortlich, die jedes datenbezogene Problem lösen können. Sie können sich intensiv mit Data Governance, Automatisierung und Sicherheit befassen.
- Dateningenieure richten Systeme zum Sammeln, Bereinigen und Organisieren von Daten aus verschiedenen Quellen ein und übertragen sie in Data Warehouses.
- Datenwissenschaftler/Datenanalysten sind für die Analyse großer Mengen strukturierter und unstrukturierter Daten, die Erstellung von Algorithmen und Vorhersagemodellen und die Extraktion von Trends und Erkenntnissen verantwortlich, die für das Unternehmen relevant sind.
- Dateneigentümer sind Teammitglieder, die Daten nutzen und für die Datenbestände in Bezug auf Qualität und Sicherheit innerhalb ihrer Teams verantwortlich sind.
- Data Stewards arbeiten eng mit den Dateneigentümern zusammen und überwachen, wie letztere die Datenstrategie umsetzen und ob sie die Datenrichtlinien und -standards einhalten. Sie beteiligen sich auch an der Schulung neuer Dateneigentümer. Da Big Data oft gesammelt, aber nicht genutzt werden, weil es an Fachleuten fehlt, besteht derzeit ein deutlich höherer Bedarf an Datenverwaltern und damit verbundenem Fachwissen.
- Datennutzer sind Teammitglieder, die mit Daten interagieren, um ihre täglichen Aktivitäten durchzuführen. Sie geben Daten ein, greifen auf verschiedene Datensätze zu und erstellen Berichte.
- IT-Teams sind für die Technologieimplementierung und -anpassung, die Entwicklung zusätzlicher Funktionen für die Big-Data-Verarbeitung, die Prüfung, Sicherheit und Wartung zuständig.
Es ist klar, dass Big-Data-Technologien in der Lage sind, einige der oben genannten Rollen zu ersetzen, wie z. B. Architekten und Datenwissenschaftler, oder einige der Rollen können verschmelzen und Verantwortlichkeiten kombinieren. Es ist jedoch wichtig, die erforderlichen Fachleute an der Technologieimplementierung zu beteiligen.
Was sind Data-Governance-Stufen?
Es ist wichtig zu verstehen, dass nicht alle Daten auf die gleiche Weise verwaltet werden können, insbesondere wenn es um Big Data geht. Es kann drei Ebenen der Governance geben:
- Strictly governed Daten sind bereits überprüft, rationalisiert, organisiert und für die Leistung optimiert.
- Los geregelte Daten kann es in zwei Arten geben. Es können Daten sein, die von Datenwissenschaftlern verwendet werden, um Experimente durchzuführen, Näherungswerte zu ermitteln und nach Trends und Mustern zu suchen. Oder es kann sich um Daten handeln, die nicht aufbereitet werden müssen oder nur eine minimale Rationalisierung erfordern, wie z. B. Schlüssel-IDs.
- Non-Governed-Daten sind Rohdaten in ihrer reinsten Form, ohne zusätzliche Schlüssel. Solche Daten können für "Schema-on-Read"-Analysen verwendet werden - die Daten sind in einem unorganisierten und unstrukturierten Format gespeichert und werden für bestimmte Zwecke organisiert.
Es ist wichtig, Daten über alle Governance-Ebenen hinweg zu überwachen - Daten ändern sich ständig und können einen Wechsel zu einer anderen Governance-Ebene erfordern.
Suchen Sie professionelle Datenanalytik-Dienstleistungen?
Must-haves der Datenverwaltung
Wenn es um Big Data geht, werden selbst so alltägliche Vorgänge wie das Sammeln und Speichern zu Herausforderungen, ganz zu schweigen von Analyse und Prognose. Hier sind einige der Must-haves, die hier einen Unterschied machen können.
Ein Rahmen für Big Data Governance
Big Data und starre Kontrolle passen nicht zusammen. Um verschiedene Governance-Ebenen zu ermöglichen, muss ein Rahmenwerk entwickelt werden, das alle im Unternehmen auf der gleichen Seite hält. Jedes Unternehmen kann sein eigenes, auf die Geschäftsziele und die Vision abgestimmtes Rahmenwerk haben, aber um eine nachhaltige Governance zu erreichen, müssen die folgenden Komponenten berücksichtigt werden.
Geschäftsziele
Um sicherzustellen, dass relevante Daten gesammelt und verarbeitet werden, jeder in die gleiche Richtung geht und Messgrößen zur Verfügung stehen, um Fortschritt und Erfolg zu messen, ist es notwendig, von oben bis unten zu erklären, warum Big-Data-Governance unerlässlich ist (vielleicht unter Verwendung von Data-Storytelling) und eine Big-Data-Mission und -Vision auf der Grundlage dieser Ziele zu entwickeln.
Personal
Eine Big-Data-Governance-Strategie erfordert ein professionelles Team, das Daten beschaffen, verwalten, nutzen und schützen soll. Basierend auf der Organisationsstruktur muss festgelegt werden, welche internen Rollen Sie benötigen - Datenarchitekten, Datenwissenschaftler, Dateneigentümer, Datenverwalter oder andere. Sobald die Rollen zugewiesen sind, ist es möglich, Befugnisse und Verantwortung für die korrekte gemeinsame Nutzung von Daten zu delegieren.
Durch Kommunikationsmöglichkeiten und einen barrierefreien Zugang zu den Daten sollte den Mitarbeitern das Gefühl vermittelt werden, dass sie ein Team und keine isolierten Akteure sind. Außerdem ist es wichtig, ein fortlaufendes Schulungsprogramm einzurichten und alle Datenverantwortlichen in entsprechende Big-Data-Governance-Schulungen einzuschreiben.
Ein weiterer wichtiger Punkt ist die Förderung einer Datenkultur innerhalb eines Data-Governance-Teams. Idealerweise sollte es eine Kultur der Beteiligung, der Nachhaltigkeit und der Ermöglichung von Datenqualität und Compliance sein.
Regeln
Das Big-Data-Governance-Management sollte zusammen mit den Dateneigentümern und Datenverwaltern ein Regelwerk entwickeln, das die Erfassung, die Verwaltung, die Nutzung und den Schutz von Daten regelt. Alle Akteure eines Big-Data-Governance-Prozesses sollten sich der Datennutzung (um dies zu gewährleisten, sollten regelmäßige Daten-Audits durchgeführt werden), der Einhaltung von Gesetzen und internen Praktiken bewusst sein, wissen, wie sie sich im Rahmen der Gesetzgebung verhalten und Daten korrekt und legal nutzen können.
Sicherheit
Unternehmen entscheiden sich für die Implementierung von Big Data Governance, um vor allem die Sicherheit der Daten zu gewährleisten. Neben leistungsfähigen Kontrollmechanismen der Unternehmens-Cybersicherheit sollten Mitarbeiter, die mit Daten interagieren, über sensible Datensicherheitspraktiken Bescheid wissen und die festgelegten Regeln bei der Datenverarbeitung und -änderung befolgen. Es sollte ein System von Zugriffsebenen geben, das regelt, wer verschiedene Arten von Daten einsehen und ändern darf.
Erweiterte Data-Warehouse-Architektur
Sind traditionelle Enterprise Data Warehouses (EDW) tot? Nein, natürlich nicht. Um jedoch von den Geschäftsauswirkungen von Big Data zu profitieren, bedarf es einer neuartigen Architektur, die eine EDW-Umgebung und innovative Technologien zur Verarbeitung multistrukturierter Daten kombiniert. Zu diesem Zweck wurde eine erweiterte Data-Warehouse-Architektur, kurz XDW, eingeführt. Schauen wir uns ihre Schichten und Komponenten an.
Die Datenschicht
Die Datenschicht speichert riesige Mengen an strukturierten und unstrukturierten Daten. Dabei kann es sich um Rohdaten handeln, die vor Ort in relationalen Datenbanken, NoSQL-Datenbanken, verteilten Dateisystemen oder in der Cloud über Dienste wie AWS oder Microsoft Azure gespeichert werden.
Die Schicht kann auch Echtzeit-Streaming-Daten enthalten - große, als Stream verarbeitete Datenpakete, die kontinuierlich von mehreren Quellen generiert und in Bewegung durch den Server verwendet werden (im Gegensatz zu Daten, die vor der Verarbeitung zunächst gespeichert und indiziert werden). Dabei kann es sich um In-App-Aktivitäten, Stimmungen in sozialen Medien, Telemetriedaten von IoT-Geräten und mehr handeln.
Die Integrations- und Ingestionsschicht
Diese Schicht wird verwendet, um Daten in die Datenschicht aufzunehmen. Neben der traditionellen Integration mit sorgfältig konzipierten ETL-Prozessen ist hier der Einsatz einer Datenraffinerie möglich. Letztere nimmt strukturierte und unstrukturierte Rohdaten in Batch und in Echtzeit aus Quellen wie IoT-Geräten oder sozialen Medien auf, wandelt sie in nützliche Informationen um und speist sie in andere XDW-Komponenten ein.
Eine Datenraffinerie wird eingesetzt, um den Wert von Big Data zu ermitteln. Mittels einer Grobanalyse kann man verstehen, welche Daten nützlich sind und schnell interessante Daten entdecken. Der Prozess erfordert eine flexible Datenverwaltung, da die resultierenden Daten möglicherweise keine Integration und Qualitätsverarbeitung erfordern (aber Flexibilität schließt Sicherheit und Datenschutz nicht aus).
Die Verarbeitungsebene
Hier sitzt ein traditionelles EDW, das alle Daten aufnimmt, sie in ein Format bringt, das für die Abfrage von SQL und Data-Warehouse-OLAP-Servern geeignet ist, und sie an BI-Tools weiterleitet. Das Data Warehouse ist nach wie vor die beste Quelle für saubere, zuverlässige und konsistente Daten für kritische Analysen in den Bereichen Finanzen und Regulierung. Es ist auch die Datenquelle für KPIs und andere Standardmetriken, die von verschiedenen Abteilungen innerhalb eines Unternehmens verwendet werden.
Investigative Technologien wie Hadoop oder Spark befassen sich mit ungewöhnlicheren Arten von Daten und verschiedenen Experimenten. Sie erforschen Big-Data-Quellen und befassen sich mit Analysemethoden wie Data Mining, Musteranalyse oder auch kundenspezifischen Untersuchungen. Die Einsatzszenarien solcher Technologien variieren von einfachen Sandboxen für Experimente bis hin zu vollwertigen Analyseplattformen. In jedem Fall ermöglichen sie die Analyse großer Datenmengen mit hoher Geschwindigkeit und die Nutzung dieser Daten in einer EDW, einer Echtzeit-Analyse-Engine oder eigenständigen Geschäftsanwendungen.
Die Analyse- und BI-Schicht
Diese Technologien für Datenvisualisierung und cloud-business-intelligence ermöglichen es Datenwissenschaftlern und Analysten, Daten zu erforschen, ihnen Fragen zu stellen, Visualisierungen zu erstellen und mit ihnen zu interagieren, und vieles mehr.
Eine weitere Komponente ist eine Plattform, die Streaming-Analysen und die Entwicklung von analytischen Echtzeit-Anwendungen unterstützt. Ihre Anwendungsfälle umfassen Betrugserkennung, Optimierung des Verkehrsflusses, Risikoanalyse usw. Die Plattform ist eng mit anderen Komponenten, wie EDWs oder Untersuchungstechnologien, integriert, um Daten frei von und zu ihnen zu übertragen.
Alle diese Komponenten können nicht isoliert voneinander funktionieren - sie müssen zusammengeführt und durch Data Governance ergänzt werden.
Das Big-Data-Governance-Projekt von Transition
Für eines unserer Datenanalyseprojekte ging Itransition eine Partnerschaft mit einem multinationalen Unternehmen mit Sitz in den USA ein, das fortschrittliche pharmazeutische Analysen und Technologien bereitstellte. Der Kunde verfügte über 500 Millionen Patientendatensätze zu mehr als 50 Tausend Patenten, ganz zu schweigen von Petabytes an firmeneigenen Daten. Sein Altsystem schränkte jedoch seine Möglichkeiten ein, mehr Wert aus diesen wachsenden Daten zu schöpfen. Daher wandte sich das Unternehmen an uns, um einen Business-Intelligence-Projektplan zu erstellen, in die Cloud zu migrieren und die Datenverwaltungsfunktionen zu verbessern.
Wir haben eine BI-Plattform neu entwickelt
Die Datenanalyseplattform des Kunden umfasste ein Toolset zur Erstellung von Berichten auf der Grundlage mehrerer strukturierter und unstrukturierter Datenquellen. Das System war nicht in der Lage, die Anforderungen des Unternehmens zu erfüllen und sich an den sich wandelnden Markt anzupassen, so dass eine grundlegende Überarbeitung und Optimierung der Benutzeroberfläche, der Datenverarbeitung und der Berichterstellung erforderlich war. Itransition entwickelte eine neue BI-Plattform auf dem ASP.NET MVC-Framework mit Microsoft SQL Server als Datenbank-Engine, auf der wir die neu entwickelte Funktionalität, Flexibilität und Skalierbarkeit lieferten. Das Ergebnis waren 3-5x schnellere SQL-Abfragen und eine geringere RAM- und CPU-Auslastung.
Wir lieferten eine App zur Datenverwaltung und Datenvisualisierung
Die alte Plattform unterstützte nicht mehrere Datenquellenformate und hatte eine veraltete ETL-Konfiguration, was die Datenverarbeitung verlangsamte. Infolgedessen konnte die Datenverarbeitung Tage dauern, wobei einige Quellen von der Verarbeitung ausgeschlossen waren. Außerdem konnten Benutzer, die keine Techniker waren, nicht an den ETL-Prozessen teilnehmen und benötigten eine benutzerfreundliche Schnittstelle für die Interaktion mit den Daten.
Wir entwickelten eine Datenverwaltungsanwendung und integrierten sie mit mehreren Datenbank-Engines (Oracle, Microsoft SQL) und Apache Hadoop, um die verteilte Speicherung und Verarbeitung großer Datenmengen zu ermöglichen. Dies ermöglichte eine 10-mal schnellere Datenverarbeitung und einen geringeren Speicher- und Platzbedarf. Die App wurde auch für technisch nicht versierte Benutzer zugänglich, die innerhalb weniger Minuten Daten visualisieren und Berichte erstellen konnten. Das System war in der Lage, verschiedene Datenquellen zu verarbeiten, Daten umzuwandeln und verschiedene Ausgabeformen vorzubereiten, seien es Datenbanken oder Dateien. Auf diese Weise konnten die Benutzer die aufbereiteten Daten an andere Ziele wie Cloud-Speicher, FTP-Server oder andere Teams weiterleiten.
Wir sind in die Cloud migriert
Um eine hohe Systemleistung aufrechtzuerhalten, wenn die Zahl der Benutzer ständig wächst, haben wir die Systemmigration vom lokalen Server in die Cloud eingeleitet. Unsere DevOps-Spezialisten prüften die bestehende Infrastruktur und erstellten einen Migrationsplan. Wir entwarfen eine skalierbare und sichere Cloud-Infrastruktur und setzten die AWS DevOps-Architektur ein. Als Ergebnis erhielt der Kunde eine virtuelle private Cloud mit privaten und öffentlichen Subnetzen, definierten Netzwerk-Gateways und fein abgestimmten Sicherheitseinstellungen.
Um die Sicherheit großer Mengen sensibler Daten zu gewährleisten, verwendeten wir Amazon S3. Kritische Daten wurden über AWS-Tools gesichert. Wir nutzten Amazon RDS, um automatische Sicherungen von Datenbankinstanzen zu erstellen und zu speichern. Um die Sicherheit zu erhöhen, haben wir AWS-Services verwendet, um Passwörter und Lizenzcodes als verschlüsselte Parameter zu speichern und die sichere Konfiguration von verwalteten Instanzen und das Zurücksetzen von Passwörtern zu ermöglichen.
Wir haben auf lange Sicht hervorragende Ergebnisse erzielt
Unsere Lösung wird inzwischen von vielen führenden Pharmaunternehmen eingesetzt, die damit Daten in verschiedenen Formaten aus unterschiedlichen Quellen verarbeiten und ihre Datenbestände mit Big-Data-Governance-Tools effizient und sicher verwalten können.
Abschließende Gedanken
Big Data stellt das traditionelle Datenmanagement auf den Kopf. In Anbetracht der Vorhersagen für die Zukunft von Big Data halten es die Unternehmen für dringend erforderlich, neue Wege und neue technologische Lösungen zu suchen, die dabei helfen können, große Mengen an formatübergreifenden Daten effizient und sicher zu verarbeiten. Big-Data-Governance ist ein wesentlicher Bestandteil eines völlig neuen Ansatzes im Umgang mit Daten, und es ist wichtig, sie mit Hilfe eines maßgeschneiderten Rahmens und einer entsprechenden Infrastruktur richtig zu gestalten.