Ein Leitfaden für Techniken zur Visualisierung großer Datenmengen

Ein Leitfaden für Techniken zur Visualisierung großer Datenmengen

November 5, 2019

Valerie Nechay

Die moderne digitale Welt arbeitet mit dem Motor der Daten. Unternehmen erzeugen und verbrauchen große Mengen davon in der Hoffnung, "Aha!"-Momente zu entdecken, aus Killer-Analysen zu lernen und datengestützte Entscheidungen zu treffen. Allerdings kann man die wahre Größe von Big Data nicht begreifen - sie ist nicht unmittelbar aussagekräftig. Bevor das Konzept nicht im Kopf eines Menschen entstanden ist, existiert es einfach nicht.

Visuelle Medien sind in der Lage, ein bestimmtes Konzept sofort heraufzubeschwören, indem sie das Rauschen ausblenden und eine Geschichte erzählen. Geschichten fesseln Menschen und schaffen starke Verbindungen zwischen verschiedenen Konzepten. Wenn Daten visualisiert werden, ist jeder im Unternehmen in der Lage, sie zu interpretieren, d. h. Trends, Muster und Ausreißer zu erkennen sowie wichtige Korrelationen und Beziehungen zwischen Tausenden von Variablen zu entdecken. In der Big-Data-Welt sind Visualisierungstechnologien ein Grundpfeiler des Data-storytelling, da sie riesige Datenmengen auf eine Weise präsentieren, die nicht überwältigend ist.

Datenvisualisierungen sind nicht gleichbedeutend mit dem Aufblitzen von ein paar Tortendiagrammen, die irgendwie aussagekräftige Erkenntnisse bringen sollen. Die Wahl der Visualisierungstechnik hängt von der Zielsetzung ab. Bevor wir jedoch über die Techniken und ihre Ziele sprechen, sollten Sie sich vor Augen führen, in welche Falle Sie tappen können. Auf der Suche nach ausgefeilten Visualisierungen kann man es versäumen, die Botschaft zu vermitteln. Eine effektive Datenvisualisierung ist ein Gleichgewicht zwischen Form und Funktion. Eine atemberaubende Infografik kann die richtige Botschaft verfehlen, während eine einfache Tabelle Bände spricht. Daten und ihre visuelle Darstellung sollten also zusammenarbeiten.

Kurioserweise behandeln Unternehmen die Datenvisualisierung nicht als Priorität unter allen Facetten der Datenanalytik. Sie fragen sich: Ist die Datenvisualisierung die Antwort auf alle ihre Geschäftsprobleme? In Verbindung mit prädiktiver und präskriptiver Analytik ist sie es auf jeden Fall.

Sehen wir uns an, wie die verschiedenen Arten der Datenvisualisierung Unternehmen dabei helfen, jede noch so große Datenmenge zu erfassen und für verschiedene Zwecke zu nutzen, z. B. um einen besseren Einblick in betriebliche Prozesse zu erhalten oder Daten für verschiedene Abteilungen aufschlussreich zu machen.

Gebräuchliche Visualisierungstechniken, für kleine und große Daten

Nachfolgend beschreiben wir eine Reihe grundlegender Visualisierungstechniken, die mit verschiedenen Arten von Daten, einschließlich Big Data, funktionieren. Natürlich stellen große Daten zusätzliche Herausforderungen dar, aber die Entscheidungsträger müssen die Geschichte der Daten lesen können, d.h. sie in den verdaulichen Formaten sehen, an die sie gewöhnt sind.

Hier ist ein Leitfaden, der Ihnen hilft, die richtige Visualisierungstechnik für Ihre Daten zu wählen. Bevor Sie sich damit befassen, sollten Sie einige nützliche Tipps zur Visualisierung beachten:

  • Verwenden Sie leicht verdauliche Zahlen, z. B. statt 10.000.000 die Zahl 10, mit der Klarstellung, dass die Zahlen in Millionen angegeben werden.
  • Bieten Sie einen Kontext für die Werte an, insbesondere dort, wo es schwierig ist, sie ohne zusätzliche Informationen zu verstehen.
  • Verwenden Sie gegebenenfalls farbcodierte Metriken. Das kann so einfach sein wie grün-gelb-rot, aber Menschen können ähnliche Farbassoziationen unterbewusst interpretieren.

Technik 1. Diagramme

Die Diagramme werden in der Regel verwendet, um die Dynamik eines oder mehrerer Datensätze darzustellen.

Liniendiagramm

Liniendiagramme sind am effizientesten, um die Beziehungen zwischen Variablen darzustellen. Sie werden in der Regel verwendet, um Veränderungen und Trends aufzuzeigen oder um mehrere Komponenten über einen bestimmten Zeitraum zu vergleichen. Einige wenige Linien werden verwendet, um die Werte einiger weniger Trends oder Variablen darzustellen.

Product trends by month

Wann zu verwenden?

Wenn Sie die Beziehung zwischen Datenpunkten und nicht nur eine bestimmte Anzahl von Datenpunkten darstellen möchten. So können Sie beispielsweise Ereignisse zur Kundenbindung über einen bestimmten Zeitraum hinweg visualisieren und Spitzen- und Abfallzeiten ermitteln.

Kuchen- und Donut-Diagramme

Diese Diagramme sind in Sektoren unterteilt, die numerischen Werten entsprechen. Der Winkel und der Bogen eines jeden Sektors entsprechen dem dargestellten Wert. Dieser Diagrammtyp wird also verwendet, um Teile des Ganzen zu vergleichen.

Pie chart example

Das Polflächendiagramm ist eine Abwandlung des Kreisdiagramms, bei dem aber nicht nur der Winkel und der Bogen, sondern auch der Abstand vom Zentrum ausgewertet wird. Ein scharfer Sektor, der sich weit vom Zentrum entfernt befindet, wird als wichtiger behandelt als ein stumpfer Sektor oder ein Sektor, der sich näher am Zentrum befindet.

Resource grade chart

Allerdings werden diese visuellen Techniken inzwischen stark kritisiert, da sie ziemlich schwer zu interpretieren sind. Es fällt den Menschen schwer, Flächen visuell abzuschätzen und Kuchensektoren zu vergleichen, die zwar ähnlich groß sind, aber weit auseinander liegen.

Wann anwenden?

Wenn Sie Komponenten einer Kategorie vergleichen müssen, z. B. die Verkaufsanteile eines bestimmten Produkts in Ihren fünf Geschäften. Versuchen Sie, weniger Komponenten zu verwenden, und fügen Sie Text und prozentuale Anteile zur Beschreibung des Diagramms hinzu, um Vermutungen zu vermeiden.

Balkendiagramm

Balkendiagramme sind gut geeignet, um die Mengen verschiedener Kategorien zu vergleichen. Ein Wert wird durch einen vertikalen oder horizontalen Balken dargestellt, dessen Länge oder Höhe den Wert darstellt. Wenn die Werte sehr unterschiedlich sind, reicht ein einfaches Balkendiagramm aus. Wenn die Werte sehr nahe beieinander liegen, ist es besser, verschiedene Farben zu verwenden, um einen visuellen Unterschied zu schaffen. Die Farben sollten jedoch unterschiedliche Zustände anzeigen. Wenn alle Datenpunkte den gleichen Status haben, werden Farben irrelevant.

Bar chart example

Wann zu verwenden?

Wenn Sie Datensätze verschiedener Kategorien vergleichen müssen. Zum Beispiel die Kundenbindung nach Kanal.

Technik 2. Grundstücke

Darstellungen helfen, zwei oder mehr Datensätze in 2D oder 3D zu visualisieren, um die Beziehung zwischen diesen Datensätzen sowie ihre Parameter zu zeigen.

Streuungsdiagramm (X-Y)

Dieses 2D-Diagramm besteht aus Markierungen (Punkte, Quadrate oder Pluszeichen) und zeigt die gegenseitige Veränderung zweier Datenelemente. Jede Markierung entspricht einer Beobachtung, und die Position der Markierung ist der Wert der jeweiligen Beobachtung.

Wenn alle Datenpunkte im Diagramm enthalten sind, kann man visuell abschätzen, ob die Datenpunkte miteinander in Beziehung stehen, indem man feststellt, wie nah oder wie weit sie voneinander entfernt sind.

Scatter plot example

Wann zu verwenden?

Wenn Sie mehrere Datenpunkte haben und die Korrelation zwischen den Variablen X und Y untersuchen müssen. Folglich sollten die Variablen voneinander abhängen oder sich in irgendeiner Weise gegenseitig beeinflussen. Zum Beispiel ist das Angebot in der Regel mit der Nachfrage verbunden.

Bei wenigen Datenpunkten sind Streudiagramme nicht sehr hilfreich, und es ist besser, Balkendiagramme oder Tabellen zu verwenden.

Blasendiagramm

Es handelt sich um eine Streudiagrammvariante, bei der die Marker durch Blasen dargestellt werden. Es zeigt die Beziehung zwischen mindestens drei Messwerten, wobei zwei Messwerte durch X-Y-Achsen dargestellt werden und der dritte Messwert die Blasengröße ist.

Die Blasen können verschiedene Farben haben, um eine zusätzliche Messgröße anzuzeigen. Sie können auch animiert werden, um Veränderungen im Laufe der Zeit zu zeigen.

Bubble plot example

Wann zu verwenden?

Wenn Sie die Beziehung zwischen Datensätzen mit mehreren Werten (bis zu Hunderten) oder mit stark variierenden Werten (um einige Größenordnungen) verfolgen müssen.

Histogramm-Darstellung

Ein Histogramm stellt die Dynamik einer Variablen über einen bestimmten Zeitraum dar. Die Daten werden durch Unterteilung in Intervalle, die Bins genannt werden, dargestellt.

Histogram plot example

Wann zu verwenden?

Wenn Sie Ausreißer oder die Schiefe einer kontinuierlichen Variable verfolgen müssen. Histogramme werden auch verwendet, um zu verstehen, wie sich die Daten verändern, wenn man sie nach einem bestimmten Maß filtert.

Technik 3. Karten

Karten werden in verschiedenen Branchen verwendet, da es möglich ist, Datenpunkte auf verschiedenen Objekten und Flächen zu positionieren, wie z. B. geografische Karten, Website-Layouts, Gebäudepläne usw. Aufgrund der Fülle von Standortdaten, die von den intelligenten Geräten der Verbraucher, smarten Büros, Fahrzeugsensoren usw. gesammelt werden, sind Karten derzeit sehr beliebt.

Wärmekarte

Farbcodierte Datenpunkte werden in ein Layout eingeblendet, z. B. in eine geografische Karte, ein Fußballfeld oder eine Website-Seite. Die Intensität der Farbe (von kühl nach warm) stellt den Werteverlauf dar.

Heat map example

Wann zu verwenden?

Wenn Sie eine Datenkategorie (Klicks auf einen bestimmten Website-Bereich, Verkaufsabschlüsse, Bevölkerungsgröße, Hotel-Check-ins in einem bestimmten Gebiet usw.) und einen großen Wertebereich haben. Heatmaps sind ziemlich einfach. Wenn die Daten erst einmal aufbereitet sind, ist es ein Leichtes, allgemeine und spezifische Trends zu erkennen, Schwachstellen auszumachen und versteckte Chancen zu identifizieren.

Im Falle von Website-Analysen eignen sich Heatmaps hervorragend, um die Benutzerfreundlichkeit einer Seite zu bewerten und A/B-Tests durchzuführen, bevor Elemente optimiert oder ein neues Design angewendet wird.

Karte der Punktverteilung

Es handelt sich um eine Variante der Blasen- oder Streudiagramme, bei der Marker anstelle bestimmter Orte auf einer geografischen Karte eingeblendet werden. Jeder Marker ist eine Beobachtung. Ähnlich wie bei Bubble Plots können die Marker unterschiedlich groß sein, was einen zusätzlichen Wert einbringt oder eine Ansammlung von zu dicht liegenden Punkten darstellt.

Dot distribution map example

Wann zu verwenden?

Wenn Sie beabsichtigen, ein Phänomen abzubilden, das sich im Laufe der Zeit gleichmäßig verändert, wie z. B. demografische Daten, Wahlergebnisse oder das Wachstum von Unternehmen. Wenn die Punkte für ein begrenztes Gebiet zu zahlreich sind, wird es schwierig, die Karte zu lesen.

Visualisierungstechniken für große Daten

Big Data veranlasst Unternehmen dazu, ihre technologische Komfortzone zu verlassen und neue Wege der Datenvisualisierung zu finden. Während Big Data auf die oben beschriebene Weise visualisiert werden kann, können Sie anspruchsvollere Techniken und Tools ausprobieren, um diese großen Big-Data-Herausforderungen anzugehen:

  • Größe, d.h. die Verarbeitung riesiger Datenmengen und deren aussagekräftige und nicht überwältigende Darstellung
  • Vielfalt oder Vereinheitlichung und Visualisierung unstrukturierter Daten
  • Geschwindigkeit oder der Zugriff auf und die Verarbeitung von Daten, die mit unterschiedlicher Geschwindigkeit im Unternehmen ankommen

Technik 4. Box- und Whisker-Diagramm

Box- und Whisker-Diagramme visualisieren Daten mit fünf Statistiken: Minimum, unteres Quartil, Median, oberes Quartil und Maximum. Das untere Quartil (25. Perzentil) ist der untere Rand der Box; das obere Quartil (75. Perzentil) ist der obere Rand der Box; der Median (50. Perzentil) ist eine zentrale Linie, die die Box in Abschnitte unterteilt. Ausreißer werden durch Whisker dargestellt, die von den Boxen ausgehen.

Box and whisker plot example

Wann zu verwenden?

Box- und Whisker-Diagramme stellen sich der Herausforderung, große Datenmengen darzustellen. Sie werden normalerweise verwendet, um Datenausreißer zu erkennen und zu verstehen. Bei einer normalen Datenmenge ist es nicht so schwierig, Ausreißer zu erkennen, die in der Regel zwischen einem und fünf Prozent des gesamten Datensatzes ausmachen. Wenn man jedoch mit Milliarden von Datenzeilen arbeitet, hat man es auch mit Millionen von Ausreißern zu tun. In diesem Fall sind Whisker-Plots das Diagramm der Wahl.

Technik 5. Wortwolken und Netzwerkdiagramme

Wortwolken sind Visualisierungen, bei denen die Größe der Wörter deren Verwendungshäufigkeit darstellt - je größer die Größe, desto häufiger wird das Wort verwendet. Einige Visualisierungstools können Wörter in Themen ordnen, die angeklickt und weiter erforscht werden können.

Word cloud example

Box- und Whisker-Diagramme stellen sich der Herausforderung, große Datenmengen darzustellen. Sie werden normalerweise verwendet, um Datenausreißer zu erkennen und zu verstehen. Bei einer normalen Datengröße ist es nicht so schwierig, Ausreißer zu erkennen, die in der Regel ein bis fünf Prozent des gesamten Datensatzes ausmachen. Wenn man es jedoch mit Milliarden von Datenzeilen zu tun hat, hat man es auch mit Millionen von Ausreißerdatenpunkten zu tun. In diesem Fall sind Whisker-Plots das Diagramm der Wahl.

Word cloud example

Wann zu verwenden?

Diese beiden Techniken sind erfolgreich im Umgang mit unstrukturierten Daten. Wortwolken eignen sich hervorragend, um die Stimmung hinter jeder Art von Inhalt zu erfassen, von Kommentaren auf Twitter bis hin zur allgemeinen Einstellung zu Ihrer Marke im Internet.

Netzdiagramme eignen sich hervorragend für die Verfolgung jeglicher Art von Beziehungen zwischen Datensätzen, z. B. Verkäufe in verschiedenen Bereichen, Interaktionen von Kunden mit der Marke in sozialen Medien usw.

Technik 6. Korrelationsmatrix

Eine Korrelationsmatrix ist eine Tabelle, die durch die Kombination von Big Data und schnellen Reaktionszeiten Beziehungen zwischen Variablen aufzeigt. Jede Zelle stellt die Beziehung zwischen zwei Variablen dar. Dunklere Farben weisen auf eine stärkere Korrelation hin, während hellere Farben schwächere Korrelationen kennzeichnen. In vielen Visualisierungstools ist es möglich, auf ein beliebiges Feld in der Matrix zu klicken oder mit dem Mauszeiger darüber zu fahren, um weitere Details anzuzeigen.

Correlation matrix example

Wann zu verwenden?

Wenn Sie den Überblick über die Daten behalten wollen, die Sie zu verschiedenen Zeiten erhalten, und beobachten wollen, wie verschiedene Variablen miteinander korrelieren.

Technik 7. Entscheidungsbaum

Entscheidungs- oder Klassifikationsbäume bestehen aus Verzweigungen, wobei eine Verzweigung eine Gruppe von stark verwandten Eingabe- und Zielwerten ist. Stark verwandt" bedeutet, dass ein bekannter Eingabewert die Fähigkeit zur Vorhersage des Zielwerts verbessert.

Entscheidungsbäume zeigen, welche Variablen am einflussreichsten sind und welche Faktoren sie dazu machen. Der nächste Zweig ist der zweitwichtigste Faktor, und so weiter. Auf diese Weise werden die Daten nach den Verzweigungspunkten segmentiert, was die Datenanalyse erheblich verfeinert.

Decision tree example

Wann zu verwenden?

Wenn Sie analysieren müssen, wie ein Phänomen hinter einem großen Datensatz von mehreren Faktoren beeinflusst wird, und die möglichen Ergebnisse des Phänomens verstehen müssen. Zum Beispiel, wenn Sie mehrere Strategien haben und diejenige mit dem günstigsten Ergebnis auswählen müssen.

Entscheidungsbäume werden häufig als Grundlage für Klassifizierungsalgorithmen im Data Mining und beim maschinellen Lernen verwendet.

Bereits unterwegs zur Visualisierung?

Sagen Sie nichts mehr! Die Visualisierung Ihrer Daten ist sowohl spannend als auch anspruchsvoll. Kaum etwas ist so befriedigend wie die Umwandlung von Millionen von Datenzeilen in schöne und aussagekräftige Diagramme. Außerdem können Visualisierungen von fast jedem interpretiert werden - ein Abschluss in Datenwissenschaft ist hier kein Muss.

Bei so vielen Visualisierungstechniken kann es jedoch leicht passieren, dass man sich für eine entscheidet, die am Ende nutzlos ist. Bevor Sie sich also für eine Technik entscheiden, sollten Sie Ihre Datentypen untersuchen und die Ziele ermitteln, für die die Daten am besten geeignet sind. Der beste Anwendungsfall für eine Visualisierung ist die Darstellung Ihrer Datenanalysen in einer effizienten und leicht verdaulichen Weise, die in kürzester Zeit zu erfolgreichen Entscheidungen führt.

Wenn es um Big Data geht, können Sie diese mit einfachen Methoden wie Balkendiagrammen oder Streudiagrammen visualisieren, aber seien Sie auch bereit für ganz neue Herausforderungen, die Sie höchstwahrscheinlich dazu zwingen werden, neue Technologien anzupassen.