Wie viele Daten benötigt ein Unternehmen tatsächlich?

2013-09-23by Martin Badicke

Big-Data oder Small-Data

Daten haben in nahezu jedes Unternehmen Einzug gehalten. Sie sind das Schmiermittel im Getriebe der Wirtschaft und ermöglichen objektivere Entscheidungen. Jeder von uns trägt zu einer Erweiterung der Datenberge bei: mit jedem Klick beim Surfen im Internet, mit jeder Nutzung einer Suchmaschine oder mit jeder Bestellung im Online-Shop. Alles wird gespeichert und unter dem diffusen Begriff "Big Data" zusammengefasst. Der Begriff ist dabei so vage, dass eine ganze Reihe von Definitionen existiert. Wir betrachten an dieser Stelle "Big Data" als einen Sammelbegriff für Datenmengen, die mit herkömmlichen Computern und Software nicht verarbeitet werden können. Die Menge der Daten ist wesentlich, aber nicht das einzige Kriterium für die Einordnung.

Welche Daten verbergen sich hinter Big Data?

Mittlerweile sind die Daten der Internet-Wirtschaft vielschichtiger geworden. Neben Informationen zum Benutzer-Verhalten auf der Webseite spielen zusätzliche Informationen eine Rolle:

qualitative Informationen (Meinungen, Urteile oder Gerüchte, etc.), soziodemografische Informationen (Alter, Geschlecht, Ort, etc.), Offline-Daten (vgl. Tabelle). Die Anbieter von Internetseiten versuchen auf Basis dieser Daten, ihren Besuchern maßgeschneiderte Inhalte zu präsentieren und so Verkäufe und Umsätze zu steigern. Das betrifft sowohl das Angebot der Webseite selbst als auch ggf. eingeblendete Werbung oder Empfehlungen.

Welche Daten werden gesammelt?

Finanztransaktionen
Einkäufe (online & offline - z.B. über Punktekarten)
Log-Daten (aus Browsern oder App)
Verbindungsdaten (Telefon, SMS)
Standortdaten (Smartphone, Digitalkamera)
Verkehrsdaten (Navigationsgerät, Straßensensoren)
Sensordaten im Handel (Barcodes, etc.)
Social-Media-Daten (z.B. Blog, Facebook, Twitter)
Video und Ton-Daten

Die Kehrseite eines mittels Big Data gesteuerten individuellen Inhalts liegt in einer speziellen Form der Diskriminierung. Das Individuum "Besucher" rückt in den Hintergrund. Stattdessen steht die Gruppe im Vordergrund, die auf Basis von statistischen Merkmalen gebildet wird. Je nach Definition der Gruppenzugehörigkeit können Individuen bestimmte Angebote vorenthalten werden oder es kann zu einer preislichen Diskriminierung kommen. Zwar führen Empfehlungen oft zu einer Erhöhung der Zahl der Käufe und einer Steigerung des Umsatzes, gleichzeitig kann aber auch eine zunehmende Konzentration innerhalb des Sortiments die Folge sein. Nutzer können durch den Algorithmus in ein passives und kollektives Konsumverhalten gedrängt werden; die Wahrscheinlichkeit, ungewöhnliche Produkte zufällig zu entdecken, sinkt.

Die V-Kriterien

Die Anwendungen zu Big Data können vereinfacht über die vier "V-Kriterien" charakterisiert werden:

Volume,
Velocity,
Variety und
Value.

Es geht um die Datenmenge, um die Geschwindigkeit, mit der Daten erfasst und verarbeitet werden, um die Vielfältigkeit der Daten bzw. die Heterogenität der Datenquellen und den Wert der Daten aus wirtschaftlicher Sicht.

Volume

Eine von McKinsey 2011 durchgeführte Studie zeigt, dass US-Unternehmen mit 10.000 Beschäftigten durchschnittlich ca. 200 Terabyte an Daten besitzen, Tendenz steigend. Mit dem kontinuierlichen Fall der Preise im Bereich der Datenträger sind auch in Zukunft keine Speicher-Probleme zu erwarten. Die eigentliche Herausforderung an die Big Data-Anwendungen liegen im zweiten V – der Geschwindigkeit (Velocity).

Velocity

Daten werden nicht mehr, wie früher, schubweise ins firmeneigene Datawarehouse gespeichert, sondern kontinuierlich und in heterogene Systeme. Mit jeder Suchanfrage, jedem Benutzen des Handys, werden Datenströme generiert. Auswertungen und Entscheidungen sollten in angemessener Zeit darauf reagieren können, idealerweise in Real-Time.

Variety

Um jedoch Entscheidungen treffen zu können, müssen die Daten verstanden werden. Tiefergehende Analysen erfordern dazu u.a. ein ausgedehntes Datenmanagement. Prinzipiell ist Big Data nämlich unstrukturiert und verstreut. Die Daten müssen erst verknüpft und in eine angemessene Struktur gebracht werden, völlig entgegen der altbekannten Struktur im firmeneigenen Datawarehouse, in dem z.B. Produkte gruppiert nach Produktgruppe etc. abgelegt werden. Ein weiteres Hindernis in diesem Zusammenhang ist die maschinelle Interpretierbarkeit. So müssen z.B. Tweets und Posts vor der Verarbeitung transformiert werden, damit sie von Maschinen sinnvoll ausgewertet werden können. Den Texten wird eine Semantik verliehen, indem z.B. die beschriebenen Produkte kategorisiert werden oder durch eine Sentiment-Analyse in positiv oder negativ eingruppiert werden. Ziel ist hier, Gefühle und Einstellungen erkennbar zu machen.

Value

Das vierte Kriterium beinhaltet den wirtschaftlichen Wert von Big Data. D.h. wie können die Daten zur Steigerung der Profitabilität genutzt werden?

Für kleinere Unternehmen ergibt sich damit vorerst das Problem, den Datenberg zu bewältigen. Einfache Rechner können die Daten nicht mehr in angemessener Zeit verarbeiten. Es werden ganze Rechnerfarmen benötigt. Eine Lösung für dieses Problem stellt Hadoop dar. Hadoop hat sich mittlerer Weile zu dem Standard entwickelt, um große Datenmengen dezentral zu speichern und parallel zu verarbeiten. Es ermöglicht den Nutzern, die Datenmengen auf Gruppen oder Cluster von Rechnern zu verteilen. Schnellere Zugriffszeiten und bessere Skalierbarkeit sind die Folge. Der eigentliche Rechenprozess wird dann über MapReduce gesteuert. Von Google entwickelt, verteilt dieses Programmiermodell Rechenaufgaben in Form von kleineren Portionen auf verschiedene Knoten im Cluster. Rechenaufgaben können damit in Bruchteilen von Sekunden gelöst werden.

Durch Angebote wie Amazon Web Services ist es mittlerweile auch für kleinere Unternehmen wirtschaftlich, Erkenntnisse aus Big Data abzuleiten. Hardware wird als Service bereit gestellt und kann quasi unbegrenzt hinzu gebucht werden. Bezahlt wird nach Zeit im Stundentakt.

Der Wert der persönlichen Daten à la Facebook, Twitter & Co. ist enorm. Laut einer Studie der Boston Consulting Group waren persönliche Daten alleine in der Europäischen Union im Jahr 2011 rund 315 Milliarden Euro wert. Bis 2020 soll dieser Wert sogar auf eine Billion Euro steigen. Dennoch bleibt für Unternehmen die Frage nach Aufwand und Nutzen.

Small-Data, Big-Data oder Smart Data

Zu viele Daten können den Blick auf das Wesentliche trüben bzw. den Aufwand und die Dauer einer Datenanalyse erhöhen. Aufgrund der Menge der Daten und der Komplexität der Zusammenhänge ist eine Analyse von Big Data nur mit technischen Mitteln möglich. Darüber hinaus ist das Prüfen der Datenqualität sehr aufwändig.

Der Wert von Daten liegt, allgemein gesprochen, darin, ob sie geeignet sind, eine spezifische Fragestellung zu beantworten. Ob der Beantwortung der Fragestellung eine große Datenbasis oder eine kleine Datenbasis zugrunde liegt, ist sekundär. Häufig mit Big Data assoziierte Fragestellungen, z.B. zu Themen wie Customer Journey, Klick-Pfaden, Empfehlungen, etc. könnten dabei auch teilweise von deutlich reduzierteren Datensätzen beantwortet werden, im Idealfall mit strukturierten Daten.

Früher wurden Datensätze häufig gezielt für bestimmte Projekte zusammengestellt. Wegen des hohen (Kosten-)Aufwands wurden Metriken und Daten sehr genau ausgewählt und validiert. Im Zeitalter von Big Data wird häufig ungezielt gespeichert, was an Daten anfällt. Eine Validierung der Daten findet dabei häufig nicht statt. In der Konsequenz ist die Datenqualität häufig gering. Fehlerquellen in der Erfassung und Verarbeitung der Daten bleiben unerkannt, solange die Daten nicht auch intensiv genutzt werden. Ob die so gesammelten Daten überhaupt zur Lösung einer Analyse-Aufgabe beitragen können, ist völlig unklar.

Big Data setzt sich häufig aus "Small Data" zusammen. Letzteres sind die einzelnen kleinen Datensätze, die Geräte, Sensoren, Webdienste oder Menschen erzeugen. Doch warum Small Data nicht fragespezifisch verbinden und strukturiert in Form von "Smart Data" abspeichern? Das würde die Daten überschaubarer machen und die Sicherung der Datenqualität erleichtern. Des Weiteren haben strukturierte Daten die Eigenschaft, leichter analysierbar zu sein, was Kosten spart. Nachteil dabei: Ergibt sich später eine neue Fragestellung, die nicht von den existierenden Daten beantwortet werden kann, muss Zeit in das Sammeln neuer Daten investiert werden, was die Reaktionszeit erhöht.

Generell sollte die Entscheidung für Small, Big oder Smart Data individuell getroffen werden und einer Kosten-Nutzen-Betrachtung unterworfen werden.