Big Data richtig nutzen

2015-04-14by Amit Ghosh

Von Big Data profitieren

Das Thema "Big Data" wurde in der Vergangenheit stark von den Marketingabteilungen großer und kleiner Unternehmen instrumentalisiert. Dabei zu sein, heißt jedoch nicht automatisch, auch zu profitieren. Viele Unternehmen haben Hard- und Software angeschafft und sammeln Daten. All dies verursacht zunächst einmal nur Kosten. Ein Gewinn steht dem nur gegenüber, wenn die richtigen Fragen gestellt werden und die Infrastruktur genutzt wird, um diese zu beantworten, und die gewonnene Erkenntnis dann auch umgesetzt wird.

Langsam verfliegt der Hype um Big Data, der auf Fachveranstaltungen ohnehin schon länger belächelt wird. Obwohl Big Data viele neue Möglichkeiten bietet, definiert es Datenanalyse nicht neu, sondern erweitert den bestehenden Werkzeugkasten. Und zwar in Bezug auf Hardware (Storage, Cloud), Software (z.B. Hadoop, Spark, In-Memory-Datenbanken) und Methoden (neue Impulse im Bereich Deep Learning). Wer echter Profiteur von Big Data sein will, setzt sich sachlich mit dem Thema auseinander und wägt im Einzelfall ab, inwiefern diese neuen Möglichkeiten besser zur Erreichung der gesetzten Ziele geeignet sind als das Inventar des konventionellen Werkzeugkastens. Versuchen Sie dabei folgendes zu beherzigen:

Definieren Sie zu Beginn ein klares Ziel. Welche Fragestellungen sollen beantwortet werden? Wo liegt der Mehrwert für Ihr Unternehmen? Wie können die Erkenntnisse aus dem Projekt genutzt werden, um Geschäftsprozesse messbar zu optimieren? Dies funktioniert angesichts stets knapper Ressourcen deutlich besser als der Data Mining-Ansatz, bei dem der Data Scientist in den Daten stöbert und nach interessanten Erkenntnissen sucht.
Sind die Daten geeignet zur Erreichung des Ziels? Diese Frage ist keinesfalls rhetorisch, denn gerade bei Daten geht Qualität vor Quantität. Viele Unternehmen sammeln die Daten, die ihnen zufallen, anstelle der Daten, die sie benötigen. Dabei kann es günstiger sein, zur Beantwortung einer Fragestellung gezielt neue, geeignete Daten zu erheben als vorhandene Daten zu verwenden. Diskutieren Sie diese Frage offen zu Beginn des Projekts und ziehen Sie alle Optionen (z.B. auch klassische Marktforschung) in Erwägung.
Das SISO-Prinzip ("Shit in - shit out") ist hinreichend bekannt. Und es gilt auch - oder vielmehr gerade - bei Big Data: Schlechte Datenqualität ist der größte Feind jeder sinnvollen Analyse. Und durch die Menge an Daten (sowohl Zeilen als auch Spalten), wird es bei Big Data aufwändiger, einige Typen von Fehlern zu entdecken, weil diese sich in hochdimensionalen Daten verstecken. Fehlerhafte Daten sind wertlos und viele Fehler werden bereits durch den datengenerierenden Prozess verursacht und lassen sich nachträglich kaum noch korrigieren. In der Praxis ist das beste Rezept für hohe Datenqualität ganz einfach: Speichern Sie nur das, was Sie brauchen und arbeiten Sie aktiv mit den Daten.
Cluster, Server und Storage sind eine notwendige, aber leider keine hinreichende Bedingung für erfolgreiche Big Data-Projekte. Der Erfolg eines Big Data-Projekts hängt von einer Kette von Faktoren ab:
1. geeignete Daten („die richtigen Metriken“)
2. geeignete Methoden
3. Datenqualität
4. Hardware
5. Software
6. Personal
7. Umsetzung durch das Management/Team ("make it actionable")
Die Kette funktioniert immer nur so gut wie ihr schwächstes Glied. Während es als "hip" gilt, sich mit Hardware, Software und Personal auseinanderzusetzen, wird den mindestens genauso wichtigen Punkten am Anfang und am Ende der Kette oft zu wenig Aufmerksamkeit geschenkt.
Bleiben Sie kritisch und stellen Sie Hardware- und Softwareanbietern sowie Dienstleistern aus dem Big Data-Umfeld dieselben kritischen Fragen, die sie auch anderen Partnern stellen. Hinterfragen Sie Referenzen und Erfolgsgeschichten. Bei Klassifikationsproblemen (z.B. dem Target-Beispiel mit den schwangeren Frauen) sagt eine Klassifikationsmatrix, aus der man genau ablesen kann, wieviel Prozent der Fälle wie eingestuft werden, mehr aus als die Story eines glorreichen Einzelfalls.
Mehr Daten bedeuten fast zwangsläufig höhere Kosten und einen gewissen Verlust an Interaktivität durch längere Laufzeiten. Stichproben sind – wenn sie richtig gezogen wurden – eine echte Alternative. Machen Sie sich stets Gedanken über die notwendige Genauigkeit der Ergebnisse und entscheiden dann über die optimale Fallzahl unter Berücksichtigung der Kosten-Nutzen-Relation. Mehr Genauigkeit ist dabei (abgesehen von den Kosten) keinesfalls immer besser: Es besteht kein betriebswirschaftlicher Mehrwert darin zu wissen, dass Kunden einer Kohorte eine durchschnittliche Verweildauer (Time-on-site) von 23,34581338 Sekunden auf einer Produktdetailseite haben. Im Gegenteil - die Genauigkeit verleitet dazu zu vergessen, wie heterogen die Kunden und wie volatil der Rahmen ist, in dem diese Aussage getroffen wurde.
Softwareanbieter zeichnen gerne das Bild der intelligenten Software, die die Analysen quasi automatisch durchführt. Dies ist übertrieben. In gigantischen Datensätzen finden sich immer wieder Korrelationen zwischen Variablen, die rein zufällig auftreten, ohne dass eine kausale Ursache vorliegen würde (Tyler Vigen hat auf seiner Webseite zahlreiche z.T. sehr amüsante Beispiele gesammelt). Eine Software ist ohne weiteres – anders als der Experte – nicht in der Lage, zwischen Korrelation und Kausalität zu unterscheiden. Die Software, die den Data Scientist ersetzt, ist noch nicht erfunden. Beziehen Sie daher Experten ein, um nicht Korrelationen und Kausalität zu verwechseln und Geschäftsentscheidungen aufgrund von Zusammenhängen zu treffen, die rein zufällig in großen Datenbeständen entstehen.
Speichern Sie nicht alles, was Sie speichern können, sondern nur das, was Sie wirklich benötigen. Zeit und die Aufnahmefähigkeit des Gehirns sind begrenzt. Ein guter Manager zeichnet sich auch dadurch aus, seine Aufmerksamkeit auf die relevantesten Themen zu fokussieren. Wir alle kennen den Messie, der sein Leben lang alles aufhebt, weil er es später einmal brauchen könnte. Tritt der besagte Fall dann ein, erinnert er sich entweder überhaupt nicht mehr daran oder er scheitert am Auffinden des gesuchten Objekts. Das gleiche Schicksal ereilt vielen Unternehmen, die Terabytes an Daten speichern und über Jahre archivieren, weil vielleicht einmal ein winziger Teil davon relevant sein könnte. Dabei ist ein wesentlicher Teil von Big Data „Velocity“, die Geschwindigkeit, mit der neue Daten generiert werden. Was in Bezug auf die Speicherung der Daten ein Fluch sein kann, entpuppt sich an anderer Stelle als Vorteil. Neue Daten laufen so schnell auf, dass die benötigten Fallzahlen für viele Analysen so schnell erreicht sind, dass es sich nicht lohnt, Daten lange zu speichern. Auch das Argument, Vergleiche über die Zeit anstellen zu können, gilt oft nur bedingt: Z.B. im Webtracking macht jede fundamentale Änderung an der Webseite die Vergleichbarkeit mit alten Daten ohnehin zunichte. Konzentrieren Sie sich bei der Auswahl der Daten auf das Wesentliche und widmen Sie Ihre Zeit lieber der Sicherung der Datenqualität und der Datenanalyse!

Fazit

Im Unternehmen gilt immer noch: Es geht nicht um den größten Datensatz, sondern um die geeigneten Daten. Die Qualität der Daten ist wichtiger als die Anzahl an Zeilen. Big Data ermöglicht vieles, was vor einigen Jahren nicht möglich war: Im Bereich Customer Journey/Attribution begegnet man hochdimensionalen Datenstrukturen. Um die Komplexität des Problems einzufangen, werden große Datenmengen benötigt, um auch bei der Modellierung der großen Anzahl möglicher Kombinationen Herr zu werden. Mit kleinen Stichproben kommt man hier nicht zum Ziel. Deswegen jedoch alle Probleme mit Big Data lösen zu wollen, ist ungefähr so sinnvoll wie Briefe mit dem LKW in einer Großstadt zum Empfänger bringen zu wollen. Der Postbote auf seinem Fahrrad kann dies nicht nur günstiger, sondern auch flexibler und schneller.

Die Zeiten, in denen viele Analysen ewig dauerten oder man gar komplett an der Datenmenge gescheitert ist, sind dank Big Data vorbei. Auch bei Big Data-Projekten sollte in Unternehmen immer die Kosten-Nutzen-Relation gesehen werden. Mit dem Abklingen des Hypes um Big Data kommt nun die Zeit, in der Big Data – gezielt dort eingesetzt, wo es etwas bringt – beweisen kann, welchen Mehrwert es bietet. Berücksichtigen Sie dabei, dass Big Data auch mit der richtigen Hard- und Software kein Selbstläufer ist. Es geht darüber hinaus immer auch um die Aufmerksamkeit des Managements und um personelle Ressourcen. In vielen Unternehmen schlummern riesige Datenmengen im Data Warehouse. Um diese endlich nutzbar zu machen und von Big Data zu profitieren, bedarf es der richtigen Fragen und des notwendigen Fachwissens. Damit am Ende nicht nur ein erleuchtender Aha-Moment steht, darf schließlich auch die Umsetzung nicht zu kurz kommen.

Weitere Teile der Artikelreihe:

Blog

2015-04-14by Amit Ghosh

Big Data - nur Gewinner?

Blog

2015-04-14by Amit Ghosh