Gastbeitrag "Big Data ist tot"

Es lebe "Just Data". Kein Unternehmen möchte den Hype um Big Data verpassen. Doch versperrt diese Sichtweise oft den Blick für das Wesentliche. Sagt Alexander Thamm, Gründer und CEO der Alexander Thamm GmbH in einem Gastbeitrag.

Alexander Thamm

 

Nicht nur die Innovationszyklen werden immer kürzer. Auch die damit verknüpften Hypes um bestimmte Begriffe lösen sich immer schneller ab. Das gilt insbesondere im Umfeld neuer Technologien und digitaler Geschäftsmodelle. Schon im Jahr 2015 entfernte das IT-Beratungs- und Marktforschungsinstitut Gartner den Begriff "Big Data" aus seinem vielbeachteten Hype-Cycle.

Gerade in dem Moment, in dem das Schlagwort "Big Data" im Bewusstsein vieler Entscheider und in den Vorstandsetagen angekommen ist, muss heute eindeutig festgestellt werden: Big Data ist "tot". Ebenso wie Gartner stellen wir von der Alexander Thamm GmbH fest, dass es bei Data-Science-Projekten im Wesentlichen um etwas Anderes geht: Für uns sind Big Data, Small Data, Little Data, Fast Data oder Smart Data einfach nur Daten, also "Just Data". Die erfolgskritischen Faktoren für die Nutzung von Daten sind unabhängig von deren Menge, Struktur und Geschwindigkeit – es geht darum, aus Daten echten Mehrwert zu schaffen!

Erfolgreiche Data-Science-Projekte ganz ohne Big Data

Dass Data-Science-Projekte ganz ohne Big Data erfolgreich sein können, erfahren wir in unserer täglichen Praxis. Als ein Premium-Autohersteller mit der Aufgabe an uns trat, die Wiederkaufsquote im Leasingbereich zu steigern, standen wir vor der Herausforderung, den Zeitpunkt des Wiederkaufs vorherzusagen. Das Problem, vor dem die Autohändler bislang standen, war, dass die Kundenansprache oft zum falschen Zeitpunkt erfolgte.

Um die Genauigkeit bei der Prognose zu steigern, haben wir nicht einfach die Datenmenge erhöht. Bei der Analyse fiel uns vielmehr auf, dass die Datenbasis selbst für die Ungenauigkeit der Vorhersagen verantwortlich war. Unser Modell, das auf Diagnose- und Fahrzeugdaten basierte, führte nicht nur dazu, dass der Hersteller 25 Prozent der nicht plausiblen Eingaben korrigieren und diese Kunden zum richtigen Zeitpunkt ansprechen konnte. Im gleichen Zuge konnten auch unzuverlässige Händler identifiziert und deren Prozesse anhand von Best-Practice-Methoden der Top-Händler nachhaltig verbessert werden. Dieser Fall zeigt, dass die Prognosegüte nicht von der Menge der Daten abhängig ist. Just Data bedeutet, dass vor allem die richtigen Daten in die Analyse einbezogen werden müssen.

Just Data Mindset ermöglicht den Fokus auf die relevanten Daten

In einem anderen Fall ging es bei einem Kunden aus dem Energiesektor darum, die Prognosegüte des bisherigen Vorhersagemodells zu verbessern. Energieproduzenten müssen sehr genau wissen, wie hoch die Stromlast ist, um die Stromeinspeisung so exakt wie möglich am Bedarf auszurichten. Sowohl zu geringe wie zu große Stromlieferungen ziehen Strafzahlungen für den Stromlieferanten nach sich. Darum gilt es, diese Strafen so gering wie möglich zu halten.

Unsere Lösung basierte auf einem Deep-Learning-Algorithmus zur Verbesserung des Prognosemodells. In das bisherige Modell floss an Wetterdaten nur die Temperatur ein. Wir erweiterten die Wetterdaten um zusätzliche Parameter wie beispielswiese Luftfeuchtigkeit, Luftdruck und Sonnenstrahlenintensität. Dadurch konnten wir erhebliche Verbesserungen bei der Prognose erreichen und einen hohen Automatisierungsgrad schaffen. Hätten wir stattdessen die Datensätze zur Stromlast erweitert und im Minutentakt erfasste Daten der letzten 30 Jahre zu genaueren Prognosen genutzt, hätte das Modell sehr lange zum Berechnen benötigt und die Qualität der Prognose wäre nur geringfügig verbessert worden.

In der folgenden Grafik sieht man beispielhaft, wie die Genauigkeit eines Modells mit der Zunahme an Daten ab einem bestimmten Punkt nur noch minimal zunimmt. Um allerdings diese größeren Datenmengen zu verarbeiten, fallen unverhältnismäßig hohe Kosten für entsprechende Rechenkapazitäten an. In vielen Fällen lohnt es sich daher nicht, die Genauigkeit eines Modells durch Erweiterung der bisherigen Datensätze zu erhöhen. Die Genauigkeit eines Modells kann ab einem bestimmten Punkt durch die Erhöhung der Daten nur noch minimal gesteigert werden.

 

Ursprung und Sinnhaftigkeit des Begriffs "Big Data"

Der Begriff "Big Data" kam in einer Zeit auf, in der es immer schwieriger wurde, die exponentiell wachsende Datenmenge mit der damals verfügbaren Hardware zu verarbeiten. Dabei umfasste das Phänomen Big Data von Beginn an mehr als die reine Datenmenge. Vielmehr wurde damit ein ganzes Ökosystem bezeichnet. Darum bürgerte sich die Rede von den "Vs" von Big Data ein. Im Lauf der Zeit wurde das Konzept immer stärker verfeinert. Zunächst wurde das Big-Data-Ökosystem mit 3 Vs beschrieben: Volume, Variety und Velocity – also Datenvolumen, Datenvielfalt und Datengeschwindigkeit. Sehr bald wurde dieses Konzept immer wieder erweitert, so dass es bald 4 Vs, dann 5 Vs, dann 7 Vs und 9 Vs und schließlich 10 Vs waren. 

An dieser Stelle muss die Frage gestellt werden, ob der Begriff "Big Data" tatsächlich noch sinnvoll ist, oder ob das Konzept nicht längst vollständig verwässert und unscharf geworden ist. Auch die Varianten Small Data, Little Data oder Smart Data stellen nur Rettungsversuche für ein Konzept dar, das heute eigentlich nicht mehr benötigt wird. Es ist an der Zeit, den Begriff "Big Data" und seine Varianten grundsätzlich zu überdenken und aufgrund der uneinheitlichen, unübersichtlich und unnötig gewordenen Definitionen über Bord zu werfen. Daher stellt sich die entscheidende Frage, was eigentlich der wesentliche Kern von Big Data ist beziehungsweise war und was davon wirklich relevant ist.

Was macht eigentlich Big Data im Kern aus?

Wie bereits erwähnt ging es bei Big Data nie wirklich um die größtmögliche Datenmenge. Vielmehr ging es darum, die für den jeweiligen Anwendungsfall relevanten Daten auszuwählen, zu bereinigen und mit entsprechenden Methoden auszuwerten. Zwar kommt es regelmäßig vor, dass die Datenmengen groß sind. Das ist jedoch nicht automatisch das entscheidende Merkmal von erfolgreichen Data-Science-Projekten. In vielen Fällen verfügen Unternehmen vor allem deswegen über so große Datenmengen, weil sie um jeden Preis Daten sammeln. Ihre Hoffnung dabei ist, sich ähnlich wie die Top-Player Google, Amazon, Facebook & Co. oder auch die NSA aus scheinbar unzusammenhängenden Datenmassen strategische Vorteile zu verschaffen. Das Resultat sind gigantische Data Lakes, in denen die Unternehmen alle möglichen strukturierten und unstrukturierten Daten sammeln.

Die Konzentration auf die Datenmenge verstellt jedoch vielfach den Blick auf den einfachen Wesenskern von Big-Data-Projekten: Den analytischen Umgang mit Daten – und zwar "Just Data". Wer sich dieser, auf ihr Wesentliches reduzierten Aufgabe widmet, wird sehr schnell merken, dass die erfolgskritischen Faktoren für solche Projekte nicht ausschließlich technologischer Natur sind. Um Daten in wertvolle Informationen zu verwandeln, benötigten Unternehmen auch ein entsprechendes "Mindset", das die gesamte Unternehmenskultur betrifft.

Unabhängig von der Menge, Struktur und Geschwindigkeit

Unabhängig von ihrer Menge, ihrer Struktur und ihrer Geschwindigkeit sind also alle Daten einfach "nur" Daten oder "Just Data". Viel wichtiger als die Eigenarten der Daten selbst ist es, den Business-Case richtig zu definieren, Analyseprojekte in das Umfeld einer Organisation einzubetten und die passende analytische Methode auszuwählen. Daher haben wir für die Durchführung von Data Science Projekten den Datenkompass entwickelt

Ob Daten-Projekte zum Erfolg werden, hängt vielfach von Faktoren ab, die nicht technischer Natur sind. Unternehmen müssen über eine bestimmte Lernkultur verfügen, um mittels der offenen und inklusiven (Lern-)Prozesse bestimmte Zusammenhänge besser zu verstehen. Und so paradox es klingt: Big Data ist zwar tot, aber genau das stellt eine große Chance für Data-Science-Projekte dar. Wenn wir weg von der Konzentration auf das Schlagwort "Big Data" kommen, dringen wir zu der wirklich entscheidenden Frage vor. Sie lautet: Wie können Unternehmen und Organisationen aus Daten Mehrwerte schaffen?

Die Alexander Thamm GmbH ist eine auf Predictive Analytics spezialisierte Data Science Beratung aus München. 

Möchten Sie einen Gastbeitrag bei CONSULTING.de veröffentlichen und uns ein Thema vorschlagen? Schreiben Sie uns unter redaktion(at)consulting.de

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf CONSULTING.de