Interesse?

News-Feed

Machines Of Loving Grace / Big Dada statt Big Data —

Warum viele Big-Data-Analysen Blödsinn sind

Algorithmen sind überall. Jeder hat ständig mit ihnen zu tun, viele fürchten sie, doch die wenigsten verstehen tatsächlich, wie sie funktionieren. In seiner WIRED-Kolumne durchleuchtet Jürgen Geuter die mathematischen Problemlöser, die unsere Welt zu lenken scheinen. Diesmal: Warum Big Data nur ein Hype ist.

Jürgen Geuter ist Informatiker, Blogger und im Netz vor allem unter dem Pseudonym tante bekannt. Für WIRED Germany schreibt er über die Macht der Algorithmen.

 

Auch Technologie durchlebt wie viele andere Bereiche unseres Lebens Moden: Alle paar Jahre kommt ein neues Konzept, ein neuer Ansatz oder eine neue Technologie auf den Markt und übernimmt quasi alle Debatten. Nach einer Überhitzung ist das Buzzword dann verbrannt und taucht nach einer Runde im sprachlichen Abkühlbecken dann ganz gewöhnlich auf. „Quantum computing“ hat die Tour hinter sich genau wie „Künstliche Intelligenz“ und natürlich in den letzten Jahren „die Cloud“. Das aktuelle Buzzword mit dem heute quasi jeder Text gewürzt wird, der sich irgendwie mit Technologie beschäftigt, ist „Big Data“.

 

Big Data ist ein ziemlich spannendes Sprachbild, weil es einerseits griffig ist und eine klare Vorstellung hervorruft — Daten und zwar viele — dabei aber andererseits zielstrebig am Wesentlichen vorbei zielt. Der Schlüssel zum Verständnis von Big Data klingt deshalb auf den ersten Blick etwas widersprüchlich: Denn es geht dabei eigentlich gar nicht um große Datenmengen, sondern um eine Veränderung des Denkansatzes zur Gewinnung von Erkenntnissen.

 

Traditionell funktioniert wissenschaftliche Erkenntnis so: Eine Person sieht etwas in der Welt. Um es zu erklären, überlegt sich die Person eine Theorie und ein Modell, das sie erklären soll. Dieses Modell wird dann durch einen Abgleich mit der Welt überprüft. Isaac Newton wurde beispielsweise durch einen Apfel, der in seinem Garten vom Baum auf den Boden fiel auf den richtigen Pfad zur Entwicklung seiner Theorie der Schwerkraft gebracht. Um den fallenden Apfel zu erklären, entwickelte er ein Modell der Welt, in dem Objekte sich gegenseitig anziehen. Er konnte dieses Modell dann an anderen Fällen überprüfen. Der Rest ist Geschichte.

 

Dabei geht diese Form der Erkenntnis vom Ansatz der Kausalität aus: Newton suchte die Ursache für das Fallen des Apfels. Er suchte explizit eine Kraft, die auf den Apfel einwirkte, um ihn vom Baum auf den Boden zu transportieren. Sein Modell betrachtete deshalb nicht die Farbe des Apfels oder den Geruch des Baumes: Diese Daten waren für sein kausales Modell irrelevant und finden sich deshalb nicht in seiner Gleichungen wieder. Natürlich irren sich Wissenschaftler und Wissenschaftlerinnen manchmal und blenden Faktoren aus, die eigentlich doch einen Einfluss auf den vorliegenden Sachverhalt haben. Die meisten heute akzeptierten Theorien durchliefen meist viele Modelle, die nach fehlgeschlagenen Tests verworfen oder angepasst werden mussten. Aber am Ende fanden sie eine kausale Beziehung zur Erklärung eines Phänomens.

 

Big Data hingegen bricht — zumindest zu Beginn — mit dem Paradigma von Ursache und Wirkung: An seine Stelle tritt die Korrelation. Unter Korrelation versteht man eine Beziehung zwischen mehreren Sachverhalten, die nicht kausal sein muss. Diese Beziehung ist häufig ein gemeinsames Auftreten oder nicht-Auftreten.

 

Nehmen wir die folgende Beziehung: Die Geschwindigkeit meines Autos korreliert mit der Lautstärke der Geräusche, die es verursacht. Wenn ich schneller fahre, mache ich mehr Krach, wenn ich langsamer fahre, wird es leiser. Aber was sagt mir diese Beziehung? Macht die Lautstärke mich schnell? Macht die Geschwindigkeit den Krach? Ohne hier ein Geheimnis zu verraten, kann ich sagen, dass beides falsch ist. Beide Phänomene haben eine Verbindung — den Verbrennungsmotor und seine Leistung — aber haben kausal nichts miteinander zu tun. Korrelation ist also nicht Kausalität.

 „Was soll das ganze Big Data Zeug dann?“

Der Gedanke bei Big-Data-Analysen ist, durch Korrelationen neue Beziehungen zu finden, die man danach auf kausale Zusammenhänge untersucht. Weil Wissenschaftler ihre Modelle häufig stark vereinfachen müssen, um sie überhaupt überprüfbar zu machen, können möglicherweise schwächere Einflüsse übersehen werden. Auch sind bestimmte Verbindungen schwer sichtbar und werden nur durch Zufall entdeckt: Hätte Alexander Fleming bei seinen Untersuchungen von Bakterien nicht zufällig einen Schimmelpilz in einer Petrischale gehabt, hätten er möglicherweise niemals Penicillin erfunden. Diese Zufallsfunde möchte Big Data wahrscheinlicher machen.

 

Und hier kommen wir dann zum Big: Weil man keine Einschränkungen bei der Kausalität machen möchte, erhebt man so viele Daten wie möglich, die potentiell mit einem Vorkommnis verbunden sein könnten. So entstehen teils riesige Datenmengen, die dann von Algorithmen mit statistischen Verfahren auf der Suche nach der Nadel im Heuhaufen durchsucht werden.

 

Das Problem entsteht dann, wenn der Schritt nach dem Finden von Korrelationen ausgelassen wird. Genau das passiert insbesondere dann gerne, wenn die untersuchten Phänomene nicht mechanisch oder naturwissenschaftliche, sondern sozial sind. Es gibt etwa Big-Data-Analysen, nach denen angeblich Menschen irgendeiner Haarfarbe gesünder oder große Menschen erfolgreicher sind. Doch hier werden lediglich aus irgendwelchen Datenmengen Korrelationen ermittelt und ohne weitere Reflexion als Ergebnis präsentiert. Und das kann durchaus gravierende Konsequenzen haben.

 

Wenn wir als Gesellschaft solche halbgaren Analysen — ich nenne sie gerne „Big Dada“ — über unsere Medien unkritisch als objektive und gesicherte Erkenntnisse aufnehmen, ist das problematisch. Plötzlich beeinflussen diese Beziehungen, die keinerlei ursächliche Verbindung haben, Gesetzgebung und Exekutive. Die Diskriminierung von Bevölkerungsgruppen könnte dadurch legitimiert werden.

„Ein Werkzeug zur Ermittlung neuer Forschungsfragen könnte so zum Mittel gesellschaftlicher Unterdrückung werden.“
Jürgen Geuter

Wenn etwa aus Datensätzen eine Korrelation von Straftaten und Migrationshintergrund ermittelt wird, müsste danach die Frage gestellt werden, welche weiteren Faktoren hier einflussgebend sind. Zum Beispiel mangelnde berufliche Perspektiven durch fehlende Schulabschlüsse und die Diskriminierung von Menschen mit fremd klingenden Nachnamen als tatsächliche Ursache liegen hier auf der Hand. Ein grundsätzlich nützliches und hilfreiches Werkzeug zur Ermittlung neuer Forschungsfragen könnte so zum Mittel gesellschaftlicher Unterdrückung und Ausgrenzung werden.

 

Das ist bedenklich und ärgerlich. Vor allem da Big-Data-Analysen im Moment an vielen Stellen zum Allheilmittel sozialer und technischer Probleme erklärt werden. Das kann eine Methode, die eigentlich nur zeigen kann, auf welche Beziehungen man mal mit Verstand blicken sollte, nicht leisten. Sie wird aber viel zu oft genau so eingesetzt. Weil die Werkzeuge dafür existieren und es vergleichbar einfach ist, alles zu speichern, anstatt sich Gedanken zu machen, was man wirklich im akuten Fall betrachten möchte. Big-Data-Analysen können als Katalysator und Ausgangspunkt viele spannende und wertvolle Forschungsfragen auf den Weg bringen. Aber nur, wenn nach dem ermitteln der Korrelationen noch weiter gedacht wird.

 

Wir sollten Big Data also mit einer gewissen Skepsis begegnen, einem kritischen Blick. Hoffen, dass der Hype-Zyklus bald durchgespielt ist und wir dieses wirklich nützliche Werkzeug einsetzen können, um die auf uns zukommenden gesellschaftlichen Probleme mit Hilfe von Datenanalysen anzugehen. Hoffentlich sind wir übereilte Big-Data-Analysen spätestens dann los, wenn das nächste Buzzword kommt.

 

Zuerst erschienen auf wired.de