Ganz wichtiger Satz, mit dem man angeben kann: Garbage in, Garbage out, kurz GIGO. Zu Deutsch: Wo ich Müll reinstecke, kann nur Müll rauskommen.
Kein Data Scientist, kein KI-Experte, der diese Daten-Weisheit nicht parat hat. Hört sich wichtig an, ist für jeden soweit nachvollziebar.
Bleibt die Frage: Stimmt sie auch? Ja, so in etwa schon.
Es ist kein Geheimnis, dass KI-Methoden massiv abhängig sind von Daten. Und zwar nicht nur von der Quantität, sondern ganz entscheidend auch von der Qualität der Daten.
Da geht es zum einem um die Vollständigkeit eines Datensatzes. Sind alle Felder befüllt, steht in den Feldern das drin, was erwartet und gebraucht wird?
Zum anderem - und das ist wichtiger: Sind die Daten aussagekräftig? Taugen sie für die angedachten Zwecke? Sind sie ausgewogen? Neutral? Stichwort Bias, also Verzerrung: Wird mit tendenziösen Daten ein Modell berechnet, wird auch das Modell tendenziös sein. Die Seite Statista hat dafür ein schönes Beispiel: Wer versucht, in der Innenstadt von München durch eine Umfrage bei Passanten den beliebtesten Fußballverein Deutschlands herauszufinden, kann sich sicher sein, ein verzerrtes Ergebnis zu bekommen.
Das Fußballbeispiel ist harmlos. Geht es aber um medizinische Daten, ist das nicht mehr lustig. Beispiele für Modelle, die mit verzerrten Daten berechnet wurden, und dementsprechend verzerrte und vor allem falsche Ergebnisse liefern, gibt mittlerweile leider einige. Aus dem Bereich Medizin, Human Resources, Bankwesen und einige mehr.
Richtig kritisch kann es werden, wenn ein Modell mit von Usern generierten Daten berechnet wird - ohne, dass vorab eine Kuratierung stattfindet. Die Erfahrung musste Microsoft 2016 mit ihrem auf KI-basierten Twitter-Chatbot Tay machen. Tay lernte aus den Inputs von Usern. Trolle waren schnell am Start und führten durch gezielte Fragen und Aufforderungen, dass Tay nach kurzer Zeit anzüglliche und beleidigende Tweets verfasste. Nach nur 16 Stunden schaltete Microsoft Tay ab.
GIGO ist also tatsächlich ein Thema. Aber keine Weisheit, die Data Scientists erfunden haben. Der Satz ist älter als die KI-Szene. Er kommt aus der allgemeinen Informatik und beschreibt übergreifend das Problem mit der Qualität von Ergebnissen, wenn der Input ungültig oder nicht aussagekräftig ist. George Fuechsel, ein ehemaliger IBM-Programmierer und Ausbilder, soll Ende der 1960er der Urheber von Garbage in, Garbage out sein. Belegt ist das aber nicht.
GIGO steht auch für die Tatsache, dass Rechner von sich aus nicht zwischen guten und schlechten Daten unterscheiden können. Oder anders gesagt: Auch hier wird es ohne den Menschen bis auf Weiteres nicht gehen.
Foto: Christoph van der Bij/Freeimages