„Anhand konkreter Beispiele kann man lernen“

Zahlen sind seine Welt: Wolf Riepl ist Diplom-Soziologe und weiß um die Bedeutung fundierter Datenanalysen. Besonders gern deckt er Schein-Zusammenhänge auf. Sein Wissen gibt er als Berater und Statistik-Trainer weiter.

Hallo Dresden: Eins und Eins sind gleich Zwei – das lernen wir in der Schule. Doch Statistiken beweisen uns oft das Gegenteil. Wie kommt das?
Wolf Riepl: Die Statistik setzt nicht gleich das Einmaleins außer Kraft. Was aber durchaus passieren kann ist, dass sich ein einfacher, plausibler Zusammenhang als Scheinzusammenhang erweist. Ein berühmtes Beispiel: Die University of California in Berkeley/USA, wurde verklagt, weil Frauen offenbar geringere Chancen auf einen Studienplatz hatten als Männer. Tatsächlich wurden im Jahr 1973 rund 44 % der Männer zugelassen, aber nur 35 % der Frauen. Der Unterschied war statistisch signifikant, war also kein Zufall, sondern es gab einen systematischen Zusammenhang.

Hallo Dresden: Die Männer wurden also tatsächlich bevorzugt behandelt?
Wolf Riepl: Was auf den ersten Blick wie ein klarer Beleg für Diskriminierung aussah, konnte von der Universität überzeugend widerlegt werden. Sie konnte zeigen, dass Frauen sich häufiger in Departments, also an Fachbereichen, bewarben, bei denen ohnehin nur wenige Studenten, männliche wie weibliche, zugelassen wurden – im Vergleich zu anderen Fachbereichen an der Universität. Als Statistiker sprechen wir davon, dass die Zulassungsraten für beide Geschlechter niedriger waren. Männer hingegen bewarben sich häufiger in Departments, die generell viele Studenten aufnahmen, also für beide Geschlechter höhere Zulassungsraten aufwiesen. Erst dieser detaillierte Blick auf die Zulassungsquoten aufgeschlüsselt nach der Wahl der Departments konnte den Diskriminierungs-Vorwurf entkräften, ja sogar ins Gegenteil verkehren: Bei vier Fachbereichen hatten Männer signifikant bessere Erfolgsquoten als Frauen, bei sechs Fachbereichen jedoch lagen die Erfolgsquoten der Frauen signifikant höher – während bei der Mehrheit der Fachbereiche keine statistisch abgesicherten Unterschiede zwischen den Zulassungsquoten nachzuweisen waren.

Wolf Riepl ist beruflich oft in Projektgruppen engagiert und nutzt sein Expertenwissen, um Statistik-Neulinge zu unterrichten und die Welt der Zahlen für nicht-Statistiker nachvollziehbar darzustellen.

Hallo Dresden: Was also hat die Schule zu lehren vergessen, um uns zu guten Statistikern zu machen? Oder zu solchen, die Statistiken wenigstens verstehen können?
Wolf Riepl: Man muss nicht gleich den Schulunterricht verteufeln. Es gibt ja genügend Statistiken, die klar genug präsentiert werden, um auch ohne spezielle Statistik-Ausbildung gut verstanden zu werden. Um Statistiken besser interpretieren zu können, ist es hilfreich, nicht nur Theorie zu lernen (z. B. Wahrscheinlichkeitsrechnung), sondern auch verstärkt an konkreten Praxisbeispielen zu arbeiten – etwa irreführende Diagramme zu diskutieren. So lassen sich typische „Fallen“ umgehen. Walter Krämers Buch „So lügt man mit Statistik“ liefert dazu anschauliche Beispiele.

Hallo Dresden: Was ist Dein Lieblingsbeispiel für den Erfolg von statistischen Methoden?
Wolf Riepl: Manchmal sind fortgeschrittene Methoden hilfreich, um unplausible oder überraschende Befunde zu erklären. Ein Beispiel aus einer Studie, an der ich mitgearbeitet habe: Es ging um Zusammenhänge zwischen Lebensstilen von Jugendlichen und ihrem Ernährungsverhalten. Eine Hypothese (Vermutung) lautete: Je höher die Sportorientierung der Jugendlichen, desto gesünder die Ernährung. Zunächst zeigte sich genau das Gegenteil: Je höher die Sportorientierung, desto ungesünder war die Ernährung.

Hallo Dresden: Dieses Ergebnis habt ihr euch dann näher angeschaut, weil es so überraschend war?
Wolf Riepl: Genau. Wir vermuteten, in eine statistische „Falle“ getappt zu sein.

Hallo Dresden: Wie konntet ihr dieser „Falle“ entgehen?
Wolf Riepl: Indem wir eine Aufteilung nach Jungen und Mädchen machten. Denn jetzt zeigte sich, dass ein starker Geschlechtseffekt den Effekt der Sportorientierung überlagerte: Jungs ernährten sich deutlich ungesünder als Mädchen, hatten aber eine stärkere Sportorientierung angegeben. Unter Kontrolle des Geschlechts drehte sich der Effekt um: Höhere Sportorientierung ging doch mit gesünderer Ernährung einher. Anders formuliert: Jungs, die mehr Sport trieben, ernährten sich gesünder als Jungs, die wenig oder keinen Sport trieben. Bei Mädchen war es auch so. Insgesamt gab es aber eine höhere Sportorientierung bei Jungs als bei Mädchen und eine ungesündere Ernährung bei Jungs als bei Mädchen.

Hallo Dresden: Um solchen Phänomenen auf den Grund zu kommen, braucht es neben den Wissensgrundlagen zudem verlässliche technische Unterstützung. Du bist Trainer für die Nutzung von Statistik-Programmen. Wer sich herantasten möchte, sollte am besten wie vorgehen?
Wolf Riepl: Ich kann mir vor allem das merken, was ich selbst ausprobiert habe – am besten mit Daten, die mich auch wirklich interessieren. Dann suche ich mir die Methoden heraus, die zu meiner Fragestellung passen. Das funktioniert wesentlich besser, als trockene Theorie zu lernen. Leider war es in meinem Studium umgekehrt: Vier Semester Statistik, bevor wir die erste eigene Studie durchführten. Praxisbezug ist unersetzlich. Anhand konkreter Beispiele kann man sowohl Grundlagen der Statistik als auch die Bedienung von Statistik-Software lernen.

Hallo Dresden: Fast jeder von uns hat ein Tabellenkalkulationsprogramm auf dem Rechner: Reicht das nicht für den Hausgebrauch?
Wolf Riepl: Mit Programmen wie Excel kann man in der Tat viele Analysen durchführen – zumal es eine Reihe von Erweiterungen gibt. Ich nutze Excel kaum dafür, weil man nach meiner Erfahrung in Excel leichter Fehler in Analysen einbauen kann als bei Nutzung von stärker spezialisierter Software. Einfaches Beispiel: Wenn ich Daten in Excel sortiere und nicht alle zusammengehörigen Spalten markiere, kann ich leicht Bezüge zerstören. In „SPSS“ oder „R“ passiert das nicht so schnell, weil diese Programme wissen, dass die Daten eines Befragten – bzw. einer Beobachtung oder einer Analyseeinheit – zusammengehören.

 

Hallo Dresden: Was ist wichtiger: Die Aussage der Zahlen oder deren Visualisierung?
Wolf Riepl: Ich mag den Satz „Zahlen sprechen nicht für sich selbst“ – es bedarf immer der Interpretation. Visualisierungen können dabei immens helfen. Unser Gehirn kann Bilder besser verarbeiten als komplizierte Zahlen-Tabellen. Muster, wie Regelmäßigkeiten und Zusammenhänge, kann man oft in geeigneten Diagrammen viel schneller erkennen als in Tabellen.

Hallo Dresden: Was kommt zuerst: Die Daten oder die Idee, was – oder gar: wie – etwas dargestellt werden soll?
Wolf Riepl: Das kann unterschiedlich sein. Manchmal gibt es klare Vorgaben – etwa bei Fachartikeln, die in Zeitschriften veröffentlicht werden. Manchmal entwickeln sich Ideen für die Darstellung erst allmählich. Es kommt unter anderem darauf an, mit welchen Zielen eine Analyse durchgeführt wird. Im wissenschaftlichen Bereich gibt es oft eine Reihe vorab formulierter Hypothesen, die man testet. Dann ist das Vorgehen meist klar definiert. Andere Studien sind explorativer ausgelegt, das heißt, man weiß vorab wenig über mögliche Zusammenhänge. Die Statistik liefert dann erst Ideen. Zum Beispiel bei Fragen wie: In welche Segmente kann ich meine Kunden einteilen? Bei welchen Merkmalen zeigen sich relevante Unterschiede? Wie viele Gruppen lassen sich sinnvoll unterscheiden? Entsprechend wählt man dann möglichst aussagekräftige Visualisierungen aus.

Hallo Dresden: Deiner Erfahrung nach: Wo lauert bei Statistiken der Wolf im Schafspelz?
Wolf Riepl: Ein wichtiger Punkt ist, die Datenaufbereitung nicht zu unterschätzen, d. h. die Vorbereitung der Daten für statistische Analysen. Eine typische Frage dabei lautet: Was bedeuten Fehlwerte (fehlende Daten) und wie gehe ich damit um? Manchmal bedeutet ein Fehlwert eine Null, manchmal werden aus bestimmten Gründen Antworten verweigert, manchmal müssen unplausible Antworten oder fehlerhafte Daten korrigiert werden. Bei vielen Projekten ist es so, dass die Datenaufbereitung und -bereinigung mehr Zeit beansprucht als die eigentliche Analyse. Das ist manchmal erklärungsbedürftig – aber notwendig, wenn man korrekte, sinnvolle Ergebnisse erhalten möchte.

Hallo Dresden: OK – nehmen wir an, die Datenaufbereitung wurde gründlich durchgeführt. Was kann dann schief gehen?
Wolf Riepl: Eine typische Falle bei schnellen Datenauswertungen besteht darin, Mittelwerte zu vergleichen, ohne auf die Verteilungen zu achten. Ein einfaches Beispiel: Eine kleine Insel mit drei Bewohnern, deren Monatseinkommen 1.000, 1.000 und 98.000 Euro betragen. Das Durchschnittseinkommen beträgt 33.333 Euro – aber was sagt dieser Mittelwert aus? Zwei der drei haben herzlich wenig von dem Wohlstand. Ein alternatives Maß ist der Median, das mittlere Einkommen. Es ist der mittlere Wert der (sortierten) Verteilung – 1.000 Euro. Das heißt, die Hälfte der Bewohner haben nicht mehr als 1.000 Euro monatlich zur Verfügung. Dieser Wert ist von Extremwerten unabhängig, statistisch ausgedrückt: robust gegenüber Ausreißern. Generell ist es sinnvoll, sich nicht auf eine einzelne Kennzahl wie den Mittelwert zu verlassen, sondern sich die Zeit zu nehmen, die Daten genauer anzusehen. Beim Einkommen finde ich den Vergleich zwischen Mittelwert und Median interessanter als eine für sich genommene Kennzahl. Natürlich gibt es viele weitere Fallen, zum Beispiel falsche Methoden-Auswahl, falsche Interpretationen, unstrukturierte Auswertungen – sodass man gar nicht weiß, was einem die Zahlen sagen usw.

Hallo Dresden: Wie kannst Du hier helfen?
Wolf Riepl: Oft hilft es, sich möglichst frühzeitig, am besten schon vor der Datenerhebung, möglichst konkrete Gedanken über die Auswertung zu machen. Ich berate auf Wunsch bei allen Arbeitsschritten, sei es Formulierung von Hypothesen, Erstellung von Fragebögen, Auswahl der Methoden, bis hin zu Analysemethoden und Darstellung der Ergebnisse.

Hallo Dresden: In Zeiten, in den Daten immer schneller verfügbar sein müssen, gehen da auch Statistiker neue Wege? Wie ist das bei Dir? Signifikanz bleibt doch schließlich Signifikanz, oder?
Wolf Riepl: Einerseits sind die Grundlagen der Statistik schon langlebig und vieles von dem, was ich im Studium gelernt habe, gilt noch. Aber es gibt einen sehr spannenden, herausfordernden Trend. Es wird oft von „Data Science“ gesprochen, und das umfasst weit mehr als klassische Statistik. Ich habe einige Methoden schätzen gelernt, die aus dem Bereich maschinelles Lernen, dem Machine Learning, kommen, dazu gehören Entscheidungsbäume (Decision Trees) und Entscheidungsregeln (Rule Learning Algorithms). Während klassische statistische Modelle oft schwer an Laien vermittelbar sind, liefern diese Methoden leicht verständliche Ergebnisse.

Hallo Dresden: …das klingt aber erst einmal nicht so sehr verständlich…
Wolf Riepl: Wahrscheinlich, weil viele englischsprachige – und für unser Denken ungewöhnliche – Begriffe verwendet werden. Doch dank moderner Rechenpower können diese Modelle aus einer Vielzahl von Merkmalen gerade die heraussuchen, die relevante Gruppenunterschiede hervorbringen. Beispiel: Welche Kunden reagieren besonders positiv auf Handy-Sonderangebote? Ein Entscheidungsbaum könnte die Zielgruppe etwa so eingrenzen: Insgesamt finden nur 13 % der Kunden das Angebot attraktiv, in der Teilgruppe der Frauen zwischen 21 und 27 Jahren, die bereits seit mindestens drei Jahren Kunde sind und Vertragstyp XY haben, finden jedoch 73 % das Angebot attraktiv. Mit derartigen Aussagen können Nicht-Statistiker erfahrungsgemäß mehr anfangen als mit Koeffizienten, Konfidenzintervallen oder p-Werten. Und das möchte ich erreichen: Dass Statistik für möglichst viele Menschen verständlicher wird.

 


 

Kontakt:
Wolf Riepl
Social Science Research
Hepkestraße 179
01277 Dresden
Telefon: 0351 26991242
E-Mail: wolf.riepl@statistik-dresden.de
http://statistik-dresden.de

Fotos: Archiv Wolf Riepl
Grafiken: Wolf Riepl

 

Ein Gedanke zu „„Anhand konkreter Beispiele kann man lernen“

Kommentare sind geschlossen.