Falsche Korrelation
Was ist eine falsche Korrelation?
In der Statistik bezieht sich eine Scheinkorrelation oder Falschheit auf eine Verbindung zwischen zwei Variablen, die kausal erscheint, aber nicht ist. Falsche Beziehungen scheinen zunächst zu zeigen, dass eine Variable eine andere direkt beeinflusst, aber das ist nicht der Fall. Diese falsche Korrelation wird oft durch einen dritten Faktor verursacht, der zum Zeitpunkt der Untersuchung nicht offensichtlich ist und manchmal als Störfaktor bezeichnet wird.
Die zentralen Thesen
- Scheinkorrelation oder Scheinkorrelation liegt vor, wenn zwei Faktoren zufällig miteinander verbunden erscheinen, es aber nicht sind.
- Das Auftreten eines kausalen Zusammenhangs ist oft auf eine ähnliche Bewegung auf einem Diagramm zurückzuführen, die sich als zufällig herausstellt oder durch einen dritten „verwirrenden“ Faktor verursacht wird.
- Eine falsche Korrelation kann durch kleine Stichprobengrößen oder willkürliche Endpunkte verursacht werden.
- Statistiker und Wissenschaftler verwenden sorgfältige statistische Analysen, um falsche Beziehungen zu bestimmen.
- Die Bestätigung eines kausalen Zusammenhangs erfordert eine Studie, die alle möglichen Variablen kontrolliert.
Wie die falsche Korrelation funktioniert
Wenn sich zwei Zufallsvariablen in einem Diagramm eng nachverfolgen, ist es leicht, eine Korrelation zu vermuten, bei der eine Änderung einer Variablen eine Änderung der anderen Variablen verursacht. Abgesehen von der Kausalität, die ein anderes Thema ist, kann diese Beobachtung den Leser des Diagramms zu der Annahme verleiten, dass die Bewegung von Variable A mit der Bewegung von Variable B verbunden ist oder umgekehrt.
Eine genauere statistische Untersuchung kann jedoch zeigen, dass die ausgerichteten Bewegungen zufällig sind oder durch einen dritten Faktor verursacht werden, der die beiden Variablen beeinflusst. Dies ist eine falsche Korrelation. Forschung, die mit kleinen Stichprobengrößen oder willkürlichen Endpunkten durchgeführt wird, ist besonders anfällig für Falschmeldungen.
Beispiele für falsche Korrelationen
Interessante Korrelationen sind leicht zu finden, aber viele werden sich als falsch herausstellen. Drei Beispiele sind die Rocklängentheorie, der Super Bowl-Indikator und eine vorgeschlagene Korrelation zwischen Rennen und College-Abschlussquoten.
Die Rocklängentheorie
Die Rocklängentheorie stammt aus den 1920er Jahren und besagt, dass Rocklängen und Börsenrichtung korreliert sind. Wenn die Rocklängen lang sind, besteht die Korrelation darin, dass der Aktienmarkt bärisch ist. Wenn die Hemdlängen kurz sind, ist der Markt bullish.
Der Super Bowl-Indikator
Ende Januar wird oft über den sogenannten Super Bowl Indikator geredet, der darauf hindeutet, dass ein Sieg des Teams der American Football Conference wahrscheinlich bedeutet, dass der Aktienmarkt im kommenden Jahr fallen wird, während ein Sieg der National Football Conference Team deutet auf einen Anstieg des Marktes hin.
Seit Beginn der Super Bowl-Ära war der Indikator laut OpenMarkets in etwa 74 % der Fälle oder 40 der 54 Jahre genau. Es ist ein unterhaltsamer Gesprächsstoff, aber wahrscheinlich nichts, was ein seriöser Finanzberater seinen Kunden als Anlagestrategie empfehlen würde.
Bildungsstand und Rasse
Sozialwissenschaftler haben sich darauf konzentriert, herauszufinden, welche Variablen sich auf das Bildungsniveau auswirken. Laut EducationData.org hatten weiße 25- bis 29-Jährige im Jahr 2019 eine um 55 % höhere Wahrscheinlichkeit als ihre schwarzen Kollegen, das College abgeschlossen zu haben. Die Daten deuten darauf hin, dass die Rasse einen kausalen Einfluss auf die Abschlussquoten hat; Es ist jedoch nicht die Rasse selbst, die den Bildungsstand beeinflusst, sondern die Auswirkungen von Rassismus in der Gesellschaft, die die dritte „versteckte“ Variable ist.
Rassismus wirkt sich auf farbige Menschen aus und benachteiligt sie in Bildung und Wirtschaft. Zum Beispiel stehen die Schulen in nicht-weißen Gemeinden vor größeren Herausforderungen und erhalten weniger Geld, Eltern in nicht-weißen Bevölkerungsgruppen haben schlecht bezahlte Jobs und weniger Ressourcen, um sich der Bildung ihrer Kinder zu widmen, und viele Familien leben in Lebensmittelwüsten und leiden unter Unterernährung. Rassismus ist also eine kausale Variable, die sich auf den Bildungsstand und nicht auf die Rasse auswirkt.
Wie man falsche Korrelationen erkennt
Statistiker und andere Wissenschaftler, die Daten analysieren, müssen ständig nach falschen Zusammenhängen Ausschau halten. Es gibt zahlreiche Methoden, mit denen sie sie identifizieren, darunter:
- Sicherstellung einer ordnungsgemäßen repräsentativen Probe
- Erlangung einer angemessenen Stichprobengröße
- Vorsicht bei willkürlichen Endpunkten
- Kontrolle für so viele externe Variablen wie möglich
- Verwenden einer Nullhypothese und Prüfen auf einen starken p-Wert
Viele falsche Beziehungen können mit gesundem Menschenverstand identifiziert werden. Wird eine Korrelation gefunden, spielen meist mehr als eine Variable eine Rolle, und die Variablen sind oft nicht sofort ersichtlich.
Häufig gestellte Fragen zu falschen Korrelationen
Woher wissen Sie, ob eine Korrelation falsch ist?
Der offensichtliche Weg, eine falsche Beziehung in Forschungsergebnissen zu erkennen, besteht darin, den gesunden Menschenverstand zu verwenden. Nur weil zwei Dinge auftreten und miteinander verbunden zu sein scheinen, heißt das nicht, dass keine anderen Faktoren am Werk sind. Um sicher zu sein, werden Forschungsmethoden jedoch kritisch hinterfragt. In Studien sollten alle Variablen, die sich auf die Ergebnisse auswirken könnten, in das statistische Modell aufgenommen werden, um ihre Auswirkungen auf die abhängige Variable zu kontrollieren.
Was ist ein Beispiel für Korrelation, aber nicht für Kausalität?
Ein Beispiel für eine Korrelation ist, dass mehr Schlaf zu einer besseren Leistungsfähigkeit während des Tages führt. Es gibt zwar einen Zusammenhang, aber nicht unbedingt eine Kausalität. Mehr Schlaf ist möglicherweise nicht der Grund, warum eine Person bessere Leistungen erbringt; Beispielsweise verwenden sie möglicherweise ein neues Softwaretool, das ihre Produktivität erhöht. Um eine Kausalität zu finden, müssen Tatsachen aus einer Studie vorliegen, die einen kausalen Zusammenhang zwischen Schlaf und Leistung aufzeigt.
Was bedeutet falsche Regression?
Falsche Regression ist ein statistisches Modell, das irreführende statistische Beweise für eine lineare Beziehung zeigt; mit anderen Worten, eine falsche Korrelation zwischen unabhängigen nicht-stationären Variablen.
Was ist ein Beispiel für falsche Kausalität?
Falsche Kausalität tritt auf, wenn wir schnell annehmen, dass eine Sache etwas anderes verursacht, weil wir eine Beziehung zwischen ihnen bemerkt haben. Zum Beispiel können wir annehmen, dass Harry hart trainiert hat, um ein schnellerer Läufer zu werden, weil sich seine Rennzeiten verbessert haben. Die Realität könnte jedoch sein, dass sich Harrys Rennzeiten verbessert haben, weil er neue Laufschuhe mit der neuesten Technologie hat. Die ursprüngliche Annahme war eine falsche Kausalität.