Schrittweise Regression
Was ist schrittweise Regression?
Die schrittweise Regression ist die schrittweise iterative Konstruktion eines Regressionsmodells, die die Auswahl unabhängiger Variablen beinhaltet, die in einem endgültigen Modell verwendet werden sollen. Dabei werden nacheinander potenzielle erklärende Variablen hinzugefügt oder entfernt und nach jeder Iteration auf statistische Signifikanz geprüft.
Die Verfügbarkeit statistischer Softwarepakete ermöglicht eine schrittweise Regression, selbst in Modellen mit Hunderten von Variablen.
Die zentralen Thesen
- Die schrittweise Regression ist eine Methode, die iterativ die statistische Signifikanz jeder unabhängigen Variablen in einem linearen Regressionsmodell untersucht.
- Der Vorwärtsselektionsansatz beginnt mit nichts und fügt jede neue Variable inkrementell hinzu, um die statistische Signifikanz zu testen.
- Die Rückwärtseliminationsmethode beginnt mit einem vollständigen Modell, das mit mehreren Variablen geladen ist, und entfernt dann eine Variable, um ihre Bedeutung im Verhältnis zu den Gesamtergebnissen zu testen.
- Die schrittweise Regression hat jedoch ihre Nachteile, da es sich um einen Ansatz handelt, der Daten in ein Modell einpasst, um das gewünschte Ergebnis zu erzielen.
Arten der schrittweisen Regression
Das zugrunde liegende Ziel der schrittweisen Regression besteht darin, durch eine Reihe von Tests (zB F-Tests, t-Tests ) eine Menge unabhängiger Variablen zu finden, die die abhängige Variable signifikant beeinflussen. Dies geschieht mit Computern durch Iteration, d. h. den Prozess des Erreichens von Ergebnissen oder Entscheidungen durch wiederholte Runden oder Analysezyklen. Die automatische Durchführung von Tests mit Hilfe von Statistik-Softwarepaketen hat den Vorteil, Zeit zu sparen und Fehler zu begrenzen.
Eine schrittweise Regression kann erreicht werden, indem entweder jeweils eine unabhängige Variable ausprobiert und in das Regressionsmodell aufgenommen wird, wenn sie statistisch signifikant ist, oder indem alle potenziellen unabhängigen Variablen in das Modell aufgenommen und diejenigen eliminiert werden, die statistisch nicht signifikant sind. Einige verwenden eine Kombination beider Methoden und daher gibt es drei Ansätze für die schrittweise Regression:
- Die Vorwärtsselektion beginnt ohne Variablen im Modell, testet jede Variable, während sie zum Modell hinzugefügt wird, und behält dann diejenigen bei, die als statistisch am signifikantesten erachtet werden – wobei der Prozess wiederholt wird, bis die Ergebnisse optimal sind.
- Die Rückwärtseliminierung beginnt mit einem Satz unabhängiger Variablen, wobei eine nach der anderen gelöscht wird und dann getestet wird, ob die entfernte Variable statistisch signifikant ist.
- Die bidirektionale Eliminierung ist eine Kombination der ersten beiden Methoden, die testen, welche Variablen eingeschlossen oder ausgeschlossen werden sollten.
Beispiel
Ein Beispiel für eine schrittweise Regression unter Verwendung der Rückwärtseliminationsmethode wäre ein Versuch, den Energieverbrauch in einer Fabrik anhand von Variablen wie Gerätelaufzeit, Gerätealter, Personalgröße, Außentemperatur und Jahreszeit zu verstehen. Das Modell enthält alle Variablen – dann wird jede nacheinander entfernt, um zu bestimmen, welche statistisch am wenigsten signifikant ist. Am Ende könnte das Modell zeigen, dass die Jahreszeit und die Temperaturen am bedeutendsten sind, was möglicherweise darauf hindeutet, dass der maximale Energieverbrauch im Werk liegt, wenn der Verbrauch von Klimaanlagen am höchsten ist.
Einschränkungen der schrittweisen Regression
Regressionsanalysen, sowohl Kurs-Gewinn-Verhältnis und die Aktienrenditen über viele Jahre hinweg betrachten, um festzustellen, ob Aktien mit niedrigem KGV (unabhängige Variable) höhere Renditen bieten (abhängige Variable). Das Problem bei diesem Ansatz besteht darin, dass sich die Marktbedingungen oft ändern und Beziehungen, die in der Vergangenheit bestanden haben, nicht unbedingt in der Gegenwart oder Zukunft gelten.
Inzwischen hat der schrittweise Regressionsprozess viele Kritiker und es gibt sogar Aufrufe, die Methode ganz einzustellen. Statistiker stellen mehrere Nachteile des Ansatzes fest, darunter falsche Ergebnisse, eine inhärente Verzerrung des Prozesses selbst und die Notwendigkeit einer erheblichen Rechenleistung, um komplexe Regressionsmodelle durch Iteration zu entwickeln.