Varianz-Inflationsfaktor (VIF)
Was ist ein Varianzinflationsfaktor (VIF)?
Der Varianzinflationsfaktor (VIF) ist ein Maß für das Ausmaß der Multikollinearität in einem Satz von mehreren Regressionsvariablen . Mathematisch ist das VIF für ein Regressionsmodell Variable gleich dem Verhältnis des Gesamtmodells Varianz der Varianz eines Modells, das nur die einzelne unabhängige Variable enthält. Dieses Verhältnis wird für jede unabhängige Variable berechnet. Ein hoher VIF zeigt an, dass die zugehörige unabhängige Variable mit den anderen Variablen im Modell stark kollinear ist.
Die zentralen Thesen
- Ein Varianzinflationsfaktor (VIF) liefert ein Maß für die Multikollinearität zwischen den unabhängigen Variablen in einem multiplen Regressionsmodell.
- Das Erkennen von Multikollinearität ist wichtig, da Multikollinearität zwar nicht die Erklärungskraft des Modells, aber die statistische Signifikanz der unabhängigen Variablen verringert.
- Ein Inflationsfaktor mit großer Varianz (VIF) für eine unabhängige Variable weist auf eine stark kollineare Beziehung zu den anderen Variablen hin, die bei der Struktur des Modells und der Auswahl unabhängiger Variablen berücksichtigt oder angepasst werden sollte.
Verstehen eines Varianzinflationsfaktors (VIF)
Ein Varianzinflationsfaktor ist ein Werkzeug, um den Grad der Multikollinearität zu identifizieren. Eine multiple Regression wird verwendet, wenn eine Person die Wirkung mehrerer Variablen auf ein bestimmtes Ergebnis testen möchte. Die abhängige Variable ist das Ergebnis, auf das die unabhängigen Variablen reagieren – die Eingaben in das Modell. Multikollinearität liegt vor, wenn eine lineare Beziehung oder Korrelation zwischen einer oder mehreren der unabhängigen Variablen oder Eingaben besteht.
Multikollinearität verursacht bei der multiplen Regression ein Problem, da sich die Eingaben alle gegenseitig beeinflussen. Daher sind sie nicht wirklich unabhängig, und es ist schwierig zu testen, inwieweit die Kombination der unabhängigen Variablen die abhängige Variable oder das Ergebnis innerhalb des Regressionsmodells beeinflusst. Statistisch gesehen erschwert ein multiples Regressionsmodell mit hoher Multikollinearität die Schätzung der Beziehung zwischen jeder der unabhängigen Variablen und der abhängigen Variablen. Kleine Änderungen der verwendeten Daten oder der Struktur der Modellgleichung können zu großen und unberechenbaren Änderungen der geschätzten Koeffizienten der unabhängigen Variablen führen.
Um sicherzustellen, dass das Modell richtig spezifiziert ist und richtig funktioniert, gibt es Tests, die auf Multikollinearität ausgeführt werden können. Der Varianz-Inflationsfaktor ist ein solches Messinstrument. Die Verwendung von Varianzinflationsfaktoren hilft, den Schweregrad von Multikollinearitätsproblemen zu identifizieren, sodass das Modell angepasst werden kann. Der Varianzinflationsfaktor misst, wie stark das Verhalten (Varianz) einer unabhängigen Variablen durch ihre Interaktion/Korrelation mit den anderen unabhängigen Variablen beeinflusst oder überhöht wird. Varianzinflationsfaktoren ermöglichen ein schnelles Maß dafür, wie viel eine Variable zum Standardfehler in der Regression beiträgt. Wenn signifikante Multikollinearitätsprobleme vorliegen, ist der Varianzinflationsfaktor für die beteiligten Variablen sehr groß. Nachdem diese Variablen identifiziert wurden, können mehrere Ansätze verwendet werden, um kollineare Variablen zu eliminieren oder zu kombinieren und das Problem der Multikollinearität zu lösen.
Besondere Überlegungen
Multikollinearität
Obwohl Multikollinearität die Vorhersagekraft eines Modells insgesamt nicht verringert, kann sie Schätzungen der Regressionskoeffizienten erzeugen, die statistisch nicht signifikant sind. In gewisser Weise kann man es sich als eine Art Doppelzählung im Modell vorstellen. Wenn zwei oder mehr unabhängige Variablen eng verwandt sind oder fast dasselbe messen, wird der zugrunde liegende Effekt, den sie messen, doppelt (oder mehr) für die Variablen berücksichtigt. Es wird schwierig oder unmöglich zu sagen, welche Variable die unabhängige Variable wirklich beeinflusst. Dies ist ein Problem, da das Ziel vieler ökonometrischer Modelle darin besteht, genau diese Art von statistischer Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen zu testen.
Angenommen, ein Ökonom möchte testen, ob ein statistisch signifikanter Zusammenhang zwischen der Arbeitslosenquote (unabhängige Variable) und der Inflationsrate (abhängige Variable) besteht. Die Einbeziehung zusätzlicher unabhängiger Variablen, die sich auf die Arbeitslosenquote beziehen, würde bei solchen neuen Erstanträgen auf Arbeitslosenunterstützung wahrscheinlich Multikollinearität in das Modell einführen. Das Gesamtmodell kann zwar eine starke, statistisch ausreichende Erklärungskraft aufweisen, kann aber nicht erkennen, ob der Effekt hauptsächlich auf die Arbeitslosenquote oder auf die neuen Erstanträge auf Arbeitslosenhilfe zurückzuführen ist. Dies würde das VIF erkennen, und es würde vorschlagen, möglicherweise eine der Variablen aus dem Modell zu streichen oder einen Weg zu finden, sie zu konsolidieren, um ihre gemeinsame Wirkung zu erfassen, je nachdem, welche spezifische Hypothese der Forscher testen möchte.