Varianzinflationsfaktor (VIF)
Was ist ein Varianzinflationsfaktor (VIF)?
Der Varianzinflationsfaktor (VIF) ist ein Maß für das Ausmaß der Multikollinearität in einer Reihe mehrerer Regressionsvariablen . Mathematisch ist das VIF für ein Regressionsmodell Variable gleich dem Verhältnis des Gesamtmodells Varianz der Varianz eines Modells, das nur die einzelne unabhängige Variable enthält. Dieses Verhältnis wird für jede unabhängige Variable berechnet. Ein hoher VIF zeigt an, dass die zugehörige unabhängige Variable mit den anderen Variablen im Modell stark kollinear ist.
Die zentralen Thesen
- Ein Varianzinflationsfaktor (VIF) liefert ein Maß für die Multikollinearität zwischen den unabhängigen Variablen in einem multiplen Regressionsmodell.
- Das Erkennen von Multikollinearität ist wichtig, da Multikollinearität zwar die Erklärungskraft des Modells nicht verringert, jedoch die statistische Signifikanz der unabhängigen Variablen verringert.
- Ein Inflationsfaktor mit großer Varianz (VIF) für eine unabhängige Variable zeigt eine stark kollineare Beziehung zu den anderen Variablen an, die bei der Struktur des Modells und der Auswahl unabhängiger Variablen berücksichtigt oder angepasst werden sollten.
Verständnis eines Varianzinflationsfaktors (VIF)
Ein Varianzinflationsfaktor ist ein Instrument zur Ermittlung des Multikollinearitätsgrades. Eine multiple Regression wird verwendet, wenn eine Person die Auswirkung mehrerer Variablen auf ein bestimmtes Ergebnis testen möchte. Die abhängige Variable ist das Ergebnis, auf das die unabhängigen Variablen einwirken – die Eingaben in das Modell. Multikollinearität liegt vor, wenn zwischen einer oder mehreren der unabhängigen Variablen oder Eingaben eine lineare Beziehung oder Korrelation besteht.
Multikollinearität verursacht ein Problem bei der multiplen Regression, da sich alle Eingaben gegenseitig beeinflussen. Daher sind sie nicht wirklich unabhängig, und es ist schwierig zu testen, inwieweit die Kombination der unabhängigen Variablen die abhängige Variable oder das Ergebnis innerhalb des Regressionsmodells beeinflusst. Statistisch gesehen wird es durch ein multiples Regressionsmodell mit hoher Multikollinearität schwieriger, die Beziehung zwischen jeder der unabhängigen Variablen und der abhängigen Variablen abzuschätzen. Kleine Änderungen der verwendeten Daten oder der Struktur der Modellgleichung können zu großen und unregelmäßigen Änderungen der geschätzten Koeffizienten der unabhängigen Variablen führen.
Um sicherzustellen, dass das Modell ordnungsgemäß spezifiziert ist und ordnungsgemäß funktioniert, gibt es Tests, die auf Multikollinearität ausgeführt werden können. Der Varianzinflationsfaktor ist ein solches Messinstrument. Die Verwendung von Varianzinflationsfaktoren hilft dabei, den Schweregrad von Multikollinearitätsproblemen zu identifizieren, damit das Modell angepasst werden kann. Der Varianzinflationsfaktor misst, wie stark das Verhalten (Varianz) einer unabhängigen Variablen durch ihre Interaktion / Korrelation mit den anderen unabhängigen Variablen beeinflusst oder aufgeblasen wird. Varianzinflationsfaktoren ermöglichen ein schnelles Maß dafür, wie viel eine Variable zum Standardfehler in der Regression beiträgt. Wenn signifikante Multikollinearitätsprobleme vorliegen, ist der Varianzinflationsfaktor für die beteiligten Variablen sehr groß. Nachdem diese Variablen identifiziert wurden, können verschiedene Ansätze verwendet werden, um kollineare Variablen zu eliminieren oder zu kombinieren, wodurch das Multikollinearitätsproblem gelöst wird.
Besondere Überlegungen
Multikollinearität
Während Multikollinearität die Vorhersagekraft eines Modells insgesamt nicht verringert, kann sie Schätzungen der Regressionskoeffizienten erzeugen, die statistisch nicht signifikant sind. In gewissem Sinne kann es als eine Art Doppelzählung im Modell angesehen werden. Wenn zwei oder mehr unabhängige Variablen eng miteinander verbunden sind oder fast dasselbe messen, wird der zugrunde liegende Effekt, den sie messen, zweimal (oder mehr) über die Variablen hinweg berücksichtigt. Es wird schwierig oder unmöglich zu sagen, welche Variable die unabhängige Variable wirklich beeinflusst. Dies ist ein Problem, da das Ziel vieler ökonometrischer Modelle darin besteht, genau diese Art von statistischer Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen zu testen.
Angenommen, ein Ökonom möchte testen, ob ein statistisch signifikanter Zusammenhang zwischen der Arbeitslosenquote (unabhängige Variable) und der Inflationsrate (abhängige Variable) besteht. Die Einbeziehung zusätzlicher unabhängiger Variablen, die sich auf die Arbeitslosenquote beziehen, wie beispielsweise ein neuer anfänglicher Arbeitslosenanspruch, würde wahrscheinlich Multikollinearität in das Modell einführen. Das Gesamtmodell weist möglicherweise eine starke statistisch ausreichende Erklärungskraft auf, kann jedoch nicht feststellen, ob der Effekt hauptsächlich auf die Arbeitslosenquote oder die neuen anfänglichen Arbeitslosenansprüche zurückzuführen ist. Dies würde das VIF erkennen, und es würde vorschlagen, möglicherweise eine der Variablen aus dem Modell zu streichen oder einen Weg zu finden, sie zu konsolidieren, um ihren gemeinsamen Effekt zu erfassen, je nachdem, welche spezifische Hypothese der Forscher testen möchte.