Multiple lineare Regression (MLR) - KamilTaylan.blog
27 Juni 2021 17:44

Multiple lineare Regression (MLR)

Was ist Multiple Lineare Regression (MLR)?

Multiple lineare Regression (MLR), auch einfach als multiple Regression bekannt, ist ein statistisches Verfahren, das mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Das Ziel der multiplen linearen Regression (MLR) besteht darin, die lineare Beziehung zwischen den erklärenden (unabhängigen) Variablen und der (abhängigen) Antwortvariablen zu modellieren.

Im Wesentlichen multiple Regression ist die Erweiterung der gewöhnlichen kleinsten Quadrate (OLS) Regression, weil es mehr als eine erklärende Variable beinhaltet.

Die zentralen Thesen

  • Multiple lineare Regression (MLR), auch einfach als multiple Regression bekannt, ist ein statistisches Verfahren, das mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen.
  • Multiple Regression ist eine Erweiterung der linearen (OLS) Regression, die nur eine erklärende Variable verwendet.
  • MLR wird häufig in der Ökonometrie und Finanzinferenz verwendet.

Formel und Berechnung der multiplen linearen Regression

Was die multiple lineare Regression Ihnen sagen kann

Die einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable basierend auf den Informationen zu treffen, die über eine andere Variable bekannt sind. Die lineare Regression kann nur verwendet werden, wenn man zwei kontinuierliche Variablen hat – eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist der Parameter, der verwendet wird, um die abhängige Variable oder das Ergebnis zu berechnen. Ein multiples Regressionsmodell erstreckt sich auf mehrere erklärende Variablen.

Das multiple Regressionsmodell basiert auf folgenden Annahmen:

  • Zwischen den abhängigen Variablen und den unabhängigen Variablen besteht ein linearer Zusammenhang
  • Die unabhängigen Variablen sind nicht zu hoch korreliert miteinander
  • y i Beobachtungen werden unabhängig und zufällig aus der Grundgesamtheit ausgewählt
  • Residuen sollten normalverteilt sein mit einem Mittelwert von 0 und einer Varianz σ

Das Bestimmtheitsmaß (R-Quadrat) ist eine statistische Metrik, die verwendet wird, um zu messen, wie viel der Ergebnisvariation durch die Variation der unabhängigen Variablen erklärt werden kann. R 2 nimmt immer zu, wenn dem MLR-Modell mehr Prädiktoren hinzugefügt werden, auch wenn die Prädiktoren möglicherweise nicht mit der Ergebnisvariablen in Zusammenhang stehen.

R2 allein kann daher nicht verwendet werden, um zu identifizieren, welche Prädiktoren in ein Modell aufgenommen und welche ausgeschlossen werden sollten. R2 kann nur zwischen 0 und 1 liegen, wobei 0 angibt, dass das Ergebnis von keiner der unabhängigen Variablen vorhergesagt werden kann und 1 angibt, dass das Ergebnis ohne Fehler von den unabhängigen Variablen vorhergesagt werden kann.

Bei der Interpretation der Ergebnisse der multiplen Regression sind Betakoeffizienten gültig, während alle anderen Variablen konstant gehalten werden („alles sonst gleich“). Die Ausgabe einer multiplen Regression kann horizontal als Gleichung oder vertikal in Tabellenform angezeigt werden.

Beispiel für die Verwendung der multiplen linearen Regression

Ein Analyst möchte beispielsweise wissen, wie sich die Marktbewegung auf den Preis von ExxonMobil (XOM) auswirkt. In diesem Fall hat ihre lineare Gleichung den Wert des S&P 500-Index als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.

In Wirklichkeit gibt es mehrere Faktoren, die den Ausgang eines Ereignisses vorhersagen. Die Preisentwicklung von ExxonMobil beispielsweise hängt nicht nur von der Entwicklung des Gesamtmarktes ab. Andere Prädiktoren wie der Ölpreis, Zinssätze und die Preisbewegung von Öl- Futures können den Preis von XOM und die Aktienkurse anderer Ölgesellschaften beeinflussen. Um eine Beziehung zu verstehen, in der mehr als zwei Variablen vorhanden sind, wird die multiple lineare Regression verwendet.

Die multiple lineare Regression (MLR) wird verwendet, um eine mathematische Beziehung zwischen einer Reihe von Zufallsvariablen zu bestimmen. Anders ausgedrückt untersucht MLR, wie mehrere unabhängige Variablen mit einer abhängigen Variablen zusammenhängen. Sobald jeder der unabhängigen Faktoren zur Vorhersage der abhängigen Variablen bestimmt wurde, können die Informationen zu den mehreren Variablen verwendet werden, um eine genaue Vorhersage über den Grad der Auswirkung auf die Ergebnisvariable zu erstellen. Das Modell erstellt eine Beziehung in Form einer geraden Linie (linear), die alle einzelnen Datenpunkte am besten annähert.

Unter Bezugnahme auf die obige MLR-Gleichung in unserem Beispiel:

  • y i = abhängige Variable – der Preis von XOM
  • x i1 = Zinssätze
  • x i2 = Ölpreis
  • x i3 = Wert des S&P 500-Index
  • x i4 = Preis von Öl-Futures
  • B 0 = y-Achsenabschnitt zum Zeitpunkt Null
  • B 1 = Regressionskoeffizient, der eine Einheitsänderung der abhängigen Variablen misst, wenn sich x i1 ändert – die Änderung des XOM-Preises, wenn sich die Zinssätze ändern
  • B 2 = Koeffizientenwert, der eine Einheitsänderung der abhängigen Variablen misst, wenn sich x i2 ändert – die Änderung des XOM-Preises, wenn sich der Ölpreis ändert

Die Schätzungen der kleinsten Quadrate, B 0, B 1, B 2 … B p, werden normalerweise durch statistische Software berechnet. Es können so viele Variablen in das Regressionsmodell aufgenommen werden, in dem jede unabhängige Variable mit einer Zahl differenziert wird – 1,2, 3, 4…p. Das multiple Regressionsmodell ermöglicht es einem Analytiker, ein Ergebnis basierend auf Informationen, die zu mehreren erklärenden Variablen bereitgestellt werden, vorherzusagen.

Das Modell ist jedoch nicht immer perfekt genau, da jeder Datenpunkt geringfügig vom vom Modell vorhergesagten Ergebnis abweichen kann. Der Restwert E, der die Differenz zwischen dem tatsächlichen Ergebnis und dem vorhergesagten Ergebnis darstellt, wird in das Modell aufgenommen, um solche geringfügigen Abweichungen zu berücksichtigen.

Angenommen, wir führen unser XOM-Preisregressionsmodell über eine Statistikberechnungssoftware aus, die diese Ausgabe zurückgibt:

Ein Analyst würde diese Ausgabe so interpretieren, dass bei konstanten anderen Variablen der XOM-Preis um 7,8% steigt, wenn der Ölpreis auf den Märkten um 1% steigt. Das Modell zeigt auch, dass der Preis von XOM nach einem Zinsanstieg um 1 % um 1,5% sinken wird. R 2 zeigt an, dass 86,5% der Kursschwankungen von Exxon Mobil durch Änderungen des Zinssatzes, des Ölpreises, der Öl-Futures und des S&P 500-Index erklärt werden können.

Der Unterschied zwischen linearer und multipler Regression

Die Regression der gewöhnlichen linearen Quadrate (OLS) vergleicht die Reaktion einer abhängigen Variablen bei einer Änderung einiger erklärender Variablen. Es kommt jedoch selten vor, dass eine abhängige Variable nur durch eine Variable erklärt wird. In diesem Fall verwendet ein Analytiker die multiple Regression, bei der versucht wird, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Mehrere Regressionen können linear und nichtlinear sein.

Multiple Regressionen basieren auf der Annahme, dass eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen besteht. Es wird auch keine größere Korrelation zwischen den unabhängigen Variablen angenommen.

Häufig gestellte Fragen

Was macht eine multiple Regression „multiple“?

Eine multiple Regression berücksichtigt die Auswirkung von mehr als einer erklärenden Variablen auf ein bestimmtes Ergebnis von Interesse. Es bewertet die relative Auswirkung dieser erklärenden oder unabhängigen Variablen auf die abhängige Variable, wenn alle anderen Variablen im Modell konstant gehalten werden.

Warum sollte man eine multiple Regression einer einfachen OLS-Regression vorziehen?

Es kommt selten vor, dass eine abhängige Variable nur durch eine Variable erklärt wird. In solchen Fällen verwendet ein Analytiker die multiple Regression, die versucht, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Das Modell geht jedoch davon aus, dass es keine größeren Korrelationen zwischen den unabhängigen Variablen gibt.

Kann ich eine multiple Regression von Hand durchführen?

Wahrscheinlich nicht. Multiple Regressionsmodelle sind komplex und werden noch komplexer, wenn das Modell mehr Variablen enthält oder die zu analysierende Datenmenge wächst. Um eine multiple Regression auszuführen, müssen Sie wahrscheinlich spezielle Statistiksoftware oder Funktionen in Geschäftsprogrammen wie Excel verwenden.

Was bedeutet es, wenn eine multiple Regression „linear“ ist?

Bei einer multiplen linearen Regression berechnet das Modell die beste Anpassungsgerade, die die Varianzen jeder der eingeschlossenen Variablen in Bezug auf die abhängige Variable minimiert. Da es zu einer Linie passt, ist es ein lineares Modell. Es gibt auch nichtlineare Regressionsmodelle mit mehreren Variablen, z. B. logistische Regression, quadratische Regression und Probit-Modelle.

Wie werden multiple Regressionsmodelle im Finanzwesen verwendet?

Jedes ökonometrische Modell, das mehr als eine Variable betrachtet, kann eine multiple Regression sein. Faktormodelle vergleichen beispielsweise zwei oder mehr Faktoren, um Beziehungen zwischen Variablen und der resultierenden Leistung zu analysieren. Der Drei-Faktoren-Mod von Fama und French ist ein solches Modell, das das Capital Asset Pricing-Modell (CAPM) erweitert, indem dem Marktrisikofaktor in CAPM (das selbst ein Regressionsmodell ist) Größen- und Wertrisikofaktoren hinzugefügt werden. Durch die Einbeziehung dieser beiden zusätzlichen Faktoren passt sich das Modell dieser Outperformance-Tendenz an, was es zu einem besseren Instrument zur Bewertung der Managerleistung machen soll.