Homoskedastisch
Was ist homoskedastisch?
Homoskedastisch (auch „homoskedastisch“ geschrieben) bezieht sich auf einen Zustand, in dem die Varianz des Residuums oder Fehlerterms in einem Regressionsmodell konstant ist. Das heißt, der Fehlerterm ändert sich nicht stark, wenn sich der Wert der Prädiktorvariablen ändert. Eine andere Möglichkeit, dies zu sagen, besteht darin, dass die Varianz der Datenpunkte für alle Datenpunkte ungefähr gleich ist. Dies deutet auf ein gewisses Maß an Konsistenz hin und erleichtert die Modellierung und Bearbeitung der Daten durch Regression. Das Fehlen von Homoskedastizität kann jedoch darauf hindeuten, dass das Regressionsmodell möglicherweise zusätzliche Prädiktorvariablen enthalten muss, um die Leistung der abhängigen Variablen zu erklären.
Die zentralen Thesen
- Homoskedastizität tritt auf, wenn die Varianz des Fehlerterms in einem Regressionsmodell konstant ist.
- Wenn die Varianz des Fehlerterms homoskedastisch ist, war das Modell gut definiert. Wenn zu viel Varianz vorliegt, ist das Modell möglicherweise nicht gut definiert.
- Durch Hinzufügen zusätzlicher Prädiktorvariablen kann die Leistung der abhängigen Variablen erläutert werden.
- Im Gegensatz dazu tritt Heteroskedastizität auf, wenn die Varianz des Fehlerterms nicht konstant ist.
Wie Homoskedastizität funktioniert
Homoskedastizität ist eine Annahme der linearen Regressionsmodellierung, und Daten dieses Typs funktionieren gut mit der Methode der kleinsten Quadrate. Wenn die Varianz der Fehler um die Regressionslinie stark variiert, ist das Regressionsmodell möglicherweise schlecht definiert. Das Gegenteil von Homoskedastizität ist Heteroskedastizität, genauso wie das Gegenteil von „homogen“ „heterogen“ ist. Heteroskedastizität (auch „Heteroskedastizität“ geschrieben) bezieht sich auf eine Bedingung, bei der die Varianz des Fehlerterms in einer Regressionsgleichung nicht konstant ist.
Wenn man bedenkt, dass die Varianz die gemessene Differenz zwischen dem vorhergesagten Ergebnis und dem tatsächlichen Ergebnis einer bestimmten Situation ist, kann die Bestimmung der Homoskedastizität helfen, zu bestimmen, welche Faktoren für die Genauigkeit angepasst werden müssen.
Besondere Überlegungen
Ein einfaches Regressionsmodell oder eine Gleichung besteht aus vier Begriffen. Auf der linken Seite befindet sich die abhängige Variable. Es repräsentiert das Phänomen, das das Modell „erklären“ will. Auf der rechten Seite befinden sich eine Konstante, eine Prädiktorvariable und ein Rest- oder Fehlerterm. Der Fehlerterm zeigt das Ausmaß der Variabilität in der abhängigen Variablen, das nicht durch die Prädiktorvariable erklärt wird.
Beispiel für Homoskedastik
Angenommen, Sie möchten die Testergebnisse der Schüler anhand der Zeit erklären, die jeder Schüler mit dem Lernen verbracht hat. In diesem Fall wären die Testergebnisse die abhängige Variable und die für das Studium aufgewendete Zeit die Prädiktorvariable.
Der Fehlerterm würde das Ausmaß der Varianz in den Testergebnissen anzeigen, das nicht durch die Zeitdauer des Studiums erklärt wurde. Wenn diese Varianz einheitlich oder homoskedastisch ist, könnte dies darauf hindeuten, dass das Modell eine angemessene Erklärung für die Testleistung darstellt – und dies in Bezug auf die für das Studium aufgewendete Zeit erklärt.
Die Varianz kann jedoch heteroskedastisch sein. Eine grafische Darstellung der Fehlertermdaten kann zeigen, dass eine große Menge an Studienzeit sehr genau mit hohen Testergebnissen korrespondierte, dass jedoch die niedrigen Testergebnisse für die Studienzeit stark variierten und sogar einige sehr hohe Ergebnisse enthielten. Die Varianz der Scores lässt sich also nicht einfach durch eine Prädiktorvariable erklären – die Zeit, die zum Lernen benötigt wird. In diesem Fall spielt wahrscheinlich ein anderer Faktor eine Rolle, und das Modell muss möglicherweise erweitert werden, um es oder sie zu identifizieren.
Weitere Untersuchungen könnten ergeben, dass einige Schüler die Antworten auf den Test im Voraus gesehen hatten oder zuvor einen ähnlichen Test absolviert hatten und daher nicht für diesen bestimmten Test lernen mussten. Im Übrigen kann sich herausstellen, dass die Schüler unabhängig von ihrer Studienzeit und ihrer Leistung bei früheren Tests unabhängig vom Fach unterschiedliche Fähigkeiten zum Bestehen von Tests hatten.
Um das Regressionsmodell zu verbessern, müsste der Forscher andere erklärende Variablen ausprobieren, die eine genauere Anpassung an die Daten ermöglichen könnten. Wenn zum Beispiel einige Schüler die Antworten im Voraus gesehen hätten, hätte das Regressionsmodell zwei erklärende Variablen: Zeitstudium und ob der Schüler Vorkenntnisse über die Antworten hatte. Mit diesen beiden Variablen würde ein größerer Teil der Varianz der Testergebnisse erklärt, und die Varianz des Fehlerterms könnte dann homoskedastisch sein, was darauf hindeutet, dass das Modell gut definiert war.