Nichtparametrische Statistik
Was sind nichtparametrische Statistiken?
Nichtparametrische Statistik bezieht sich auf eine statistische Methode, bei der nicht angenommen wird, dass die Daten aus vorgeschriebenen Modellen stammen, die durch eine kleine Anzahl von Parametern bestimmt werden. Beispiele für solche Modelle sind das Normalverteilungsmodell und das lineare Regressionsmodell. Nichtparametrische Statistiken verwenden manchmal Daten, die ordinal sind, d. h. sie basieren nicht auf Zahlen, sondern auf einer Rangfolge oder Sortierreihenfolge. Beispielsweise würde eine Umfrage, die Verbraucherpräferenzen von „Gefällt mir“ bis „Abneigung“ enthält, als ordinale Daten betrachtet.
Nichtparametrische Statistiken umfassen nichtparametrische deskriptive Statistiken, statistische Modelle, Inferenz und statistische Tests. Die Modellstruktur nichtparametrischer Modelle wird nicht a priori festgelegt, sondern aus Daten ermittelt. Der Begriff nichtparametrisch soll nicht bedeuten, dass solchen Modellen Parameter vollständig fehlen, sondern dass Anzahl und Art der Parameter flexibel sind und nicht im Voraus festgelegt werden. Ein Histogramm ist ein Beispiel für eine nichtparametrische Schätzung einer Wahrscheinlichkeitsverteilung.
Die zentralen Thesen
- Nichtparametrische Statistiken sind einfach zu verwenden, bieten jedoch nicht die Genauigkeit anderer statistischer Modelle.
- Diese Art der Analyse ist oft am besten geeignet, wenn man die Reihenfolge von etwas betrachtet, bei der die Ergebnisse selbst dann wahrscheinlich gleich bleiben, wenn sich die numerischen Daten ändern.
Grundlegendes zu nichtparametrischen Statistiken
In der Statistik umfasst die parametrische Statistik Parameter wie Mittelwert, Standardabweichung, Pearson-Korrelation, Varianz usw. Diese Form der Statistik verwendet die beobachteten Daten, um die Parameter der Verteilung zu schätzen. In der parametrischen Statistik wird häufig davon ausgegangen, dass Daten aus einer Normalverteilung mit unbekannten Parametern μ (Populationsmittelwert) und σ2 (Populationsvarianz) stammen, die dann anhand des Stichprobenmittelwerts und der Stichprobenvarianz geschätzt werden.
Die nichtparametrische Statistik macht keine Annahmen über die Stichprobengröße oder ob die beobachteten Daten quantitativ sind.
Nichtparametrische Statistiken gehen nicht davon aus, dass Daten aus einer Normalverteilung gezogen werden. Stattdessen wird die Form der Verteilung bei dieser Form der statistischen Messung geschätzt. Während es viele Situationen gibt, in denen eine Normalverteilung angenommen werden kann, gibt es auch einige Szenarien, in denen der eigentliche Datenerzeugungsprozess weit von einer Normalverteilung entfernt ist.
Beispiele für nichtparametrische Statistiken
Betrachten Sie im ersten Beispiel einen Finanzanalysten, der den Value-at-Risk (VaR) einer Investition schätzen möchte. Der Analyst sammelt Gewinndaten von Hunderten ähnlicher Investitionen über einen ähnlichen Zeithorizont. Anstatt davon auszugehen, dass die Einnahmen einer Normalverteilung folgen, verwendet sie das Histogramm, um die Verteilung nichtparametrisch zu schätzen. Das 5. Perzentil dieses Histogramms liefert dem Analysten dann eine nichtparametrische Schätzung des VaR.
Betrachten Sie als zweites Beispiel einen anderen Forscher, der wissen möchte, ob die durchschnittliche Schlafdauer mit der Häufigkeit von Erkrankungen zusammenhängt. Da viele Menschen selten oder gar nicht erkranken und gelegentlich andere weitaus häufiger als die meisten anderen, ist die Verteilung der Krankheitshäufigkeit eindeutig nicht normal, rechtsschief und anfällig für Ausreißer. Anstatt eine Methode zu verwenden, die eine Normalverteilung der Krankheitshäufigkeit annimmt, wie es beispielsweise bei der klassischen Regressionsanalyse der Fall ist, entscheidet sich der Forscher für eine nichtparametrische Methode wie die Quantil-Regressionsanalyse.
Besondere Überlegungen
Nichtparametrische Statistiken haben aufgrund ihrer Benutzerfreundlichkeit an Bedeutung gewonnen. Da der Bedarf an Parametern verringert wird, werden die Daten für eine größere Vielfalt von Tests anwendbarer. Diese Art von Statistik kann ohne Mittelwert, Stichprobengröße, Standardabweichung oder Schätzung anderer verwandter Parameter verwendet werden, wenn keine dieser Informationen verfügbar ist.
Da die nichtparametrische Statistik weniger Annahmen über die Stichprobendaten macht, ist ihre Anwendung breiter als die parametrische Statistik. In Fällen, in denen parametrisches Testen geeigneter ist, sind nichtparametrische Methoden weniger effizient. Dies liegt daran, dass nichtparametrische Statistiken im Gegensatz zu parametrischen Statistiken einige in den Daten verfügbare Informationen verwerfen.