24 Juni 2021 18:51

Überanpassung

Was ist Überanpassung?

Überanpassung ist ein Modellierungsfehler in der Statistik, der auftritt, wenn eine Funktion zu eng an einer begrenzten Menge von Datenpunkten ausgerichtet ist. Daher ist das Modell nur in Bezug auf seinen ursprünglichen Datensatz und nicht auf andere Datensätze nützlich.

Die Überanpassung des Modells besteht im Allgemeinen darin, dass ein übermäßig komplexes Modell erstellt wird, um Eigenarten in den untersuchten Daten zu erklären. In der Realität enthalten die häufig untersuchten Daten einen gewissen Grad an Fehlern oder zufälligem Rauschen. Daher kann der Versuch, das Modell zu stark an leicht ungenaue Daten anzupassen, das Modell mit erheblichen Fehlern infizieren und seine Vorhersagekraft verringern.

Die zentralen Thesen

  • Überanpassung ist ein Fehler, der bei der Datenmodellierung auftritt, wenn eine bestimmte Funktion zu eng an einem minimalen Satz von Datenpunkten ausgerichtet ist.
  • Finanzexperten laufen Gefahr, ein Modell, das auf begrenzten Daten basiert, zu überanpassungen und am Ende fehlerhafte Ergebnisse zu erhalten.
  • Wenn ein Modell durch Overfitting kompromittiert wurde, kann das Modell seinen Wert als Vorhersageinstrument für Investitionen verlieren.
  • Ein Datenmodell kann auch underfitting sein, d. h. es ist zu einfach mit zu wenigen Datenpunkten, um effektiv zu sein.
  • Überanpassung ist ein häufigeres Problem als Unteranpassung und tritt typischerweise auf, wenn versucht wird, eine Überanpassung zu vermeiden.

Überanpassung verstehen

Ein häufiges Problem besteht beispielsweise darin, Computeralgorithmen zu verwenden, um umfangreiche Datenbanken mit historischen Marktdaten zu durchsuchen, um Muster zu finden. Bei ausreichendem Studium ist es oft möglich, ausgeklügelte Theoreme zu entwickeln, die die Renditen am Aktienmarkt mit großer Genauigkeit vorhersagen.

Bei Anwendung auf Daten außerhalb der Stichprobe können sich solche Theoreme jedoch wahrscheinlich nur als Überanpassung eines Modells an das in Wirklichkeit nur zufällige Vorkommnisse erweisen. In allen Fällen ist es wichtig, ein Modell anhand von Daten zu testen, die außerhalb der für die Entwicklung verwendeten Stichprobe liegen.

So verhindern Sie eine Überanpassung

Zu den Möglichkeiten, eine Überanpassung zu verhindern, gehört die Kreuzvalidierung, bei der die zum Trainieren des Modells verwendeten Daten in Falten oder Partitionen zerlegt werden und das Modell für jede Faltung ausgeführt wird. Dann wird die Gesamtfehlerschätzung gemittelt. Andere Methoden sind Ensembling: Vorhersagen werden aus mindestens zwei separaten Modellen kombiniert, Data Augmentation, bei der der verfügbare Datensatz vielfältig aussieht, und Data Simplification, bei der das Modell gestrafft wird, um eine Überanpassung zu vermeiden.



Finanzexperten müssen sich immer der Gefahren einer Über- oder Unteranpassung eines Modells auf der Grundlage begrenzter Daten bewusst sein. Das ideale Modell sollte ausgewogen sein.

Überanpassung beim maschinellen Lernen

Overfitting ist auch ein Faktor beim maschinellen Lernen. Es kann auftreten, wenn einer Maschine beigebracht wurde, nach bestimmten Daten in eine Richtung zu suchen, aber wenn der gleiche Prozess auf einen neuen Datensatz angewendet wird, sind die Ergebnisse falsch. Dies liegt an Fehlern im erstellten Modell, da es wahrscheinlich einen geringen Bias und eine hohe Varianz aufweist. Das Modell hatte möglicherweise redundante oder überlappende Funktionen, was dazu führte, dass es unnötig kompliziert und damit ineffektiv wurde.

Überanpassung vs. Unteranpassung

Ein überangepasstes Modell kann zu kompliziert und damit ineffektiv sein. Ein Modell kann aber auch untergeordnet sein, d. h. es ist zu einfach, mit zu wenigen Funktionen und zu wenigen Daten, um ein effektives Modell zu erstellen. Ein Overfit-Modell hat einen niedrigen Bias und eine hohe Varianz, während ein Underfit-Modell das Gegenteil ist – es hat einen hohen Bias und eine niedrige Varianz. Das Hinzufügen weiterer Funktionen zu einem zu einfachen Modell kann dazu beitragen, Verzerrungen zu begrenzen.

Überanpassungsbeispiel

Zum Beispiel beschließt eine Universität, deren Abbrecherquote höher ist als gewünscht, ein Modell zu entwickeln, um die Wahrscheinlichkeit vorherzusagen, dass ein Bewerber den Abschluss bis zum Abschluss schafft.

Dazu trainiert die Universität ein Modell aus einem Datensatz von 5.000 Bewerbern und deren Ergebnissen. Anschließend führt es das Modell auf dem ursprünglichen Datensatz aus – der Gruppe von 5.000 Bewerbern – und das Modell sagt das Ergebnis mit einer Genauigkeit von 98 % voraus. Um die Genauigkeit zu testen, führen sie das Modell auch mit einem zweiten Datensatz aus – 5.000 weiteren Bewerbern. Diesmal ist das Modell jedoch nur zu 50% genau, da das Modell zu eng an eine enge Datenteilmenge angepasst war, in diesem Fall die ersten 5.000 Anwendungen.