Blog
  • INWT
  • Blog
  • Bestimmtheitsmaß R² - Teil 3: Die Varianzzerlegung

Bestimmtheitsmaß R² - Teil 3: Die Varianzzerlegung

07.07.2014 10:00
von Verena Pflieger

Das R² ist ein Gütemaß der linearen Regression (s. Teil 1 und Teil 2 der Artikelserie über das Bestimmtheitsmaß). Ein wichtiges Konzept zum Verstehen des Bestimmtheitsmaß R² ist die Varianzzerlegung.

Allein unter Kenntnis der gemessenen Größe \( y \) ist die naivste Vorhersage bzw. Schätzung für eine neue Beobachtung \( y_i \) , die man anstellen kann, der Mittelwert eben jener Größe, \( \bar{y} \) (i bezeichnet in diesem Fall eine spezielle Beobachtung). Die Varianz einer Variablen beschreibt in diesem Sinne die Abweichungen der Beobachtungen vom Mittelwert. Durch Hinzunahme einer oder mehrerer unabhängiger Variablen können wir die Vorhersage der abhängigen Variablen verbessern, indem das Wissen um den Zusammenhang eben dieser Variablen mit \( y \) in die Prognose einbezogen wird. Es resultiert eine neue Regressionsgerade, die den wahren Beobachtungen näher kommt. Trotzdem bleibt in der Praxis immer ein Rest an Varianz, der auch durch die unabhängigen Variablen nicht erklärt werden kann. Die Abweichung einer Beobachtung von der Regressionsgeraden nennt sich Fehler bzw. Residuum \( e_i \).

Die folgende Grafik veranschaulicht dieses Konzept anhand einer einfachen Regression:

Die blauen Punkte stellen die gemessene Größe \( y_i \) dar, die horizontale Linie kennzeichnet den Mittelwert \( \bar{y} \) der abhängigen Variablen und die geneigte Linie veranschaulicht die durch das Modell bzw. die unabhängige Variable vorhergesagten Werte \( \hat{y} \).

  • Die vertikale orangene Linie gibt die Gesamtabweichung einer beispielhaft ausgewählten Beobachtung \( y_i \) zum Mittelwert \( \bar{y} \) an – diesen Fehler würden wir machen, wenn wir mit dem Mittelwert \( \bar{y} \) die entsprechende Beobachtung \( y_i \) vorhersagen würden.
  • Erklärte Abweichung: Die vertikale blaue Linie kennzeichnet die Abweichung der Regressionsgeraden zum Mittelwert – diesen Fehler können wir durch Hinzunahme der unabhängigen Variablen x vermeiden.
  • Unerklärte Abweichung/Residuum: Die vertikale rote Linie gibt die Abweichung der speziellen Beobachtung \( y_i \) zur Regressionsgeraden an (Residuum \( e_i \)) – diesen Teil der Abweichung können wir auch durch Hinzunahme der unabhängigen Variablen x nicht vermeiden. Dabei ist zu beachten, dass die Residuen zufällig um die Regressionsgerade streuen sollten. Tun sie das nicht, ist von einer Fehlspezifikation des Modells auszugehen.

Das Prinzip der Varianzzerlegung spiegelt sich auch in der Formel zur Berechnung des R² wider:

$$ R^2 = \frac{\sum_{i = 1}^n (\hat{y_i} - \bar{y})^2}{\sum_{i = 1}^n (y_i - \bar{y})^2} = \frac{\text{erklärte Variation}}{\text{Gesamtvariation}} $$

oder

$$ R^2 = 1 - \frac{\sum_{i = 1}^n e_i^2}{\sum_{i = 1}^n (y_i - \bar{y})^2} = 1 - \frac{\text{unerklärte Variation}}{\text{Gesamtvariation}}  $$

wobei n die Anzahl der Beobachtungen ist.

Fazit

Die naivste Vorhersage eines Merkmals für eine bestimmte unbekannte Beobachtung ist der Mittelwert über das Merkmal aller vorhandenen Beobachtungen. Die Nutzung der Information aus zusätzlichen (unabhängigen) Variablen im Rahmen eines Regressionsmodells kann helfen, diese Schätzung zu verfeinern und somit genauere Vorhersagen (Prognosen) zu treffen. Diese Verbesserung des Modells lässt sich am Bestimmtheitsmaß R² festmachen. Allerdings stimmen vorhergesagter Wert und beobachteter Wert in den seltensten Fällen exakt überein. In der Praxis bleibt immer eine Restabweichung des Punktes von der Regressionsgeraden – das Residuum. Bei einer korrekten Spezifikation des Modells sollten die Residuen zufällig um die Regressionsgerade streuen. Das R² nutzt das Konzept der Varianzzerlegung. Es besagt, dass sich die Varianz der abhängigen Variablen in erklärte Varianz und nicht erklärte Varianz (Residualvarianz) zerlegen lässt.

Zurück