Blog
  • INWT
  • Blog
  • Bestimmtheitsmaß R² - Teil 2: Was ist das eigentlich, ein R²?

Bestimmtheitsmaß R² - Teil 2: Was ist das eigentlich, ein R²?

30.06.2014 10:00
von Verena Pflieger

Das R² ist ein Gütemaß der linearen Regression. Doch was bedeutet das?

In der praktischen Arbeit mit Daten gibt es meist eine bestimmte gemessene Größe (abhängige Variable y), deren Schwankung (Varianz) mit Hilfe anderer Größen (unabhängige Variablen x) erklärt werden soll. Je nach Anzahl an unabhängigen Variablen handelt es sich um eine einfache Regression (eine unabhängige Variable) oder eine multiple Regression (mehrere unabhängige Variablen). Häufig wird aufgrund des ermittelten Zusammenhangs eine Vorhersage (oder Prognose) für die abhängige Variable erstellt.

Beispiele sind:

  • die Erklärung des Gewichts einer Person (y) durch die Körpergröße (x),
  • die Vorhersage der Reaktionszeit (y) durch die Dosierung eines Medikaments (x),
  • die verkaufte Menge an Eis (y) in Abhängigkeit der Tageshöchsttemperatur (x),
  • ...

Eine einzelne Beobachtung \( y_i \) lässt sich dann berechnen als die Summe aus dem vorhergesagten Wert \( \hat{y_i} \) und der Abweichung zwischen beobachtetem und vom Modell vorhergesagten Wert \( e_i \) (Fehler bzw. Residuum):

$$ y_i = \hat{y_i} + e_i $$

 

Die Frage ist, wie gut die unabhängigen Variablen geeignet sind, um die Varianz der abhängigen zu erklären bzw. deren Werte vorherzusagen. Hier kommt das R² ins Spiel. Es ist eine Maßzahl, die nicht kleiner als 0 und nicht größer als 1 werden kann. Da das R² ein Anteilswert ist, wird es auch häufig in Prozent angegeben.

Formel zur Berechnung des R²:

$$ R^2 = \frac{\sum_{i = 1}^n (\hat{y_i} - \bar{y})^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = \frac{\text{erklärte Variation}}{\text{Gesamtvariation}}$$

oder

$$ R^2 = 1 - \frac{\sum_{i=1}^n e_i^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = 1 - \frac{\text{unerklärte Variation}}{\text{Gesamtvariation}} $$

wobei n die Anzahl der Beobachtungen ist.

Wenn eine Regression ein R² nahe 0 besitzt, bedeutet dies, dass die gewählten unabhängigen Variablen nicht gut dazu geeignet sind, die abhängige Variable vorherzusagen. Man spricht dann auch von einer schlechten Modellanpassung ("poor model fit"). Die folgende Grafik veranschaulicht diesen Fall für eine einfache Regression.

 

 

Die blauen Punkte stellen die gemessene Größe \(y\) dar; die rote Linie veranschaulicht die durch das Modell bzw. die unabhängige Variable vorhergesagten Werte \( \hat{y} \).

Formal ausgedrückt bedeutet ein R2 von 0:

$$ \sum_{i=1}^n (y_i - \bar{y})^2 = \sum_{i=1}^n e_i^2 \, \text{bzw. Gesamtvariation = unerklärte Variation,} $$

wobei n die Anzahl der Beobachtungen ist.

Besitzt eine Regression ein R² nahe 1, bedeutet dies, dass die unabhängigen Variablen gut geeignet sind, die abhängige Variable vorherzusagen. Das Modell besitzt eine gute Anpassungsgüte ("good model fit"). Dieser Fall ist in der folgenden Grafik für eine einfache Regression veranschaulicht.

Die blauen Punkte stellen die gemessene Größe \(y\) dar; die rote Linie veranschaulicht die durch das Modell bzw. die unabhängige Variable vorhergesagten Werte \(\hat{y}\).

Formal ausgedrückt bedeutet ein R² von 1:

$$ \sum_{i=1}^n e_i^2 = 0 \, \text{bzw. unerklärte Variation} \, = 0 $$

wobei n die Anzahl der Beobachtungen ist. In diesem Fall lägen alle Punkte genau auf der Regressionsgerade. Das Modell wäre perfekt im Sinne, dass die unabhängigen Variablen die abhängige Variable vollständig erklären. Ein solches Modell erstellt eine "perfekte" Prognose.

Die beiden Grafiken weisen auf einen entscheidenden Aspekt des R² hin: Das R² ist ein Gütemaß zum Beschreiben eines linearen Zusammenhangs. Im ersten Fall liegt ein quadratischer Zusammenhang zwischen unabhängiger und abhängiger Variable vor, daher bietet die einfache lineare Regression keine Möglichkeit, die beobachteten Werte zu erklären. Neben der Verwendung einer komplizierteren Modellklasse bestünde eine einfache Lösung darin, als erklärende Variable x² statt x zu verwenden.

Im zweiten Fall liegt ein linearer Zusammenhang zwischen unabhängiger und abhängiger Variable vor. Diese Beziehung lässt sich durch die lineare Regression hervorragend bestimmen; das R² ist nahe 1.

Die folgende Grafiksammlung zeigt verschiedene Streudiagramme in Abhängigkeit des Wertes des R². Je eher die Datenpunkte auf einer Linie liegen, desto höher ist das R². Streuen die Datenpunkte ohne Zusammenhang im Raum, liegt das R² nahe 0.

 

Ein Aspekt, der zur Beliebtheit des R² entscheidend beigetragen hat, ist seine einfache Interpretation: Das R² gibt den Anteil der Varianz der abhängigen Variablen an, der durch die unabhängigen Variablen erklärt werden kann. Im Beispiel des linearen Zusammenhangs erklärt die Variable x also rund 93% der Varianz der Variablen y. Es sei darauf hingewiesen, dass die Höhe des R² je nach Fachrichtung und Analyseebene stark variieren kann. Teil 5 der Artikelserie thematisiert diesen Aspekt und beantwortet, wie hoch ein "gutes" R² sein sollte bzw. sein kann.

Fazit

Das R² ist ein Gütemaß der linearen Regression. Es gibt an, wie gut die unabhängigen Variablen dazu geeignet sind, die Varianz der abhängigen zu erklären. Das R² liegt immer zwischen 0% (unbrauchbares Modell) und 100% (perfekte Modellanpassung). Zu beachten ist, dass das R² ein Gütemaß zum Beschreiben eines linearen Zusammenhangs darstellt. Es lässt sich leicht interpretieren als der Anteil der Varianz der abhängigen Variablen (erklärte Variable), der durch die unabhängigen Variablen (erklärende Variablen) erklärt werden kann.

Weitere Teile der Artikelserie über das Bestimmtheitsmaß R²:

Zurück