Blog
  • INWT
  • Blog
  • Bestimmtheitsmaß R² - Teil 1: Worum es eigentlich geht...

Bestimmtheitsmaß R² - Teil 1: Worum es eigentlich geht...

23.06.2014 10:00
von Verena Pflieger

Das R² ist ein Gütemaß der linearen Regression. Die lineare Regression beschreibt den Zusammenhang zwischen einer oder mehreren sog. unabhängigen (oder erklärenden) Variablen und einer abhängigen Variablen. Handelt es sich um eine Regression mit einer unabhängigen Variablen, so spricht man von einer einfachen Regression, bei mehreren unabhängigen Variablen, von einer multiplen Regression. Das R² gibt an, wie gut die unabhängige(n) Variable(n) geeignet sind, die Varianz der abhängigen zu erklären. Das R² liegt immer zwischen 0% (unbrauchbares Modell) und 100% (perfekte Modellanpassung). Zu beachten ist, dass das R² ein Gütemaß zum Beschreiben eines linearen Zusammenhangs darstellt (s. Teil 2: Was ist das eigentlich, ein R²?).

Das R² lässt sich leicht interpretieren als der Anteil der Varianz der abhängigen Variablen (erklärte Variable), der durch die unabhängigen Variablen (erklärende Variablen) erklärt werden kann. Das dahinterliegende Konzept ist die Varianzzerlegung (s. Teil 3: Die Varianzzerlegung).

Ein Kritikpunkt am R² ist die Möglichkeit, durch Aufnahme zahlreicher (auch unsinniger) Variablen in die Regression das R² in die Höhe zu treiben (engl. "kitchen sink regression"). Dies widerspricht dem Sparsamkeitsprinzip (engl. "Occam‘s razor"), nach dem ein Modell nur notwendige Variablen beinhalten sollte. Ein Gütemaß, welches beides, Modellanpassung und Sparsamkeit, in Betracht zieht, ist das sogenannte korrigierte R² (auch: adjustiertes, bereinigtes oder angepasstes R²). Es nimmt in der Regel einen geringeren Wert als das einfache R² an und kann in manchen Fällen sogar negativ werden (s. Teil 4: Das korrigierte R²).

Neben dem oben vorgestellten einfachen und korrigierten R² existieren weitere Gütemaße. Dazu zählen das Pseudo-R², welches hauptsächlich für komplexere Modelle genutzt wird (hierarchische Modelle, generalisierte lineare Modelle,…), oder Informationkriterien basierend auf Log-Likelihood-Schätzungen (AUC, BIC, …). Letztere dienen vornehmlich dem Vergleich von Modellen.

Die Frage danach, bei welchem Wert des R² es sich um ein akzeptables Modell handelt, lässt sich nicht pauschal beantworten. Die übliche Größenordnung des R² variiert je nach Anwendungsgebiet. Ebenso sind für Modelle auf Mikro- und Makroebene unterschiedliche R² zu erwarten. Generell ist die Aussagekraft von Modellen mit geringem R² nicht zwangsläufig schlecht (s. Teil 5: Wie hoch muss mein R² sein?).

Weitere Teile der Artikelserie über das Bestimmtheitsmaß R²:

Zurück