Bestimmtheitsmaß R² - Teil 5: Wie hoch muss mein R² sein?

2014-07-18by Verena Pflieger

Eine typische Frage in der statistischen Beratung ist die folgende: "Wie hoch muss mein R² sein?" "Das kommt darauf an…!" ist die Antwort. So unbefriedigend diese Antwort auch ist, gerade in Bezug auf das R² könnte sie wahrer nicht sein.

Je nach Disziplin sind unterschiedliche Größen des R² üblich. In Bereichen wie dem klassischen Marketing, in denen es hauptsächlich darum geht, menschliches Verhalten zu erklären bzw. vorherzusagen, sind meist geringe R² (deutlich kleiner 50%) zu erwarten. In anderen Bereichen wie bspw. der Physik sind weit höhere R² die Regel. Dies ist wenig überraschend, da auf das menschliche Verhalten zahlreiche und häufig nicht direkt messbare Einflüsse wirken. In der Physik hingegen werden oft Zusammenhänge zwischen wenigen exakt messbaren Größen untersucht. Dies geschieht zusätzlich meist unter experimentellen Bedingungen, unter denen sich Störeinflüsse minimieren lassen.

Ähnliches lässt sich über die Auswirkung der Analyseebene auf das R² sagen: Vorhersagen auf der Mikroebene sind schwieriger, da sie sich auf das Verhalten einzelner Personen/Untersuchungseinheiten beziehen. Findet allerdings eine Modellanpassung auf Makroebene statt, so fällt diese oft besser aus. Der dahinterliegende Mechanismus lässt sich grob wie folgt beschreiben: Vorhersagefehler, die z.B. aufgrund der Komplexität des menschlichen Verhaltens auf der Mikroebene existieren, kommen im Idealfall nicht systematisch zustande. D.h. es handelt sich sowohl um positive als auch negative Abweichungen von der Regressionsgeraden. Die Varianzaufklärung hingegen ist systematisch. Werden Vorhersagen, die auf Individualebene getroffen wurden aggregiert, so kompensieren sich zunehmend die unsystematischen Fehler zwischen den Individuen und die systematische Tendenz in die „richtige Richtung“ tritt im Aggregt immer deutlicher hervor.

Der Effekt der Aggregation beim Übergang von der Mikro- auf die Makro-Ebene soll an einem Beispiel illustriert werden: Die Daten zeigen das R² eines Modells, welches die Anzahl der Kundenkontakte in einem Support-Center prognostizieren soll. Ziel ist eine bedarfsgerechte Personalplanung, die gewährleistet, dass Kundenanfragen kurzfristig bearbeitet werden können. Während Unterbesetzung zu Wartezeiten für die Kunden führt, sind zu hohe Kosten - und somit Unwirtschaftlichkeit - die Konsequenz einer Überbesetzung. Die x-Achse zeigt die Aggregation. Im linken Teil wird für jeden einzelnen Kunden prognostiziert, ob und ggf. wie oft er den Kontakt sucht. Das R² ist in diesem Fall mit ca. 10% nach gängigen Erwartungen eher gering. Für die Personalplanung spielt es jedoch im Idealfall keine Rolle, welcher Kunde eine Anfrage stellt. Wichtig ist - solange jeder Mitarbeiter die Anfragen aller Kunden bearbeiten kann - nur die Gesamtzahl der Anfragen. Wird auf der selben Datenbasis eine Prognose für die Anzahl der von allen (in diesem Beispiel sind es 500) Kunden generierten Supportanfragen geschätzt, so erreicht dieses ein R² von über 95% (rechter Teil der Grafik). Die Fälle zwischen Mikro- (links) und Makro-Ebene (rechts) stellen Mischszenarien dar: Sind die Supportmitarbeiter in Teams eingeteilt, die jeweils so weit spezialisiert sind, dass sie nur die Anfragen bestimmter Kunden beantworten können, müssen separate Modelle für die einzelnen Kundengruppen bzw. Teams geschätzt werden. Der mittlere Teil der Grafik zeigt, wie sich das R² in diesem Fall in Abhängigkeit von der Zahl der zusammengafassten Kunden entwickelt.

R² nach Anzahl der Kunden

Während auf der Mikro-Ebene - je nach Datenlage - in vielen Fällen bereits ein R² von 10% als gut gelten kann, erwarten viele bei stärker aggregierten Daten ein R² von 40% bis 80% oder sogar mehr. Es bleibt zu erwähnen, dass ein Modell mit geringem R² - selbst bei stärker aggregierten Daten - nicht nutzlos sein muss, da die Alternative dazu oft gar kein Modell darstellt, was einem R² von 0 entspricht. Im übertragenen Sinne bedeutet das, dass eine systematische Prognose auf Basis eines Modells mit beschränktem R² oft schon besser ist als eine unsystematische Planung, die ausschließlich auf Bauchgefühl setzt.

Fazit

Die übliche Größenordnung des R² variiert, je nach dem um welches Anwendungsgebiet es sich handelt. Ebenso sind für Modelle auf Mikro- und Makroebene unterschiedliche R² zu erwarten. Generell ist die Aussagekraft von Modellen mit geringem R² nicht zwangsläufig schlecht.

Weitere Teile der Artikelreihe:

Blog

2014-07-14by Verena Pflieger

Bestimmtheitsmaß R² - Teil 4: Das korrigierte R²

Blog

2014-07-07by Verena Pflieger

Bestimmtheitsmaß R² - Teil 3: Die Varianzzerlegung

Blog

2014-06-23by Verena Pflieger

Bestimmtheitsmaß R² - Teil 1: Worum es eigentlich geht…

Blog

2014-06-23by Verena Pflieger