Zunächst mal folgende allgemeine Informationen zum R² bei Regressionsanalysen:
Wenn eine Regression ein R² nahe 0 besitzt, bedeutet dies, dass die gewählten unabhängigen Variablen nicht gut geeignet sind, die abhängige Variable vorherzusagen. Man spricht dann auch von einer schlechten Modellanpassung ("poor model fit"). Die folgende Grafik veranschaulicht diesen Fall für eine einfache Regression.
Das R² ist ein Gütemaß der linearen Regression. Es gibt an, wie gut die unabhängigen Variablen geeignet sind, die Varianz der abhängigen zu erklären. Das R² liegt immer zwischen 0% (unbrauchbares Modell) und 100% (perfekte Modellanpassung)
Doch was ist, wenn man ein Modell entwickelt hat, dass zwar schlechte R² aufweist, die Werte der abhängigen Variable aber trotzdem gut vorhersagt?
Ich habe ein Modell mit vier unabhängigen Variablen entwickelt. In diesem Modell liegen die R² für UV 1 und UV 2 bei um die 0,1 bis 0,2, bei UV 3 um die 0,6 und bei UV 4 um die 0,3. Also sind alle unabhängigen Variablen, außer der dritten, eigentlich ziemlich schlecht geeignet, um die abhängige Variable gut vorherzusagen. Nichtsdestotrotz sagt mein Modell die Werte der abhängigen Variable im Schnitt mit nur 2 Prozentpunkten Abweichung voraus, was doch eigentlich ziemlich gut ist.
Ist die geringe Abweichung bei der Vorhersage nicht ein Beleg dafür, dass das Modell ziemlich gut ist, obwohl die R-Quadrate ziemlich schlecht sind?