Hallo zusammen,
ich habe ein Problem nach dem anderen mit meinen Regressionsmodellen.
Ich habe zwei Modelle, einmal ist das Kriterium der physische Zustand (PHY) und einmal ist es der psychische Zustand (PSY). Die Prädiktoren orientieren sich an sowohl theoretischen Überlegungen als auch Korrelation mit dem Kriterium. Im PHY-Modell befinden sich zwei Prädiktoren, im PSY-Modell neun. N=153, aber es fließen durch Missings nur 138 in die Regression ein.
Ein wesentliches Problem hierbei ist, dass ich hier eine (medizinische) Doktorarbeit betreue, und die Regressionen nur ein Teil der Rechnungen sind. Mein Doktorand fällt ins Koma, wenn die Statistik zu schwierig wird
Problem 1: Diverse Voraussetzungen sind verletzt.
A) Offenbar sind Ausreißer vorhanden: Mahalanobis-Abstand und der zentrierte Hebelwert zeigen Ausreißer an.
Im PHY-Modell ist der maximale Wert für Mahalanobis= 27 (Mittelwert 2). "Erlaubt" wäre bei 2 Prädiktoren max. 13,816. Der höchste Wert für die Cook-Distanz ist 0,042, also habe ich zwar multivariate Ausreißer, aber sie spielen keine Rolle? Ich habe mir die Ausreißer angeguckt, es sind alles legitime Daten... Die Verteilung des einen Prädiktors ist nur sehr rechtsschief. Der zentrierte Hebelwert zeigt aber auch Ausreißer an, mit einem Maximum von 0,2, wobei nach der Formel 2*k/N (k=Prädiktoren im Modell) das Maximum nur bei 0,03 liegen dürfte. Bootstrapping hilft hier nicht, die Werte bleiben exakt gleich. Gucke ich in die gespeicherten Werte für MAH_1 und LEV_1, so sind es nur zwei Werte, die über den Grenzwerten liegen. Und es sind im technischen Sinne auch "Ausreißer", weil es innerhalb der Stichprobe hohe Werte sind, aber die sind absolut legitim und können daher auch nicht ausgeschlossen werden. Cook-Distanz für den höheren Wert ist 0,03 und für den niedrigeren 0,06, also scheinen sie auch keinen großen Einfluss zu haben.
Im PSY-Modell ist der Mahalanobis-Abstand= 31 (Mittelwert 9). "Erlaubt" wäre bei 9 Prädiktoren max. 27,877. Hebelwert ist max.=0,22 und überschreitet auch hier das erlaubte Maximum von 2*k/N=0,13. Hier gibt es wieder zwei Ausreißer nach Mahalanobis und 10 Ausreißer nach dem zentrierten Hebelwert, erkennbar in MAH_2 und LEV_2, alles legitime Daten. Die Cook-Distanz für diese Ausreißer ist max. 0,08, teils deutlich darunter. Also auch hier: Ausreißer, aber egal?
Was mache ich nun damit? Ignorieren, da alles legitime Daten sind, und offenbar laut Cook-Distanz nichts davon wirklich einflussreich ist?
B) Homoskedastizität ist verletzt
Für PHY: Im Streudiagramm (SRESID x ZPRED) gibt es Ausreißer nach rechts, mit Fantasie ist eventuell eine Trichterform zu erkennen.
Für PSY: Sieht im Streudiagramm gut aus
Das Problem der Heteroskedastizität bei PHY würde ich gerne via Bootstrapping lösen, aber das bringt mich zurück zu einem anderen Problem, welches ich hier vor wenigen Tagen schon gepostet habe, zu dem aber offenbar auch keiner was weiß:
Problem 2:
1. Bootstrapping funktioniert nur bei Enter/Einschluss. Warum? Keine Ahnung.
Wäre auch kein Problem, rechne ich halt mit Enter. ABER, Plot Twist: Laut "Weisung von oben" soll so verfahren werden: "Erst mit der Vorwärts-Methode rechnen, und dann mit der Rückwärts-Methode, und wenn die sich nicht unterscheiden, dann Vorwärts nehmen". Die Sinnhaftigkeit dieser Anweisung vermag ich nicht vollständig zu beurteilen, habe aber meine Zweifel. Über die Wahl der richtigen Methode in Regressionen wird anscheinend heftig gestritten, soweit ich das der Literatur entnehmen kann, aus der Richtung bekomme ich also auch keine argumentative Rettung.
Aber der Umstand, dass ich das nicht mit Bootstrapping rechnen kann, ist nicht das einzige Problem, denn...
Problem 3:
2. Vorwärts und Rückwärts geben drastisch unterschiedliche Ergebnisse raus. Die Vorwärts-Ergebnisse sehen sinnvoll aus, alle signifikant angegebenen Prädiktoren haben keine Null im Konfidenzintervall und die ANOVA zeigt für das Modell einen signifikanten Wert an (p<.001), Varianzaufklärung von 58,2% (56% korrigiert). So weit, so gut. Die Ergebnisse stimmen überein mit den Werten, die mit der Einschluss-Methode oder Schrittweise-Methode ausgegeben werden. Bei der Rückwärts-Methode werden allerdings alle Prädiktoren rausgeworfen. Und jetzt? Ich kann mir nicht erklären, warum das so ist und/oder was das für die Güte der anderen Modelle bedeutet.
Das ist wirklich viel, und es hat schon geholfen, es für mich selbst aufzuschreiben... Aber falls irgendwer einen Tipp hat, immer her damit. Ich beschäftige mich jetzt schon seit Wochen immer wieder damit und kriege einfach nicht die Kurve!
Vielen Dank!
Nanina