Von Pontius zu Pilatus mit Regression!

Regressionsmodelle aller Art mit SPSS.

Von Pontius zu Pilatus mit Regression!

Beitragvon Nanina » Mo 11. Apr 2022, 13:30

Hallo zusammen,

ich habe ein Problem nach dem anderen mit meinen Regressionsmodellen.

Ich habe zwei Modelle, einmal ist das Kriterium der physische Zustand (PHY) und einmal ist es der psychische Zustand (PSY). Die Prädiktoren orientieren sich an sowohl theoretischen Überlegungen als auch Korrelation mit dem Kriterium. Im PHY-Modell befinden sich zwei Prädiktoren, im PSY-Modell neun. N=153, aber es fließen durch Missings nur 138 in die Regression ein.

Ein wesentliches Problem hierbei ist, dass ich hier eine (medizinische) Doktorarbeit betreue, und die Regressionen nur ein Teil der Rechnungen sind. Mein Doktorand fällt ins Koma, wenn die Statistik zu schwierig wird :?

Problem 1: Diverse Voraussetzungen sind verletzt.
A) Offenbar sind Ausreißer vorhanden: Mahalanobis-Abstand und der zentrierte Hebelwert zeigen Ausreißer an.
:arrow: Im PHY-Modell ist der maximale Wert für Mahalanobis= 27 (Mittelwert 2). "Erlaubt" wäre bei 2 Prädiktoren max. 13,816. Der höchste Wert für die Cook-Distanz ist 0,042, also habe ich zwar multivariate Ausreißer, aber sie spielen keine Rolle? Ich habe mir die Ausreißer angeguckt, es sind alles legitime Daten... Die Verteilung des einen Prädiktors ist nur sehr rechtsschief. Der zentrierte Hebelwert zeigt aber auch Ausreißer an, mit einem Maximum von 0,2, wobei nach der Formel 2*k/N (k=Prädiktoren im Modell) das Maximum nur bei 0,03 liegen dürfte. Bootstrapping hilft hier nicht, die Werte bleiben exakt gleich. Gucke ich in die gespeicherten Werte für MAH_1 und LEV_1, so sind es nur zwei Werte, die über den Grenzwerten liegen. Und es sind im technischen Sinne auch "Ausreißer", weil es innerhalb der Stichprobe hohe Werte sind, aber die sind absolut legitim und können daher auch nicht ausgeschlossen werden. Cook-Distanz für den höheren Wert ist 0,03 und für den niedrigeren 0,06, also scheinen sie auch keinen großen Einfluss zu haben.
:arrow: Im PSY-Modell ist der Mahalanobis-Abstand= 31 (Mittelwert 9). "Erlaubt" wäre bei 9 Prädiktoren max. 27,877. Hebelwert ist max.=0,22 und überschreitet auch hier das erlaubte Maximum von 2*k/N=0,13. Hier gibt es wieder zwei Ausreißer nach Mahalanobis und 10 Ausreißer nach dem zentrierten Hebelwert, erkennbar in MAH_2 und LEV_2, alles legitime Daten. Die Cook-Distanz für diese Ausreißer ist max. 0,08, teils deutlich darunter. Also auch hier: Ausreißer, aber egal?

Was mache ich nun damit? Ignorieren, da alles legitime Daten sind, und offenbar laut Cook-Distanz nichts davon wirklich einflussreich ist?

B) Homoskedastizität ist verletzt
Für PHY: Im Streudiagramm (SRESID x ZPRED) gibt es Ausreißer nach rechts, mit Fantasie ist eventuell eine Trichterform zu erkennen.
Für PSY: Sieht im Streudiagramm gut aus

Das Problem der Heteroskedastizität bei PHY würde ich gerne via Bootstrapping lösen, aber das bringt mich zurück zu einem anderen Problem, welches ich hier vor wenigen Tagen schon gepostet habe, zu dem aber offenbar auch keiner was weiß:

Problem 2:
:arrow: 1. Bootstrapping funktioniert nur bei Enter/Einschluss. Warum? Keine Ahnung.

Wäre auch kein Problem, rechne ich halt mit Enter. ABER, Plot Twist: Laut "Weisung von oben" soll so verfahren werden: "Erst mit der Vorwärts-Methode rechnen, und dann mit der Rückwärts-Methode, und wenn die sich nicht unterscheiden, dann Vorwärts nehmen". Die Sinnhaftigkeit dieser Anweisung vermag ich nicht vollständig zu beurteilen, habe aber meine Zweifel. Über die Wahl der richtigen Methode in Regressionen wird anscheinend heftig gestritten, soweit ich das der Literatur entnehmen kann, aus der Richtung bekomme ich also auch keine argumentative Rettung.

Aber der Umstand, dass ich das nicht mit Bootstrapping rechnen kann, ist nicht das einzige Problem, denn...

Problem 3:
:arrow: 2. Vorwärts und Rückwärts geben drastisch unterschiedliche Ergebnisse raus. Die Vorwärts-Ergebnisse sehen sinnvoll aus, alle signifikant angegebenen Prädiktoren haben keine Null im Konfidenzintervall und die ANOVA zeigt für das Modell einen signifikanten Wert an (p<.001), Varianzaufklärung von 58,2% (56% korrigiert). So weit, so gut. Die Ergebnisse stimmen überein mit den Werten, die mit der Einschluss-Methode oder Schrittweise-Methode ausgegeben werden. Bei der Rückwärts-Methode werden allerdings alle Prädiktoren rausgeworfen. Und jetzt? Ich kann mir nicht erklären, warum das so ist und/oder was das für die Güte der anderen Modelle bedeutet.

Das ist wirklich viel, und es hat schon geholfen, es für mich selbst aufzuschreiben... Aber falls irgendwer einen Tipp hat, immer her damit. Ich beschäftige mich jetzt schon seit Wochen immer wieder damit und kriege einfach nicht die Kurve!

Vielen Dank!
Nanina
Nanina
 
Beiträge: 8
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von Pontius zu Pilatus mit Regression!

Beitragvon ponderstibbons » Mo 11. Apr 2022, 15:34

Zu Ausreißern kann ich nichts sagen, fand ich für die Durchführung und Ergebnisse von Regressionsanalysen bisher nie relevant,
sofern kein Fehler vorlag.

Bei Heteroskedaszität kann man robuste Standardfehler verwenden https://www.ibm.com/support/pages/can-i ... rrors-spss

Schrittweise automatisierte Variablenselektion ist verboten. Es erzeugt unzuverlässige bzw. glatt falsche Ergebnisse.
https://towardsdatascience.com/stopping ... 818b3f52df
https://statmodeling.stat.columbia.edu/ ... egression/ (mit einer Erwähnung auch von outlier detection)

Mit freundlichen Grüßen

PonderStibbons
ponderstibbons
 
Beiträge: 2523
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts

folgende User möchten sich bei ponderstibbons bedanken:
strukturmarionette

Re: Von Pontius zu Pilatus mit Regression!

Beitragvon Nanina » Di 12. Apr 2022, 23:15

Vielen Dank! Dann vergesse ich das mit den Ausreißern mal aus mehreren Gründen und lese mir die Links weiter durch.

Mal eine "blöde Frage": Fallen alle Regressions-Methoden außer "Einschluss" unter "Schrittweise"? Aus allem was ich bisher gelesen habe, geht das nie so richtig eindeutig hervor.

Und wie steht man unter Statistikfreunden dazu, ein Modell sowohl einmal "ganz korrekt" als auch einmal "möglichst simpel" zu rechnen und bei ausreichender Deckungsgleichheit der Ergebnisse die simple Variante zu wählen? Ich denke da an meinen Doktoranden...
Nanina
 
Beiträge: 8
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von Pontius zu Pilatus mit Regression!

Beitragvon ponderstibbons » Mi 13. Apr 2022, 08:25

Schrittweise bezeichnet meistens schrittweise Variablenselektion. Es gibt auch hierarchisch,
dabei fügt man geplant in mehreren Stufen Prädiktoren hinzu.
Und wie steht man unter Statistikfreunden dazu, ein Modell sowohl einmal "ganz korrekt" als auch einmal "möglichst simpel" zu rechnen und bei ausreichender Deckungsgleichheit der Ergebnisse die simple Variante zu wählen? Ich denke da an meinen Doktoranden...

Ich weiß leider nicht, was ganz korrekt versus möglichst simpel im konkreten Fall bedeutet.

Mit freundlichen Grüßen

PonderStibbons
ponderstibbons
 
Beiträge: 2523
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts

Re: Von Pontius zu Pilatus mit Regression!

Beitragvon Nanina » Do 14. Apr 2022, 17:39

Ich wage es tatsächlich, das zu beantworten ;)

Ich meine mit "ganz korrekt" sowas wie die Maßnahmen nach z.B. Verletzungen der Voraussetzungen. BoxCox-Transformationen, gewichtete Regression, etc.. Eben alle Maßnahmen, die man eben so macht, wenn etwas nicht ist, wie es sein soll, damit man von einem sauberen Ergebnis ausgehen kann.

Und möglichst simpel würde bedeuten, diese Maßnahmen wegzulassen. Quick & Dirty, wenn man so will, und ohne weitere Kontrolle eventuell dann halt falsch :?

Und dann zu schauen, ob die Berücksichtigung der notwendigen Vorkehrungen überhaupt einen Unterschied hinsichtlich des am Ende herauskommenden Modells macht.

Hört sich an wie eine Fangfrage, aber tatsächlich habe ich schon mehr als einmal gesehen, dass es Umstände gibt, in denen es keinen Unterschied macht. Erfahrungsgemäß tendiert man dann auch beim Publizieren durchaus dazu, die "Variante für Doofe" zu berichten. Und an die Reviewer zu schreiben "ja, haben wir alles gecheckt, hat aber keinen Unterschied gemacht". Dann sind meistens alle Seiten happy. Bis auf die Statistiker, nehme ich an ;)

Schöne Grüße
Nanina
Nanina
 
Beiträge: 8
Registriert: Fr 11. Apr 2014, 12:10
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Von Pontius zu Pilatus mit Regression!

Beitragvon ponderstibbons » Do 14. Apr 2022, 18:37

Ob Statistiker das happy macht, weiß ich nicht, ich kenne keinen. Ich weiß auch nicht, worauf das im konkreten
Fall hinauslaufen soll. Die Heteroskedaszität zu ignorieren? Dazu kann ich nichts sagen. Nötig wäre es nicht,
weil es ein Mittel gibt. Alle anderen Annahmen scheinen hier ja nicht grob verletzt zu sein.

Das Hauptproblem bei vielen Studien sind Scheiß-Messverfahren und -Messinstrumente und viel zu kleine
Stichprobengrößen, nicht so sehr die statistischen Analysen.

Mit freundlichen Grüßen

PonderStibbons
ponderstibbons
 
Beiträge: 2523
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts


Zurück zu Regressionsmodelle

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste

cron