Regression mit Dummyvariablen notwendig?

Allgemeine Fragestellungen zu Statistik mit SPSS.

Regression mit Dummyvariablen notwendig?

Beitragvon Himmel_blau » Di 9. Feb 2016, 17:59

Huhu an alle!

Ich habe folgende Frage und ich hoffe, ihr könnt mir weiterhelfen:
Ich führe bei meiner Datenauswertung eine logistische Regression durch, bei der meine abhängige Variable nur zwei Ausprägungen hat (vorhanden / nicht vorhanden). Nun habe ich als unabhängige Variablen aber auch ordinale Daten (z. B. Familienstand, Einkommen in Kategorien abgefragt, Bildung und Beruf).

Das Problem ist nun, dass bei den verschiedenen unabhängigen Variablen auch Ausprägungen vorhanden sind, die nur sehr gering vertreten sind. So sind z. B. bei der Variable Familienstand 166 Personen alleinstehend, 233 in einer Partnerschaft, 205 verheiratet. Es sind aber nur 7 Personen getrennt lebend und 23 geschieden (insgesamt besteht die Stichprobe aus 645 Personen). Beim Beruf ist es so, dass 240 Leute angestellt sind, 150 sind Studenten, und die anderen Ausprägungen sind alle weniger als 100 Personen.

Wie gehe ich nun damit um? Mache ich jeweils für die Ausprägungen, bei denen genügend Fälle vorhanden sind Dummy Variablen? Also bei Familienstand eine für alleinstehend (mit Ausprägung 0/1), eine für in einer Partnerschaft (mit 0/1) und und eine für verheiratet (mit 0/1) und lasse die andere Familienstände einfach weg? Oder fasse ich die Variable zusammen in "in einer Partnerschaft" (dazu gehören auch alle verheirateten) und "nicht in einer Partnerschaft" (geschiedene, alleinstehende, getrennt lebende)?
Oder gehe ich bei der logistischen Regression so vor, dass ich als Referenzkategorie jeweils die Ausprägung mit der größten Fallzahl verwende? Und die geringen Fallzahlen sind egal?

Danke schonmal für eure Antworten im Voraus!

Liebe Grüße
Himmel_blau
 
Beiträge: 3
Registriert: So 24. Jan 2016, 17:28
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Regression mit Dummyvariablen notwendig?

Beitragvon ponderstibbons » Mi 10. Feb 2016, 11:48

Du solltest Dir zunächst einmal Gedanken darüber machen, was Dich aus theoretischen bzw. aus Gründen der Vorhersage überhaupt interessiert.Ist es wichtig genau zu wissen, ob eine Person noch getrennt lebend oder schon geschieden ist? Ist der Familienstand überhaupt relevant (der sagt ja im Falle Geschiedener und Unverheirateter nichts über die Lebensumstände aus, man kann trotzdem in Partnerschaft sein)? Dein Gedanke
"in einer Partnerschaft" (dazu gehören auch alle verheirateten) und "nicht in einer Partnerschaft" (geschiedene, alleinstehende, getrennt lebende)?

ist also grundsätzlich richtig, nur das Einteilungskriterium ist unbrauchbar. Ähnliche Gedanken kannst Du Dir bei Bildung und Beruf machen.

Technisch wäre es wünschenswert, nicht viele Kategorien zu haben, weil es die Freiheitsgrade des Modells frisst.

Mit freundlichen Grüßen

P.
ponderstibbons
 
Beiträge: 2527
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron