Huhu an alle!
Ich habe folgende Frage und ich hoffe, ihr könnt mir weiterhelfen:
Ich führe bei meiner Datenauswertung eine logistische Regression durch, bei der meine abhängige Variable nur zwei Ausprägungen hat (vorhanden / nicht vorhanden). Nun habe ich als unabhängige Variablen aber auch ordinale Daten (z. B. Familienstand, Einkommen in Kategorien abgefragt, Bildung und Beruf).
Das Problem ist nun, dass bei den verschiedenen unabhängigen Variablen auch Ausprägungen vorhanden sind, die nur sehr gering vertreten sind. So sind z. B. bei der Variable Familienstand 166 Personen alleinstehend, 233 in einer Partnerschaft, 205 verheiratet. Es sind aber nur 7 Personen getrennt lebend und 23 geschieden (insgesamt besteht die Stichprobe aus 645 Personen). Beim Beruf ist es so, dass 240 Leute angestellt sind, 150 sind Studenten, und die anderen Ausprägungen sind alle weniger als 100 Personen.
Wie gehe ich nun damit um? Mache ich jeweils für die Ausprägungen, bei denen genügend Fälle vorhanden sind Dummy Variablen? Also bei Familienstand eine für alleinstehend (mit Ausprägung 0/1), eine für in einer Partnerschaft (mit 0/1) und und eine für verheiratet (mit 0/1) und lasse die andere Familienstände einfach weg? Oder fasse ich die Variable zusammen in "in einer Partnerschaft" (dazu gehören auch alle verheirateten) und "nicht in einer Partnerschaft" (geschiedene, alleinstehende, getrennt lebende)?
Oder gehe ich bei der logistischen Regression so vor, dass ich als Referenzkategorie jeweils die Ausprägung mit der größten Fallzahl verwende? Und die geringen Fallzahlen sind egal?
Danke schonmal für eure Antworten im Voraus!
Liebe Grüße