Judith_W hat geschrieben:Nachdem ich den Befehl doppelte Fälle ermitteln ausgeführt habe, werden mir die fehlenden Fälle nach oben sortiert (die brauche ich nicht für meine Analysen). Muss ich diese dann ausschließen, bevor ich die neuen Variablen hinzufüge?
Zusätzlich sollen auch noch andere Fälle ausgeschlossen werden.
So einfach ist das nicht.
Zunächst einmal: Willst Du zwei Datensätze matchen, sollten mit "Daten/Fälle auswählen" nicht benötigte nicht benötigte Fälle nicht einfach ausgeschlossen (geflitert), sondern stattdessen gelöscht werden. Hierzu natürlich als neue Dateien speichern, um die alten für den Fall beizubehalten, dass Du zwischenzeitlich einen Fehler gemacht hattest.
Du musst Dir aber vorher vollkommen klar sein, was Du benötigst. Hast Du z.B. eine ID dreimal enthalten, kann es beispielsweise sein, dass
- genau diejenige als primär gekennzeichnet ist, die Du benötigst
- die tatsächlich benötigte ID als doppelter Fall gekennzeichnet ist und stattdessen die primäre nicht benötigt wird
- nur eine dieser IDs alle inhaltlichen Daten enthält und diese bei den anderen auf sysmis stehen
- jeweils alle doppelten IDs auch bei inhaltlchen Variablen identich sind
- Du mitunter doch einige oder alle doppelten Fälle benötigst, weil die Fälle tatsächlich unique sind und der einzige Fehler darin bestand, dass IDs doppelt vergeben wurden.
Manche der obigen Sachverhalte sind exklusiv, andere können gemeinsam in einem Datensatz zutreffen. Was bei Dir der Fall ist, lässt sich aus der Ferne nicht beurteilen, hierzu müsste man die Daten sehen. Eine konkrete Beschreibung, wie Du nun vorgehen musst, kann Dir daher niemand geben und Du musst Dir selbst die Daten genauer anschauen. Handelt es sich nur um wenige doppelte Fälle, kannst Du dies ggf. händisch überprüfen.
Ansonsten solltest Du zuerst ausführlich prüfen, wie die Dopplungen überhaupt zustande gekommen sind und erst dann wirst Du bei doppelten Fällen definieren können, nach welchen Regeln überflüssige Fälle gelöscht oder enthalten bleiben müssen. Hierbei ist wichtig, dass Du weißt, was Du tust. Auch muss es ja einen Grund geben, warum IDs in einem Datensatz mehrfach erscheinen.
Bei der Frage, inwieweit Fälle tatsächlich doppelt sind (dann müssten bei derselben ID jeweils auch bei allen anderen Variablen immer identisch sein), hilft Dir erneut die Prozedur "Doppelte Fälle ermitteln". Hierzu jeweils inhaltliche Variablen
mit Ausnahme der ID eingeben. Gibt es dann keine doppelten Fälle, könnte es sein, dass IDs doppelt vergeben wurden, obwohl es sich um unterschiedliche Teilnehmende handelte.