Ausreißer / Interpolation / HUGE DATA!

Deskriptive Statistiken mit SPSS.

Ausreißer / Interpolation / HUGE DATA!

Beitragvon haus » Mo 22. Mai 2017, 15:10

Ihr Lieben,

ich hoffe, dass das (1.) jemand liest und (2.) auch das richtige Thema gewählt wurde. Ich bin seit Längerem jetzt auf der Suche nach einer effizienten (!!!!) Lösung meiner Ausreisserkorrektur. Ich habe N = 1440. Jede dieser Variablen mit 600 Daten zu korrigieren ist unschaffbar. SPSS bietet je eine lineare Interpolation von fehlenden Werten an. Leider finde ich keinen Weg das alles effizient zu gestalten. Hat jemand eine Idee? Ich dachte an Z-Transformation -> Größer/gleich 3 ausschließen (Fälle auswählen) und dann Interpolieren. Problem: Bei "Fälle auswähle"n kann ich immer nur eine Variable nacheinander reinnehmen (Wieso das?) Dann würde ich ja Jahre daran sitzen jede der Variablen einzeln zu holen.

Vielen Dank euch und eine schöne Woche!

Felix
haus
 
Beiträge: 16
Registriert: Mo 22. Mai 2017, 15:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer / Interpolation / HUGE DATA!

Beitragvon ponderstibbons » Mo 22. Mai 2017, 15:42

Ich verstehe leider Deine Problemdarstellung nicht. "Fälle" und "Variablen" scheinen da holterdipolter durcheinander zu gehen. Vielleicht beschreibst Du nachvollziehbar Deinen Datensatz bzw. wie Dein Datenblatt aussieht. Thema der Studie und Inhalt der Messungen zu beschreiben wäre zudem auch nicht schlecht. Und wieso willst Du sogenannte "Ausreißer" durch andere Daten ersetzen? Welchen Grund bzw. Zweck hat das?

Mit freundlichen Grüßen

PonderStibbons
ponderstibbons
 
Beiträge: 2523
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts

Re: Ausreißer / Interpolation / HUGE DATA!

Beitragvon haus » Mo 22. Mai 2017, 15:52

Danke für die Antwort :) Nein, holterdipolter geht da gar nichts ;) Mein Datensatz besteht aus 120 Personen. Diese Personen werden in 4 unterschiedlichen Bedingungen auf 3 psychophysiologische Paramter hin untersucht (HR, IBI und T). Es handelt sich um eine EKG-Untersuchung. 120*4*3 = 1440 Spalten und somit VARIABLEN.

Wir haben also 1440 Variablen. Golden Standard im Umgang mit physikaltischen Messungen ist die Interpolation und zwar linear.
Ich will

1. Eine Z-Standradisierung, um alle Ausreißer (ab einem Z-Wert von -/+ 3) zu markieren - Durch die Filterfunktion.
2. Diese Fälle als Missing Values deklarieren (Hier gab es doch mal eine Funktion von SPSS ?!)
3. Missing Values durch die interpolierten Werte ersetzen, um
4. eine Neuberechnung der Mittelwerte alle 1440 Variablen vorzunehmen.

Das Problem bei meiner Ausreißerkorrektur ist folgendes:
- Wie deklariere ich die Werte als "fehlend" und
- Wie kann ich den Filter so einstellen, dass ich gleichzeitig alle 1440 Variablen untersuchen lassen will? Ich kann nämlich bei der Eingabe der Bedingung (Falls --- zutrifft ....) immer nur eine Variable nacheinander reinholen (also nicht shift und markieren)

Generell frage ich mich, wie Forscher_Innen mit riesigen Datensätzen umgehen (also AUsreißer korrigieren), wenn man nicht Informatik-Pro ist ....Das ist mir schleierhaft. Bzw. wollte ich eben euch fragen, ob es hierfür eine effiziente Vorgabe gäbe...


Vielen Dank nochmal!

Felix
haus
 
Beiträge: 16
Registriert: Mo 22. Mai 2017, 15:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Ausreißer / Interpolation / HUGE DATA!

Beitragvon ponderstibbons » Di 23. Mai 2017, 08:44

Golden Standard im Umgang mit physikaltischen Messungen ist die Interpolation und zwar linear.

Der Goldstandard für physikalische (physiologische?) Messungen ist die lineare Interpolation? Gibt es da eine Referenz? Ist immer nützlich, sowas bei der Hand zu haben.
1. Eine Z-Standradisierung, um alle Ausreißer (ab einem Z-Wert von -/+ 3) zu markieren - Durch die Filterfunktion.

Was soll das inhaltlich sein, ein Auseißer? Bei 1440 Messungen müssen zwangsläufig einige weit vom Mittelwert entfernt liegen.
1. Eine Z-Standradisierung, um alle Ausreißer (ab einem Z-Wert von -/+ 3) zu markieren - Durch die Filterfunktion.

Was meinst Du mit "markieren durch Filterfunktion"?
2. Diese Fälle als Missing Values deklarieren (Hier gab es doch mal eine Funktion von SPSS ?!)

Es gibt den entsprechenden Befehl in der Syntax.
- Wie deklariere ich die Werte als "fehlend" und

Mit DESCRIPTIVES (gibt es auch als Fenster unter "Deskriptive Statistiken") 1440 z-standardisierte Variablen erzeugen, mit RECODE alle Werte über 3,0 umcodieren, diesen Code als Missing Value definieren.
- Wie kann ich den Filter so einstellen, dass ich gleichzeitig alle 1440 Variablen untersuchen lassen will? Ich kann nämlich bei der Eingabe der Bedingung (Falls --- zutrifft ....) immer nur eine Variable nacheinander reinholen (also nicht shift und markieren)

Verstehe ich wie gesagt nicht.
Generell frage ich mich, wie Forscher_Innen mit riesigen Datensätzen umgehen

Der Datensatz ist nicht riesig. Riesige Datensätze haben Millionen von Einträgen. Und simpler als SPSS point-und-click kann man es dem Anwender eigentlich nicht machen. Man muss halt RTFM befolgen.
ponderstibbons
 
Beiträge: 2523
Registriert: Sa 1. Okt 2011, 17:20
Danke gegeben: 2
Danke bekommen: 257 mal in 256 Posts

Re: Ausreißer / Interpolation / HUGE DATA!

Beitragvon haus » Di 23. Mai 2017, 13:34

1. Quellen liefere ich nach, im Moment dreht sich mein Kopf um fehlnde Werte ;)

2. Inhaltlich bedeuten Ausreißer: elektrische Geräte im Raum, Störfrequenzen, Muskelbewegungen, etc. etc. etc.

3. Markieren durch Filterfunktion meint: Ich will irgendwie meine Ausreißer markieren und ich dachte, dass ich im Filter z.B. eingebe schließe Fälle aus: Alle mit einem Wert von 0. Das war etwas was ich probiert habe, angesichts dieses riesigen Datenset aber dann doch nicht.

4.SYNTAX! Gibt es einen Syntax code, der mir alle (!) leeren Felder als benutzerdefiniert - fehlend deklariert? wenn ja - PLEASE, sagt ihn mir :(

5. Ich verstehe nicht, was du meinst mit : Mit descriptives 1440 Variablen erzeugen , mit recode alle Werte über 3 umcodieren? Ist das effizient? Ich habe ja meine z-standardisieruzngen mehr, sondern habe Lücken in meinem Datensatz. Diese sind von Werten mit einem IQR von 3. Ich muss diese fehlenden Werte nur als "fehlend" markieren, das ist das Problem :(

6. Jedes Wort lässt sich in unterschiedlichen Kontexten betrachten. Für mich ist der Datenstaz riesig :(
haus
 
Beiträge: 16
Registriert: Mo 22. Mai 2017, 15:03
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Deskriptive Statistik

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron