Hallo,
im Rahmen einer Analyse von verschiedenen Biomarkern bei einer Muskelerkrankung stehe ich vor folgender Frage:
Alter, Geschlecht, BMI und Krankheitsverlauf sind für einige dieser Biomarker der Literatur zufolge anerkannte Störvariablen. Für andere dieser Biomarker liegen hierzu nur wenig bis gar keine valide Daten vor.
In Teil 1 möchte ich gerne den Zusammenhang der Biomarker mit den motorischen Funktionen der Patienten berechnen.
Hier würde ich auf jeweilige partielle Korrelationen mit Berücksichtigung der Störvariablen zurückgreifen.
Teil 2 konzentriert sich auf die Unterschiede der jeweiligen Biomarkerkonzentrationen zwischen drei Untergruppen der Erkrankung. Dabei würde ich eine ANCOVA unter Einbeziehung der Störvariablen als Kovariaten rechnen.
Meine Frage ist nun, wie ich hinsichtlich des Einschlusses der Störvariablen am besten vorgehen sollte:
Die eine Option wäre, zunächst bivariate Korrelationen (Biomarker und o.g. Störvariablen) zu rechnen und dann nur diese als Confounder in das Modell einzuschließen, die tatsächlich einen signifikanten Effekt statistisch in meiner Kohorte zeigen.
Die andere wäre, auf empirischer Basis von Literaturangaben alle 4 systematisch bei allen Biomarkern als Störvariablen mit einzubeziehen - ungeachtet der Tatsache, dass einige davon in den vorherigen Korrelationen gar keinen sign. Zusammenhang mit den Biomarkern zeigen.
Was würdet ihr hier vorschlagen?
Ich möchte es natürlich möglichst systematisch einheitlich halten und zugleich Overfitting vermeiden. Auch sollte die Entscheidung der jeweiligen Option inhaltlich plausibel und nachvollziehbar sein.
Vielen Dank im Voraus und fröhliche Weihnachten,
M