Multivariate

Analysemethoden

 

 

 

Multivariate Statistik und

Datenanalyse mit SPSS

einfach erklärt

 

 

 

 


Inhaltsverzeichnis

Abbildungsverzeichnis

Die Analyse fehlender Werte

Eine Einführung

Was sind fehlende Werte?

Wodurch entstehen fehlende Werte?

Warum sind fehlende Werte ein Problem?

Die Ursache fehlender Werte

Folgen und Konsequenzen fehlender Werte

Beeinflussung der Validität

Klassifikation der fehlenden Werte

Vorgehen bei der Analyse fehlender Werte

Kann man fehlende Werte ignorieren?

Das Ausmaß der fehlenden Werte analysieren

Die Löschung von unvollständigen Daten

Tests zur Analyse der Zufälligkeit

Auswahl der Methode

1.      Klassische Verfahren

2.      Imputationsbasierte Verfahren

Allgemeine Handlungsempfehlung

Die Clusteranalyse

Einführung

Vorbereitung der Daten

Voraussetzung für Clusteranalyse

Das Vorgehen bei der Clusteranalyse

1) Erstellung der Proximitätsmatrix

Binäre/ nominale Variablenstruktur

Ordinale Variablenstruktur

Metrische Variablenstruktur

Gemischt skalierte Variablenstruktur

2) Auswahl des Clusterverfahrens

Agglomerative Algorithmen (hierarchisch)

Partitionierende Verfahren (K-Means)

3) Festlegung Clusterzahl

4) Clusterdiagnose

Explorative Faktorenanalyse

Einleitung

Voraussetzungen der Faktorenanalyse

Ablauf der Faktorenanalyse

Variableneignung

Kommunalität & Faktorenextraktion

Kommunalität

Extraktionsmethoden

Die Zahl der Faktoren bestimmen

Faktorinterpretation

Die Rotation

Benennung der Faktoren

Faktorwerte bestimmen

Ablauf in SPSS

Die Entscheidungsbaumanalyse

Eine Einführung

Modellannahmen/ Voraussetzungen

Die Baumstruktur

Aufbaumethoden des Baums & Ablauf

Merging-Phase

Split-Phase

Vorgehen in SPSS

Interpretation der Ergebnisse

Der Baumeditor

Schritt-für-Schritt-Anleitung

Multiple Regression

Einsatzbereich

Vorgehensweise

1. Modellformulierung

2. Schätzung der Regressionsfunktion

3. Prüfung der Regressionsfunktion

4. Prüfung der Regressionskoeffizienten

5. Prüfung der Modellprämissen

Analyse einflussreicher Beobachtungen

Ausreißer

Hebelwerte (eng. leverage)

Cook-Distanzen

Ergänzungen

Dummy Variablen

Methoden der Multiplen Regression

Korrespondenzanalyse

Allgemeines

Grundlagen der Korrespondenzanalyse

Einordnung

Fragestellung und Anspruch an die Daten

Zielsetzung

Anwendungsbereiche

Vorgehensweise

Erstellung der Zeilen- und Spaltenprofile

Festlegung der geometrischen Schwerpunkte der

Das geometrische Modell – Marken im Raum der Merkmale

Ermittlung der Streuungen (Distanzen)

Standardisierung der Daten

Extraktion der Dimensionen

Ermittlung der Koordinaten

Interpretation

Symmetrische Normalisierung

Asymmetrische Normalisierung

Übersicht

Fazit

Vorgehensweise in SPSS

Abkürzungen

Varianzanalyse

Problemstellung

Einfaktorielle ANOVA

Modellgleichung

Hypothesen

Streuungszerlegung (sum of squares)

F-Statistik

Modellannahmen

SPSS Durchführung

Interpretation der SPSS-Ergebnisse

Zweifaktorielle ANOVA

Modellgleichung

Hypothesen

Streuungszerlegung

F-Statistik

Modellannahmen

Wechselwirkungen

SPSS Durchführung

SPSS Interpretation

Einfaktorielle ANOVA mit Messwiederholung

Modellgleichung

Hypothesen

Streuungszerlegung

F-Statistik

Modellannahmen

SPSS Durchführung

SPSS Interpretation

Mehrfaktorielle ANOVA mit Messwiederholung (Mixed ANOVA)

Hypothesen

Streuungszerlegung

F-Statistik

Modellgüte

Modellannahmen

SPSS Durchführung

SPSS Interpretation

Quellenverzeichnis


Abbildungsverzeichnis

Abbildung 1: Übersicht Validität      21

Abbildung 2: Missing at completely random      23

Abbildung 3: Missing at random      24

Abbildung 4: Missing not at random      25

Abbildung 5: Univariate Statistik (Vorgehen in SPSS)      29

Abbildung 6: Kreisdiagramm über fehlende Werte      29

Abbildung 7: Variablenzusammenfassung (Output SPSS)      30

Abbildung 8: Ein Muster fehlender Werte (SPSS Output)      31

Abbildung 9: Muster fehlender Werte (SPSS Output)      32

Abbildung 10: Test der fehlenden Werte (Vorgehen in SPSS)      34

Abbildung 11: T- Tests bei unterschiedlicher Varianz      35

Abbildung 12: Kreuztabelle 1 (SPSS Output)      37

Abbildung 13: Kreuztabelle 2 (SPSS Output)      38

Abbildung 14: Betrachtung Muster (Vorgehen in SPSS)      39

Abbildung 15: Muster in Tabellen (Output in SPSS)      40

Abbildung 16: MCAR-Test nach Little      42

Abbildung 17: Listenweiser Fallausschluss (Vor- und Nachteile)      43

Abbildung 18: Paarweiser Fallausschluss (Vor- und Nachteile)      44

Abbildung 19: Mittelwert-Imputation (Vor- und Nachteile)      45

Abbildung 20: Regressions-Imputation (Vor- und Nachteile)      46

Abbildung 21: Hot und Cold Deck Verfahren (Vor- und Nachteile)      46

Abbildung 22: Multiple Imputation      47

Abbildung 23: Vorgehen der multiplen Imputation in SPSS      52

Abbildung 24: Interpretation SPSS Output multiple Imputation      56

Abbildung 25: Die Clusteranalyse      59

Abbildung 26: Abwägung Variablenzahl      60

Abbildung 27: Rohdatenmatrix in Ähnlichkeitsmatrix überführen      62

Abbildung 28: Ähnlichkeits- und Distanzmaß,      63

Abbildung 29: Proximitätsmaße in SPSS (Vorgehen)      65

Abbildung 30: Proximitätsmaße mit Skalenniveau      65

Abbildung 31: Binäre Option in SPSS      66

Abbildung 32: Kombinationsmöglichkeiten binäre Variablenstruktur      66

Abbildung 33: Näherungsmatrix nach Jaccard      67

Abbildung 34: Näherungsmatrix nach Russell und Rao      68

Abbildung 35: Näherungsmatrix nach M-Koeffizient      68

Abbildung 36: Beispiele Auswahl binär Koeffizienten      69

Abbildung 37: Näherungsmatrix nach Chi-Quadrat-Maß      71

Abbildung 38: Näherungsmatrix City-Block-Metrik (Distanzmaß)      73

Abbildung 39: Näherungsmatrix (quadrierte) euklidische Distanz      74

Abbildung 40: Näherungsmatrix Pearson-Korrelationskoeffizient      76

Abbildung 41: Übersicht Ähnlichkeits- und Distanzmaße      76

Abbildung 42: Ähnlichkeits- und Distanzmaße      77

Abbildung 43: genaues Vorgehen in SPSS (Distanz- und Ähnlichkeitsmaße)      79

Abbildung 44: Übersicht Clusterverfahren      81

Abbildung 45: Single Linkage Verfahren      82

Abbildung 46: Complete-Linkage-Verfahren      83

Abbildung 47: Average Linkage-Verfahren      83

Abbildung 48: Vorgehen Clusteranalyse in SPSS      89

Abbildung 49: Zuordnungsübersicht (SPSS-Output)      89

Abbildung 50: Eiszapfendiagramm (SPSS-Output)      90

Abbildung 51: Dendrogramm (SPSS-Output)      91

Abbildung 52: Vorgehen k-Means in SPSS      96

Abbildung 53: Interpretation SPSS-Output K-Means-Verfahren      99

Abbildung 54: Übersicht Clusterverfahren      100

Abbildung 55: Zielkonflikt der Clusterzahl      100

Abbildung 56: Zuordnungsübersicht      101

Abbildung 57: Das Elbow-Kriterium      102

Abbildung 58: Erstellung multivariate Profile      103

Abbildung 59: Clusteranalyse mit Hilfe multivariater Profile      104

Abbildung 60: explorative vs. konfirmatorische Faktorenanalyse      106

Abbildung 61: Bildung der Faktoren      107

Abbildung 62: Zielkonflikt der Faktorenanalyse      108

Abbildung 63: Das Fundamentaltheorem      109

Abbildung 64: Ablauf der Faktorenanalyse      112

Abbildung 65: Es sollten hohe und niedrige Korrelationen vorliegen      113

Abbildung 66: Signifikanz der Korrelationen      114

Abbildung 67: Inverse Korrelationsmatrix      114

Abbildung 68: Image vs. Anti-Image      115

Abbildung 69: Anti-Image-Matrix      115

Abbildung 70: Der Bartlett-Test      116

Abbildung 71: Interpretation der MSA Werte      117

Abbildung 72: MSA-Werte der einzelnen Variablen      118

Abbildung 73: Komponenten der Gesamtvarianz bei einer 1 Faktor      119

Abbildung 74: Grafische Darstellung (Vektor-Diagramm)      121

Abbildung 75: Übersetzung von Winkel in Korrelation      121

Abbildung 76: Totale Varianzaufklärung      122

Abbildung 77: Hauptkomponentenanalyse (SPSS Output)      123

Abbildung 78: Hauptachsenanalyse (SPSS Output)      124

Abbildung 79: Iterationsmaximum erreicht      125

Abbildung 80: Iterationen in SPSS manuell einstellen      126

Abbildung 81: Vergleich Hauptachsen- & Hauptkomponentenanalyse      126

Abbildung 82: Vergleich der Kommunalitäten      127

Abbildung 83: Berechnung Kaiser Kriterium      129

Abbildung 84: Berechnung der Kommunalität      130

Abbildung 85: Faktorauswahl nach Kaiser Kriterium      131

Abbildung 86: Zusammenhang Eigenwert und Kommunalität      131

Abbildung 87: Beispiel Scree-Plot      132

Abbildung 88: Faktorinterpretation      134

Abbildung 89: rotierte Lösung der orthogonalen Rotation      135

Abbildung 90: Unterschiede in der Faktorenmatrix nach Rotation      136

Abbildung 91: rotierte Lösung der oblique Rotation      137

Abbildung 92: SPSS Output Oblique Rotation      138

Abbildung 93: Vergleich der orthogonalen und obliquen Rotation      139

Abbildung 94: Beispiel Faktorenbezeichnung      140

Abbildung 95: Schätzverfahren zur Bestimmung der Faktorwerte      142

Abbildung 96: 3-Dimensionales-Ladungsdiagramm      143

Abbildung 97: Ein-Dimensionales-Ladungsdiagramm      144

Abbildung 98: Vorgang der Faktorenanalyse in SPSS      145

Abbildung 99: Einordung der Entscheidungsbaumanalyse      148

Abbildung 100: Zuordnung des richtigen Datenniveaus      149

Abbildung 101: Wertelabels vergeben.      150

Abbildung 102: Unterschied CHAID- & Exhaustive CHAID-Verfahren      152

Abbildung 103: Aufbaumethode Exhaustive CHAID (SPSS)      153

Abbildung 104: Übersicht Tests für Datenniveaus      154

Abbildung 105: mehrdimensionale Kontigenztabelle      155

Abbildung 106: Kreuztabellen Mergen Schritt 1 (Beispiel)      157

Abbildung 107: Kreuztabellen Mergen Schritt 2 (Beispiel)      158

Abbildung 108: Übersicht p-Wert der Unterteilungsebenen      158

Abbildung 109: Merging der Kategorie 1 und 2 (Beispiel)      159

Abbildung 110: „Siegervariante“ des Merging-Prozesses      160

Abbildung 111: Kreuztabelle Split-Phase      162

Abbildung 112: Vorgehen in SPSS (Entscheidungsbaumanalyse)      173

Abbildung 113: Interpretation der Ergebnisse      181

Abbildung 114: Der Baumeditor      182

Abbildung 115: Datenpunkte      190

Abbildung 116: SPSS Koeffizienten (einfach)      192

Abbildung 117: SPSS Koeffizienten      194

Abbildung 118: Streuung      195

Abbildung 119: SPSS ANOVA      197

Abbildung 120: t-Wert      199

Abbildung 121: t-Wert Konfidenzintervalle      200

Abbildung 122: kein linearer Zusammenhang erkennbar      202

Abbildung 123: linearer Zusammenhang erkennbar      202

Abbildung 124: standardisiertes Streudiagramm      203

Abbildung 125: Dreiecksmuster mit größer bzw. kleiner werdenden Varianz)      204

Abbildung 126: Rhombus Muster (ansteigende und kleiner werdende Varianz)      204

Abbildung 127: Residualwerte verändern sich systematisch      205

Abbildung 128: QQ-Diagramm      206

Abbildung 129: Histogramm      207

Abbildung 130: Positive Autokorrelation      208

Abbildung 131: Negative Autokorrelation      209

Abbildung 132: Autokorrelation (Durbin/Watson)      210

Abbildung 133: Venn-Diagramm, geringe Multikollinearität      211

Abbildung 134: Venn-Diagramm, keine Multikollinearität      212

Abbildung 135: Venn-Diagramm, hohe Multikollinearität (Katastrophe)      212

Abbildung 136: Korrelationsmatrix      213

Abbildung 137: Toleranz & VIF für das Fallbeispiel      214

Abbildung 138: Multivariate Analyseverfahren      219

Abbildung 139: Fallbeispiel Datensatz      220

Abbildung 140: Zeilenprofile      223

Abbildung 141: Spaltenprofile      223

Abbildung 142: Massen der Zeilen      224

Abbildung 143: Massen der Spalten      225

Abbildung 144: Geometrisches Modell      226

Abbildung 145: Grafische Darstellung      228

Abbildung 146: Kreuztabelle Marke*Merkmal      229

Abbildung 147: Chi-Quadrat-Tests      230

Abbildung 148: Totale Inertia      231

Abbildung 149: relative Häufigkeiten      233

Abbildung 150: Zentrierte Werte      234

Abbildung 151: Standardisierte Daten      236

Abbildung 152: SPSS Output      237

Abbildung 153: Übersicht Zeilenpunkte      239

Abbildung 154: Übersicht Spaltenpunkte      240

Abbildung 155: SPSS Zeilenpunkte      242

Abbildung 156: SPSS Spaltenpunkte      243

Abbildung 157: Zeilenpunkte für Marke      245

Abbildung 158: Zeilenpunkte für Merkmal      246

Abbildung 159: Zeilen- und Spaltenpunkte      247

Abbildung 160: Zeilen-Prinzipal-Normalisierung      249

Abbildung 161: Spalten-Prinzipal-Normalisierung      251

Abbildung 162: Vorgehensweise SPSS      258

Abbildung 163: Struktur der ANOVA      263

Abbildung 164: Streuungszerlegung      265

Abbildung 165: Streuungszerlegung      266

Abbildung 166: Effektstärke      268

Abbildung 167: Vorgehen in SPSS      273

Abbildung 168: SPSS Ausgaben      276

Abbildung 169: Odinal      281

Abbildung 170: Disordinal      282

Abbildung 171: Hybrid      283

Abbildung 172: Vorgehen in SPSS      289

Abbildung 173: SPSS Ausgaben      290

Abbildung 174: Vorgehen in SPSS      295

Abbildung 175: SPSS Ausgaben      297

Abbildung 176: Vorgehen in SPSS      305

Abbildung 177: SPSS Ausgaben      308


 

 

 

 

 

 

 

 

 

 

 

 

Die Analyse fehlender Werte


Eine Einführung

Was sind fehlende Werte?

„Missing data, where valid values on one or more variables are not available for analysis, are a fact of life in multivariate analysis.“ (Hair, Black, Babin, & Anderson, 2010, S. 42).

 

Missing Values sind fehlende Werte in den erhobenen Daten, die sich auf wenigen Variablen/ Fällen sammeln oder über den gesamten Datensatz verteilt vorhanden sein können. Sie bedrohen die Validitäten der durchgeführten Studie und können das Verständnis für Effekte beeinflussen. Besonders in der multivariaten Datenanalyse kommen fehlende Werte sehr häufig vor. Aus diesem Grund ist ihre Betrachtung von großer Bedeutung. (Bankhofer, 1995) & (Hair, 2010, S. 42-43)

Wodurch entstehen fehlende Werte?

Missing Values können aus drei folgenschweren Gründen fehlen. Ein erster Aspekt ist der Proband selbst, der das Vorkommen fehlender Werte verursacht. Das ist beispielsweise der Fall, wenn jemand eine Frage nicht beantworten möchte. Ein zweiter Grund ist das Studiendesign selbst, das z.B. durch seine Länge zu viel Zeit von den Probanden verlangt und aus diesem Grund zu fehlenden Werten führt. Ein letzter grundlegender Aspekt ist die Interaktion zwischen Probanden und dem Studiendesign/ Versuchsleiter. Probanden sind eventuell nicht fähig genug eine Frage zu beantworten. Es könnte auch sein, dass die Fragen zu intim sind und der Proband nicht antworten möchte. (Ausführliche Darbietung der Gründe siehe: die Ursache fehlender Werte) (Bankhofer, 1995, S. 5-12)

Warum sind fehlende Werte ein Problem?

Fehlende Werte haben einen Einfluss auf die Generalisierbarkeit der Daten. Beispielsweise ist die Verallgemeinerung der Ergebnisse nicht möglich, wenn die Mehrheit der Studienteilnehmer, denen es während des Experiments schlecht erging, abbricht und deswegen die Ergebnisse vor allem auf den Probanden beruhen, die positiv auf die Bedingung reagiert haben. Ebenfalls können falsche Schlussfolgerungen gezogen werden, wenn die fehlenden Daten die Beziehungen zwischen den Variablen beeinflussen. Außerdem können Missing Values (fehlende Werte) zu nichtrepräsentativen Stichproben führen, wenn als Verfahren z.B. der listenweise Fallausschluss (siehe Kapitel: Vorgehen) genutzt wird. Ebenfalls haben fehlende Werte einen Einfluss auf die unterschiedlichen Validitäten, was mit dem Problem der Generalisierbarkeit einhergeht. (Hair, 2010, S. 42-43) & (Bankhofer, 1995, S. 25-27)

Die Ursache fehlender Werte

Die Ursachen fehlender Werte sind in drei großen Bereichen der empirischen Forschung zu finden. Beginnend mit dem Untersuchungsdesign, über die Datenerhebung selbst und auch in der Datenauswertung können Gründe für das Entstehen fehlender Werte gefunden werden.

 

 

a) Untersuchungsdesign

Grundsätzlich gilt, dass das Untersuchungsdesign so umfangreich wie nötig und so knapp wie möglich sein sollte, um möglichst viele Informationen durch möglichst wenige Variablen und wenig (Zeit)Aufwand der Probanden zu generieren. Folgende Ursachen können Gründe für das Entstehen von fehlenden Werten sein: (Bankhofer, 1995, S. 8-12)

 

Das Untersuchungsdesign wird so bestimmt, dass es sehr wahrscheinlich abzusehen ist, dass es zu fehlenden Werten kommt. Beispiel: Wenn in einer Studie das Merkmal „Alter des Ehepartners“ abgefragt wird und sich jedoch auch unverheiratete Personen unter den Probanden befinden, kommt es, soweit keine „Non-Option“ gibt, zu fehlenden Werten. Ein weiteres Beispiel wäre: Es wird nach dem Alter der Kinder gefragt, ohne angeben zu können, keine zu haben. Bei kinderlosen Personen kommt es hier zu fehlenden Werten. (Bankhofer, 1995, S. 8-12)

Das Design kann durch unübersichtliche Anordnungen, missverständliche Fragen, unbekannten Wörtern oder Redewendungen in den Fragestellungen fehlende Werte verursachen. (Bankhofer, 1995, S. 8-12)

b) Die Datenerhebung

Auch die Datenerhebung selbst kann für fehlende Werte verantwortlich sein. Folgende Gründe könnte es geben:

 

Übersehen von Fragen:

Bei schriftlichen Befragungen kann es sein, dass der Proband eine Frage übersieht. Das kann dem Interviewer auch bei einer mündlichen Untersuchung passieren. Gründe dafür sind zumeist Ablenkung oder technische Mängel in der Untersuchung. (Bankhofer, 1995, S. 8-12)

 

Mangelndes Wissen:

Der Proband ist selbst mit Mühe nicht in der Lage eine Frage zu beantworten. Das ist besonders dann der Fall, wenn die Fragen auf Ereignisse abzielen, die längere Zeit zurückliegen. (Bankhofer, 1995, S. 8-12)

Dieser Art der fehlenden Werte klammern Angaben, wie z.B. „Ich weiß nicht“ aus, da diese vor allem auf eine Unentschlossenheit oder Unentschiedenheit der Probanden zurückgehen. Solche unentschlossenen Angaben sind keine fehlenden Werte, sondern Informationen.

 

Antwortverweigerung:

Ein Proband verweigert die Antwort auf eine Frage, unabhängig ob diese schriftlich oder mündlich gestellt wurde. Insbesondere tritt diese Ursache fehlender Werte dann auf, wenn die befragten Personen eine Verletzung der Privatsphäre vermuten. Beispiel: Probanden beantworten Fragen nach dem eigenen Trink-, Rauch- oder Sexualverhalten bewusst nicht. (Bankhofer, 1995, S. 8-12)

 

Motivationsprobleme:

Geringe Motivation von dem Interviewer oder der Testperson sorgen ebenfalls für Missing Values. Die fehlende Motivation geht auf eine Abneigung gegen die Befragungssituation, den Interviewer, die Erhebung allgemein oder auf die Länge der Befragung zurück. Ein Mangel an Motivation kann, z.B. auf geringe Vergütung, zurückgeführt werden. (Bankhofer, 1995, S. 8-12)

 

Verständnisprobleme:

Der Befragte kann die ihm gestellte Frage nicht richtig verstehen und hat deswegen Probleme zu antworten. (Bankhofer, 1995, S. 8-12)

Meinungslosigkeit:

Der Proband gibt keine Antwort auf eine Frage nach seiner Meinung, weil er entweder keine Meinung zu dieser Thematik hat oder sie nicht formulieren kann. (Bankhofer, 1995, S. 8-12)

 

Zeitprobleme:

Eine befragte Person hat zur Beantwortung eines Fragebogens nur limitiert Zeit und ist nicht in der Lage, alle ihr gestellten Fragen in dieser Zeit zu beantworten. In solchen Fällen sammeln sich die fehlenden Werte am Ende der Befragung. (Bankhofer, 1995, S. 8-12)

 

Filterführung des Interviewers:

Während der Befragung überspringt der Interviewer absichtlich bestimmte Fragen. Beispiel: Die Befragten, die angeben Raucher zu sein, werden weitere Fragen zu diesem Thema gestellt. Andere, die angeben Nichtraucher zu sein, haben dadurch bei den Fragen über Rauchen fehlende Werte. (Bankhofer, 1995, S. 8-12)

 

Unaufmerksamkeit des Beobachters:

Werden in einer Studie auf Beobachtungen wert gelegt, erhält man fehlende Werte, wenn der Beobachter in der Zeit unaufmerksam ist und ihm deshalb der zu beobachtenden Sachverhalt entgeht. (Bankhofer, 1995, S. 8-12)

 

Technische Mängel:

Fehlende Werte können auf technische Defekte zurückgeführt werden. Beispiel: Bei Video- und Blickaufzeichnungen (z.B. Eye-Tracking-Studien) wird durch einen technischen Mangel der zu beobachtende Sachverhalt (die Blickrichtung) verpasst bzw. nicht erfasst. (Bankhofer, 1995, S. 8-12)

 

 

c) Die Datenauswertung

Auch in der Datenauswertung können einige Ursachen für fehlende Werte gefunden werden.

 

 

Codierungsfehler:

Fehlende Werte entstehen dann, wenn eigentlich vorhandene Werte irrtümlicherweise als fehlend codiert werden. (Bankhofer, 1995, S. 8-12)

 

Übertragungsfehler:

Wenn Daten beispielsweise von einem schriftlichen Fragebogen in SPSS überführt werden und dabei manuell eingetippt werden müssen, kann es zu fehlenden Werten kommen. Diese können auch durch Fehler beim elektronischen Einlesen von Daten und deren Abspeicherung hervorgerufen werden. (Bankhofer, 1995, S. 8-12)

 

Löschung von unmöglichen Daten:

Ein Wert wird aus dem Datensatz entfernt, weil er in diesem Kontext unmöglich sein kann, was bei der Überprüfung der Daten sichtbar wird. Beispiel: Alphanumerische Zeichen werden gelöscht, wenn sie bei einer Variablen auftreten, die eigentlich nur numerische Ausprägungen besitzen darf. (Bankhofer, 1995, S. 8-12)

 

Löschung von fehlerhaften Daten:

Daten werden bei der Überprüfung als fehlerhaft erkannt und vom Forscher oder der Forscherin entfernt, obwohl sie grundsätzlich realisierbar wären und eigentlich korrekt sind. (Bankhofer, 1995, S. 8-12)

 

Folgen und Konsequenzen fehlender Werte

Aus dem Problem der fehlenden Werte können konkrete Folgen für die Praxis abgeleitet werden. Diese sind unter anderem Fehler in den statistischen Daten, Biases (=systematische Fehler) in den Parameterschätzungen, fehlerhafte Interpretationen der Ergebnisse sowie das Begrenzen der Repräsentativität und der Stärke der Stichprobe. So kann es durch Missing Values zu fehlerhaften statistischen Ergebnissen kommen, die bei Beachtung der fehlenden Werte anders ausgefallen wären. Werden fehlende Werte in den Datensätzen von Forschern vernachlässigt, ist dieses Vorgehen nicht mit einer wissenschaftlichen Arbeitsweise vereinbar. Besonders die Validität einer Studie wird von Missing Values beeinflusst. (Bankhofer, 1995, S. 25-27) & (Hair, 2010, S. 42-43)

Beeinflussung der Validität

Ein Bild, das Text enthält.

Automatisch generierte Beschreibung

 

Abbildung 1: Übersicht Validität

Eigene Darstellung, Quelle: vgl. (Lüdtke & Trautwein, 2007)

 

 

 

a) Konstruktvalidität

Konstruktvalidität gibt an, wie gut die erfassten Variablen das vorgesehene Konstrukt messen und wie gut die Werte die relevanten Variablen voraussagen. Ist die Konstruktvalidität hoch, dann fallen die Testwerte so aus, wie es die Theorie und die Hypothese vorgibt. (Döring & Bortz, 2016)

Durch fehlende Werte in den Variablen ist es möglich, dass das zu erfassende Konstrukt (eine Fragestellung oder eine Hypothese) dahinter nicht vollständig oder fehlerhaft erschlossen wird. Besonders im Fall der mono-Operations sind fehlende Daten besonders nachteilig. Mono-Operations sind einzelne Messungen, die durch ein einzelnes Item oder multiple Items bestehen und zur Repräsentation des Konstrukts bzw. Konzepts dienen. Das ist z.B. dann der Fall, wenn das Rauchverhalten (als Konstrukt) durch die Anzahl konsumierter Zigaretten in den letzten 24 Stunden gemessen wird. Fehlt der Wert für die konsumierten Zigaretten, kann das Konstrukt Rauchen nicht erfasst werden. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

 

Ein kleinerer Item-Pool führt ebenfalls mit fehlenden Werten zu einer größeren Fehlervarianz und diese dann wiederum zu geringerer Reliabilität in den Messungen. Der Informationsverlust, welcher mit Missing Values einhergeht, führt außerdem zu unvollständigen Repräsentationen des Konstrukts und damit automatisch zu einer kleineren Konstruktvalidität.

 

b) Interne Validität

Die interne Validität ist gegeben, wenn Unterschiede in der abhängigen Variablen mit Sicherheit auf Unterschiede in der unabhängigen Variablen zurückgeführt werden können.

Die interne und externe Validität beeinflussen sich gegenseitig. Durch die mit fehlenden Werten einhergehende Stichprobenselektion gibt es Unterschiede in den Gruppen, die wiederum zu einem systematischen Fehler führen. Dadurch entstehen nicht-repräsentative Stichproben, die neben der internen auch die externe Validität verkleinern. Durch Randomisierung, d.h. Probanden werden zufällig auf unterschiedliche und identische Gruppen aufgeteilt, kann es auch zu fehlenden Werten kommen. Wenn es teilnehmerbedingt zu fehlenden Werten kommt, verursacht dieser Grund der fehlenden Werte ungleiche Stichprobengrößen, was wiederum die statistischen Voraussetzungen für viele Vorgänge in SPSS verletzt, wodurch es zu einer kleineren Validität in den Ergebnissen der statistischen Auswertung kommt. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

 

c) Externe Validität

Die externe Validität gibt an, inwieweit sich die Testergebnisse über die Untersuchungssituation verallgemeinern lassen (Döring & Bortz, 2016). Bei homogenen Stichproben (viele Probanden ähneln sich) ist die Streuung der Werte/ Antworten gering. Der Test wird also schneller signifikant, aber die Repräsentativität der Ergebnisse für eine heterogene Grundgesamtheit sinkt. Wenn fehlende Werte in den Daten auftreten, dann kann es zu Schwierigkeiten mit den Schlussfolgerungen und Interpretationen der Ergebnisse kommen. Dies kann falsche Rückschlüsse hervorrufen, die dann möglicherweise falsche Richtlinien verursachen. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)

Klassifikation der fehlenden Werte

Um die richtigen Methoden zur Behandlung fehlender Werte auswählen zu können, ist es von Bedeutung zu wissen, ob hinter den fehlenden Werten eine Systematik liegt. Die Klassifikation der fehlenden Werte erfolgt nach der Arbeit von Rubin in drei Arten (Rubin, 1976):

 

a) MCAR – Missing completely at random

Image

Abbildung 2: Missing at completely random

Eigene Darstellung, Quelle: (IBM®, 2020)