Multivariate
Analysemethoden
Multivariate Statistik und
Datenanalyse mit SPSS
einfach erklärt
Abbildungsverzeichnis
Die Analyse fehlender Werte
Eine Einführung
Was sind fehlende Werte?
Wodurch entstehen fehlende Werte?
Warum sind fehlende Werte ein Problem?
Die Ursache fehlender Werte
Folgen und Konsequenzen fehlender Werte
Beeinflussung der Validität
Klassifikation der fehlenden Werte
Vorgehen bei der Analyse fehlender Werte
Kann man fehlende Werte ignorieren?
Das Ausmaß der fehlenden Werte analysieren
Die Löschung von unvollständigen Daten
Tests zur Analyse der Zufälligkeit
Auswahl der Methode
1. Klassische Verfahren
2. Imputationsbasierte Verfahren
Allgemeine Handlungsempfehlung
Die Clusteranalyse
Einführung
Vorbereitung der Daten
Voraussetzung für Clusteranalyse
Das Vorgehen bei der Clusteranalyse
1) Erstellung der Proximitätsmatrix
Binäre/ nominale Variablenstruktur
Ordinale Variablenstruktur
Metrische Variablenstruktur
Gemischt skalierte Variablenstruktur
2) Auswahl des Clusterverfahrens
Agglomerative Algorithmen (hierarchisch)
Partitionierende Verfahren (K-Means)
3) Festlegung Clusterzahl
4) Clusterdiagnose
Explorative Faktorenanalyse
Einleitung
Voraussetzungen der Faktorenanalyse
Ablauf der Faktorenanalyse
Variableneignung
Kommunalität & Faktorenextraktion
Kommunalität
Extraktionsmethoden
Die Zahl der Faktoren bestimmen
Faktorinterpretation
Die Rotation
Benennung der Faktoren
Faktorwerte bestimmen
Ablauf in SPSS
Die Entscheidungsbaumanalyse
Eine Einführung
Modellannahmen/ Voraussetzungen
Die Baumstruktur
Aufbaumethoden des Baums & Ablauf
Merging-Phase
Split-Phase
Vorgehen in SPSS
Interpretation der Ergebnisse
Der Baumeditor
Schritt-für-Schritt-Anleitung
Multiple Regression
Einsatzbereich
Vorgehensweise
1. Modellformulierung
2. Schätzung der Regressionsfunktion
3. Prüfung der Regressionsfunktion
4. Prüfung der Regressionskoeffizienten
5. Prüfung der Modellprämissen
Analyse einflussreicher Beobachtungen
Ausreißer
Hebelwerte (eng. leverage)
Cook-Distanzen
Ergänzungen
Dummy Variablen
Methoden der Multiplen Regression
Korrespondenzanalyse
Allgemeines
Grundlagen der Korrespondenzanalyse
Einordnung
Fragestellung und Anspruch an die Daten
Zielsetzung
Anwendungsbereiche
Vorgehensweise
Erstellung der Zeilen- und Spaltenprofile
Festlegung der geometrischen Schwerpunkte der
Das geometrische Modell – Marken im Raum der Merkmale
Ermittlung der Streuungen (Distanzen)
Standardisierung der Daten
Extraktion der Dimensionen
Ermittlung der Koordinaten
Interpretation
Symmetrische Normalisierung
Asymmetrische Normalisierung
Übersicht
Fazit
Vorgehensweise in SPSS
Abkürzungen
Varianzanalyse
Problemstellung
Einfaktorielle ANOVA
Modellgleichung
Hypothesen
Streuungszerlegung (sum of squares)
F-Statistik
Modellannahmen
SPSS Durchführung
Interpretation der SPSS-Ergebnisse
Zweifaktorielle ANOVA
Modellgleichung
Hypothesen
Streuungszerlegung
F-Statistik
Modellannahmen
Wechselwirkungen
SPSS Durchführung
SPSS Interpretation
Einfaktorielle ANOVA mit Messwiederholung
Modellgleichung
Hypothesen
Streuungszerlegung
F-Statistik
Modellannahmen
SPSS Durchführung
SPSS Interpretation
Mehrfaktorielle ANOVA mit Messwiederholung (Mixed ANOVA)
Hypothesen
Streuungszerlegung
F-Statistik
Modellgüte
Modellannahmen
SPSS Durchführung
SPSS Interpretation
Quellenverzeichnis
Abbildung 1: Übersicht Validität 21
Abbildung 2: Missing at completely random 23
Abbildung 3: Missing at random 24
Abbildung 4: Missing not at random 25
Abbildung 5: Univariate Statistik (Vorgehen in SPSS) 29
Abbildung 6: Kreisdiagramm über fehlende Werte 29
Abbildung 7: Variablenzusammenfassung (Output SPSS) 30
Abbildung 8: Ein Muster fehlender Werte (SPSS Output) 31
Abbildung 9: Muster fehlender Werte (SPSS Output) 32
Abbildung 10: Test der fehlenden Werte (Vorgehen in SPSS) 34
Abbildung 11: T- Tests bei unterschiedlicher Varianz 35
Abbildung 12: Kreuztabelle 1 (SPSS Output) 37
Abbildung 13: Kreuztabelle 2 (SPSS Output) 38
Abbildung 14: Betrachtung Muster (Vorgehen in SPSS) 39
Abbildung 15: Muster in Tabellen (Output in SPSS) 40
Abbildung 16: MCAR-Test nach Little 42
Abbildung 17: Listenweiser Fallausschluss (Vor- und Nachteile) 43
Abbildung 18: Paarweiser Fallausschluss (Vor- und Nachteile) 44
Abbildung 19: Mittelwert-Imputation (Vor- und Nachteile) 45
Abbildung 20: Regressions-Imputation (Vor- und Nachteile) 46
Abbildung 21: Hot und Cold Deck Verfahren (Vor- und Nachteile) 46
Abbildung 22: Multiple Imputation 47
Abbildung 23: Vorgehen der multiplen Imputation in SPSS 52
Abbildung 24: Interpretation SPSS Output multiple Imputation 56
Abbildung 25: Die Clusteranalyse 59
Abbildung 26: Abwägung Variablenzahl 60
Abbildung 27: Rohdatenmatrix in Ähnlichkeitsmatrix überführen 62
Abbildung 28: Ähnlichkeits- und Distanzmaß, 63
Abbildung 29: Proximitätsmaße in SPSS (Vorgehen) 65
Abbildung 30: Proximitätsmaße mit Skalenniveau 65
Abbildung 31: Binäre Option in SPSS 66
Abbildung 32: Kombinationsmöglichkeiten binäre Variablenstruktur 66
Abbildung 33: Näherungsmatrix nach Jaccard 67
Abbildung 34: Näherungsmatrix nach Russell und Rao 68
Abbildung 35: Näherungsmatrix nach M-Koeffizient 68
Abbildung 36: Beispiele Auswahl binär Koeffizienten 69
Abbildung 37: Näherungsmatrix nach Chi-Quadrat-Maß 71
Abbildung 38: Näherungsmatrix City-Block-Metrik (Distanzmaß) 73
Abbildung 39: Näherungsmatrix (quadrierte) euklidische Distanz 74
Abbildung 40: Näherungsmatrix Pearson-Korrelationskoeffizient 76
Abbildung 41: Übersicht Ähnlichkeits- und Distanzmaße 76
Abbildung 42: Ähnlichkeits- und Distanzmaße 77
Abbildung 43: genaues Vorgehen in SPSS (Distanz- und Ähnlichkeitsmaße) 79
Abbildung 44: Übersicht Clusterverfahren 81
Abbildung 45: Single Linkage Verfahren 82
Abbildung 46: Complete-Linkage-Verfahren 83
Abbildung 47: Average Linkage-Verfahren 83
Abbildung 48: Vorgehen Clusteranalyse in SPSS 89
Abbildung 49: Zuordnungsübersicht (SPSS-Output) 89
Abbildung 50: Eiszapfendiagramm (SPSS-Output) 90
Abbildung 51: Dendrogramm (SPSS-Output) 91
Abbildung 52: Vorgehen k-Means in SPSS 96
Abbildung 53: Interpretation SPSS-Output K-Means-Verfahren 99
Abbildung 54: Übersicht Clusterverfahren 100
Abbildung 55: Zielkonflikt der Clusterzahl 100
Abbildung 56: Zuordnungsübersicht 101
Abbildung 57: Das Elbow-Kriterium 102
Abbildung 58: Erstellung multivariate Profile 103
Abbildung 59: Clusteranalyse mit Hilfe multivariater Profile 104
Abbildung 60: explorative vs. konfirmatorische Faktorenanalyse 106
Abbildung 61: Bildung der Faktoren 107
Abbildung 62: Zielkonflikt der Faktorenanalyse 108
Abbildung 63: Das Fundamentaltheorem 109
Abbildung 64: Ablauf der Faktorenanalyse 112
Abbildung 65: Es sollten hohe und niedrige Korrelationen vorliegen 113
Abbildung 66: Signifikanz der Korrelationen 114
Abbildung 67: Inverse Korrelationsmatrix 114
Abbildung 68: Image vs. Anti-Image 115
Abbildung 69: Anti-Image-Matrix 115
Abbildung 70: Der Bartlett-Test 116
Abbildung 71: Interpretation der MSA Werte 117
Abbildung 72: MSA-Werte der einzelnen Variablen 118
Abbildung 73: Komponenten der Gesamtvarianz bei einer 1 Faktor 119
Abbildung 74: Grafische Darstellung (Vektor-Diagramm) 121
Abbildung 75: Übersetzung von Winkel in Korrelation 121
Abbildung 76: Totale Varianzaufklärung 122
Abbildung 77: Hauptkomponentenanalyse (SPSS Output) 123
Abbildung 78: Hauptachsenanalyse (SPSS Output) 124
Abbildung 79: Iterationsmaximum erreicht 125
Abbildung 80: Iterationen in SPSS manuell einstellen 126
Abbildung 81: Vergleich Hauptachsen- & Hauptkomponentenanalyse 126
Abbildung 82: Vergleich der Kommunalitäten 127
Abbildung 83: Berechnung Kaiser Kriterium 129
Abbildung 84: Berechnung der Kommunalität 130
Abbildung 85: Faktorauswahl nach Kaiser Kriterium 131
Abbildung 86: Zusammenhang Eigenwert und Kommunalität 131
Abbildung 87: Beispiel Scree-Plot 132
Abbildung 88: Faktorinterpretation 134
Abbildung 89: rotierte Lösung der orthogonalen Rotation 135
Abbildung 90: Unterschiede in der Faktorenmatrix nach Rotation 136
Abbildung 91: rotierte Lösung der oblique Rotation 137
Abbildung 92: SPSS Output Oblique Rotation 138
Abbildung 93: Vergleich der orthogonalen und obliquen Rotation 139
Abbildung 94: Beispiel Faktorenbezeichnung 140
Abbildung 95: Schätzverfahren zur Bestimmung der Faktorwerte 142
Abbildung 96: 3-Dimensionales-Ladungsdiagramm 143
Abbildung 97: Ein-Dimensionales-Ladungsdiagramm 144
Abbildung 98: Vorgang der Faktorenanalyse in SPSS 145
Abbildung 99: Einordung der Entscheidungsbaumanalyse 148
Abbildung 100: Zuordnung des richtigen Datenniveaus 149
Abbildung 101: Wertelabels vergeben. 150
Abbildung 102: Unterschied CHAID- & Exhaustive CHAID-Verfahren 152
Abbildung 103: Aufbaumethode Exhaustive CHAID (SPSS) 153
Abbildung 104: Übersicht Tests für Datenniveaus 154
Abbildung 105: mehrdimensionale Kontigenztabelle 155
Abbildung 106: Kreuztabellen Mergen Schritt 1 (Beispiel) 157
Abbildung 107: Kreuztabellen Mergen Schritt 2 (Beispiel) 158
Abbildung 108: Übersicht p-Wert der Unterteilungsebenen 158
Abbildung 109: Merging der Kategorie 1 und 2 (Beispiel) 159
Abbildung 110: „Siegervariante“ des Merging-Prozesses 160
Abbildung 111: Kreuztabelle Split-Phase 162
Abbildung 112: Vorgehen in SPSS (Entscheidungsbaumanalyse) 173
Abbildung 113: Interpretation der Ergebnisse 181
Abbildung 114: Der Baumeditor 182
Abbildung 115: Datenpunkte 190
Abbildung 116: SPSS Koeffizienten (einfach) 192
Abbildung 117: SPSS Koeffizienten 194
Abbildung 118: Streuung 195
Abbildung 119: SPSS ANOVA 197
Abbildung 120: t-Wert 199
Abbildung 121: t-Wert Konfidenzintervalle 200
Abbildung 122: kein linearer Zusammenhang erkennbar 202
Abbildung 123: linearer Zusammenhang erkennbar 202
Abbildung 124: standardisiertes Streudiagramm 203
Abbildung 125: Dreiecksmuster mit größer bzw. kleiner werdenden Varianz) 204
Abbildung 126: Rhombus Muster (ansteigende und kleiner werdende Varianz) 204
Abbildung 127: Residualwerte verändern sich systematisch 205
Abbildung 128: QQ-Diagramm 206
Abbildung 129: Histogramm 207
Abbildung 130: Positive Autokorrelation 208
Abbildung 131: Negative Autokorrelation 209
Abbildung 132: Autokorrelation (Durbin/Watson) 210
Abbildung 133: Venn-Diagramm, geringe Multikollinearität 211
Abbildung 134: Venn-Diagramm, keine Multikollinearität 212
Abbildung 135: Venn-Diagramm, hohe Multikollinearität (Katastrophe) 212
Abbildung 136: Korrelationsmatrix 213
Abbildung 137: Toleranz & VIF für das Fallbeispiel 214
Abbildung 138: Multivariate Analyseverfahren 219
Abbildung 139: Fallbeispiel Datensatz 220
Abbildung 140: Zeilenprofile 223
Abbildung 141: Spaltenprofile 223
Abbildung 142: Massen der Zeilen 224
Abbildung 143: Massen der Spalten 225
Abbildung 144: Geometrisches Modell 226
Abbildung 145: Grafische Darstellung 228
Abbildung 146: Kreuztabelle Marke*Merkmal 229
Abbildung 147: Chi-Quadrat-Tests 230
Abbildung 148: Totale Inertia 231
Abbildung 149: relative Häufigkeiten 233
Abbildung 150: Zentrierte Werte 234
Abbildung 151: Standardisierte Daten 236
Abbildung 152: SPSS Output 237
Abbildung 153: Übersicht Zeilenpunkte 239
Abbildung 154: Übersicht Spaltenpunkte 240
Abbildung 155: SPSS Zeilenpunkte 242
Abbildung 156: SPSS Spaltenpunkte 243
Abbildung 157: Zeilenpunkte für Marke 245
Abbildung 158: Zeilenpunkte für Merkmal 246
Abbildung 159: Zeilen- und Spaltenpunkte 247
Abbildung 160: Zeilen-Prinzipal-Normalisierung 249
Abbildung 161: Spalten-Prinzipal-Normalisierung 251
Abbildung 162: Vorgehensweise SPSS 258
Abbildung 163: Struktur der ANOVA 263
Abbildung 164: Streuungszerlegung 265
Abbildung 165: Streuungszerlegung 266
Abbildung 166: Effektstärke 268
Abbildung 167: Vorgehen in SPSS 273
Abbildung 168: SPSS Ausgaben 276
Abbildung 169: Odinal 281
Abbildung 170: Disordinal 282
Abbildung 171: Hybrid 283
Abbildung 172: Vorgehen in SPSS 289
Abbildung 173: SPSS Ausgaben 290
Abbildung 174: Vorgehen in SPSS 295
Abbildung 175: SPSS Ausgaben 297
Abbildung 176: Vorgehen in SPSS 305
Abbildung 177: SPSS Ausgaben 308
„Missing data, where valid values on one or more variables are not available for analysis, are a fact of life in multivariate analysis.“ (Hair, Black, Babin, & Anderson, 2010, S. 42).
Missing Values sind fehlende Werte in den erhobenen Daten, die sich auf wenigen Variablen/ Fällen sammeln oder über den gesamten Datensatz verteilt vorhanden sein können. Sie bedrohen die Validitäten der durchgeführten Studie und können das Verständnis für Effekte beeinflussen. Besonders in der multivariaten Datenanalyse kommen fehlende Werte sehr häufig vor. Aus diesem Grund ist ihre Betrachtung von großer Bedeutung. (Bankhofer, 1995) & (Hair, 2010, S. 42-43)
Missing Values können aus drei folgenschweren Gründen fehlen. Ein erster Aspekt ist der Proband selbst, der das Vorkommen fehlender Werte verursacht. Das ist beispielsweise der Fall, wenn jemand eine Frage nicht beantworten möchte. Ein zweiter Grund ist das Studiendesign selbst, das z.B. durch seine Länge zu viel Zeit von den Probanden verlangt und aus diesem Grund zu fehlenden Werten führt. Ein letzter grundlegender Aspekt ist die Interaktion zwischen Probanden und dem Studiendesign/ Versuchsleiter. Probanden sind eventuell nicht fähig genug eine Frage zu beantworten. Es könnte auch sein, dass die Fragen zu intim sind und der Proband nicht antworten möchte. (Ausführliche Darbietung der Gründe siehe: die Ursache fehlender Werte) (Bankhofer, 1995, S. 5-12)
Fehlende Werte haben einen Einfluss auf die Generalisierbarkeit der Daten. Beispielsweise ist die Verallgemeinerung der Ergebnisse nicht möglich, wenn die Mehrheit der Studienteilnehmer, denen es während des Experiments schlecht erging, abbricht und deswegen die Ergebnisse vor allem auf den Probanden beruhen, die positiv auf die Bedingung reagiert haben. Ebenfalls können falsche Schlussfolgerungen gezogen werden, wenn die fehlenden Daten die Beziehungen zwischen den Variablen beeinflussen. Außerdem können Missing Values (fehlende Werte) zu nichtrepräsentativen Stichproben führen, wenn als Verfahren z.B. der listenweise Fallausschluss (siehe Kapitel: Vorgehen) genutzt wird. Ebenfalls haben fehlende Werte einen Einfluss auf die unterschiedlichen Validitäten, was mit dem Problem der Generalisierbarkeit einhergeht. (Hair, 2010, S. 42-43) & (Bankhofer, 1995, S. 25-27)
Die Ursachen fehlender Werte sind in drei großen Bereichen der empirischen Forschung zu finden. Beginnend mit dem Untersuchungsdesign, über die Datenerhebung selbst und auch in der Datenauswertung können Gründe für das Entstehen fehlender Werte gefunden werden.
a) Untersuchungsdesign
Grundsätzlich gilt, dass das Untersuchungsdesign so umfangreich wie nötig und so knapp wie möglich sein sollte, um möglichst viele Informationen durch möglichst wenige Variablen und wenig (Zeit)Aufwand der Probanden zu generieren. Folgende Ursachen können Gründe für das Entstehen von fehlenden Werten sein: (Bankhofer, 1995, S. 8-12)
Das Untersuchungsdesign wird so bestimmt, dass es sehr wahrscheinlich abzusehen ist, dass es zu fehlenden Werten kommt. Beispiel: Wenn in einer Studie das Merkmal „Alter des Ehepartners“ abgefragt wird und sich jedoch auch unverheiratete Personen unter den Probanden befinden, kommt es, soweit keine „Non-Option“ gibt, zu fehlenden Werten. Ein weiteres Beispiel wäre: Es wird nach dem Alter der Kinder gefragt, ohne angeben zu können, keine zu haben. Bei kinderlosen Personen kommt es hier zu fehlenden Werten. (Bankhofer, 1995, S. 8-12)
Das Design kann durch unübersichtliche Anordnungen, missverständliche Fragen, unbekannten Wörtern oder Redewendungen in den Fragestellungen fehlende Werte verursachen. (Bankhofer, 1995, S. 8-12)
b) Die Datenerhebung
Auch die Datenerhebung selbst kann für fehlende Werte verantwortlich sein. Folgende Gründe könnte es geben:
Übersehen von Fragen:
Bei schriftlichen Befragungen kann es sein, dass der Proband eine Frage übersieht. Das kann dem Interviewer auch bei einer mündlichen Untersuchung passieren. Gründe dafür sind zumeist Ablenkung oder technische Mängel in der Untersuchung. (Bankhofer, 1995, S. 8-12)
Mangelndes Wissen:
Der Proband ist selbst mit Mühe nicht in der Lage eine Frage zu beantworten. Das ist besonders dann der Fall, wenn die Fragen auf Ereignisse abzielen, die längere Zeit zurückliegen. (Bankhofer, 1995, S. 8-12)
Dieser Art der fehlenden Werte klammern Angaben, wie z.B. „Ich weiß nicht“ aus, da diese vor allem auf eine Unentschlossenheit oder Unentschiedenheit der Probanden zurückgehen. Solche unentschlossenen Angaben sind keine fehlenden Werte, sondern Informationen.
Antwortverweigerung:
Ein Proband verweigert die Antwort auf eine Frage, unabhängig ob diese schriftlich oder mündlich gestellt wurde. Insbesondere tritt diese Ursache fehlender Werte dann auf, wenn die befragten Personen eine Verletzung der Privatsphäre vermuten. Beispiel: Probanden beantworten Fragen nach dem eigenen Trink-, Rauch- oder Sexualverhalten bewusst nicht. (Bankhofer, 1995, S. 8-12)
Motivationsprobleme:
Geringe Motivation von dem Interviewer oder der Testperson sorgen ebenfalls für Missing Values. Die fehlende Motivation geht auf eine Abneigung gegen die Befragungssituation, den Interviewer, die Erhebung allgemein oder auf die Länge der Befragung zurück. Ein Mangel an Motivation kann, z.B. auf geringe Vergütung, zurückgeführt werden. (Bankhofer, 1995, S. 8-12)
Verständnisprobleme:
Der Befragte kann die ihm gestellte Frage nicht richtig verstehen und hat deswegen Probleme zu antworten. (Bankhofer, 1995, S. 8-12)
Meinungslosigkeit:
Der Proband gibt keine Antwort auf eine Frage nach seiner Meinung, weil er entweder keine Meinung zu dieser Thematik hat oder sie nicht formulieren kann. (Bankhofer, 1995, S. 8-12)
Zeitprobleme:
Eine befragte Person hat zur Beantwortung eines Fragebogens nur limitiert Zeit und ist nicht in der Lage, alle ihr gestellten Fragen in dieser Zeit zu beantworten. In solchen Fällen sammeln sich die fehlenden Werte am Ende der Befragung. (Bankhofer, 1995, S. 8-12)
Filterführung des Interviewers:
Während der Befragung überspringt der Interviewer absichtlich bestimmte Fragen. Beispiel: Die Befragten, die angeben Raucher zu sein, werden weitere Fragen zu diesem Thema gestellt. Andere, die angeben Nichtraucher zu sein, haben dadurch bei den Fragen über Rauchen fehlende Werte. (Bankhofer, 1995, S. 8-12)
Unaufmerksamkeit des Beobachters:
Werden in einer Studie auf Beobachtungen wert gelegt, erhält man fehlende Werte, wenn der Beobachter in der Zeit unaufmerksam ist und ihm deshalb der zu beobachtenden Sachverhalt entgeht. (Bankhofer, 1995, S. 8-12)
Technische Mängel:
Fehlende Werte können auf technische Defekte zurückgeführt werden. Beispiel: Bei Video- und Blickaufzeichnungen (z.B. Eye-Tracking-Studien) wird durch einen technischen Mangel der zu beobachtende Sachverhalt (die Blickrichtung) verpasst bzw. nicht erfasst. (Bankhofer, 1995, S. 8-12)
c) Die Datenauswertung
Auch in der Datenauswertung können einige Ursachen für fehlende Werte gefunden werden.
Codierungsfehler:
Fehlende Werte entstehen dann, wenn eigentlich vorhandene Werte irrtümlicherweise als fehlend codiert werden. (Bankhofer, 1995, S. 8-12)
Übertragungsfehler:
Wenn Daten beispielsweise von einem schriftlichen Fragebogen in SPSS überführt werden und dabei manuell eingetippt werden müssen, kann es zu fehlenden Werten kommen. Diese können auch durch Fehler beim elektronischen Einlesen von Daten und deren Abspeicherung hervorgerufen werden. (Bankhofer, 1995, S. 8-12)
Löschung von unmöglichen Daten:
Ein Wert wird aus dem Datensatz entfernt, weil er in diesem Kontext unmöglich sein kann, was bei der Überprüfung der Daten sichtbar wird. Beispiel: Alphanumerische Zeichen werden gelöscht, wenn sie bei einer Variablen auftreten, die eigentlich nur numerische Ausprägungen besitzen darf. (Bankhofer, 1995, S. 8-12)
Löschung von fehlerhaften Daten:
Daten werden bei der Überprüfung als fehlerhaft erkannt und vom Forscher oder der Forscherin entfernt, obwohl sie grundsätzlich realisierbar wären und eigentlich korrekt sind. (Bankhofer, 1995, S. 8-12)
Aus dem Problem der fehlenden Werte können konkrete Folgen für die Praxis abgeleitet werden. Diese sind unter anderem Fehler in den statistischen Daten, Biases (=systematische Fehler) in den Parameterschätzungen, fehlerhafte Interpretationen der Ergebnisse sowie das Begrenzen der Repräsentativität und der Stärke der Stichprobe. So kann es durch Missing Values zu fehlerhaften statistischen Ergebnissen kommen, die bei Beachtung der fehlenden Werte anders ausgefallen wären. Werden fehlende Werte in den Datensätzen von Forschern vernachlässigt, ist dieses Vorgehen nicht mit einer wissenschaftlichen Arbeitsweise vereinbar. Besonders die Validität einer Studie wird von Missing Values beeinflusst. (Bankhofer, 1995, S. 25-27) & (Hair, 2010, S. 42-43)
Abbildung 1: Übersicht Validität
Eigene Darstellung, Quelle: vgl. (Lüdtke & Trautwein, 2007)
Konstruktvalidität gibt an, wie gut die erfassten Variablen das vorgesehene Konstrukt messen und wie gut die Werte die relevanten Variablen voraussagen. Ist die Konstruktvalidität hoch, dann fallen die Testwerte so aus, wie es die Theorie und die Hypothese vorgibt. (Döring & Bortz, 2016)
Durch fehlende Werte in den Variablen ist es möglich, dass das zu erfassende Konstrukt (eine Fragestellung oder eine Hypothese) dahinter nicht vollständig oder fehlerhaft erschlossen wird. Besonders im Fall der mono-Operations sind fehlende Daten besonders nachteilig. Mono-Operations sind einzelne Messungen, die durch ein einzelnes Item oder multiple Items bestehen und zur Repräsentation des Konstrukts bzw. Konzepts dienen. Das ist z.B. dann der Fall, wenn das Rauchverhalten (als Konstrukt) durch die Anzahl konsumierter Zigaretten in den letzten 24 Stunden gemessen wird. Fehlt der Wert für die konsumierten Zigaretten, kann das Konstrukt Rauchen nicht erfasst werden. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Ein kleinerer Item-Pool führt ebenfalls mit fehlenden Werten zu einer größeren Fehlervarianz und diese dann wiederum zu geringerer Reliabilität in den Messungen. Der Informationsverlust, welcher mit Missing Values einhergeht, führt außerdem zu unvollständigen Repräsentationen des Konstrukts und damit automatisch zu einer kleineren Konstruktvalidität.
Die interne Validität ist gegeben, wenn Unterschiede in der abhängigen Variablen mit Sicherheit auf Unterschiede in der unabhängigen Variablen zurückgeführt werden können.
Die interne und externe Validität beeinflussen sich gegenseitig. Durch die mit fehlenden Werten einhergehende Stichprobenselektion gibt es Unterschiede in den Gruppen, die wiederum zu einem systematischen Fehler führen. Dadurch entstehen nicht-repräsentative Stichproben, die neben der internen auch die externe Validität verkleinern. Durch Randomisierung, d.h. Probanden werden zufällig auf unterschiedliche und identische Gruppen aufgeteilt, kann es auch zu fehlenden Werten kommen. Wenn es teilnehmerbedingt zu fehlenden Werten kommt, verursacht dieser Grund der fehlenden Werte ungleiche Stichprobengrößen, was wiederum die statistischen Voraussetzungen für viele Vorgänge in SPSS verletzt, wodurch es zu einer kleineren Validität in den Ergebnissen der statistischen Auswertung kommt. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Die externe Validität gibt an, inwieweit sich die Testergebnisse über die Untersuchungssituation verallgemeinern lassen (Döring & Bortz, 2016). Bei homogenen Stichproben (viele Probanden ähneln sich) ist die Streuung der Werte/ Antworten gering. Der Test wird also schneller signifikant, aber die Repräsentativität der Ergebnisse für eine heterogene Grundgesamtheit sinkt. Wenn fehlende Werte in den Daten auftreten, dann kann es zu Schwierigkeiten mit den Schlussfolgerungen und Interpretationen der Ergebnisse kommen. Dies kann falsche Rückschlüsse hervorrufen, die dann möglicherweise falsche Richtlinien verursachen. (Allison, 2002) & (McKnight, McKnight, Sidani, & Figueredo, 2007) & (Schafer & Graham, 2002)
Um die richtigen Methoden zur Behandlung fehlender Werte auswählen zu können, ist es von Bedeutung zu wissen, ob hinter den fehlenden Werten eine Systematik liegt. Die Klassifikation der fehlenden Werte erfolgt nach der Arbeit von Rubin in drei Arten (Rubin, 1976):
Abbildung 2: Missing at completely random
Eigene Darstellung, Quelle: (IBM®, 2020)