SPSS

Umfassendes Handbuch zu Statistik und Datenanalyse

Felix Brosius

Literaturverzeichnis

Impressum

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.d-nb.de> abrufbar.

ISBN 978-3-95845-670-9

8. Auflage 2018

www.mitp.de

E-Mail: mitp-verlag@sigloch.de

Telefon: +49 7953 / 7189 - 079

Telefax: +49 7953 / 7189 - 082

© 2018 mitp Verlags GmbH & Co. KG

Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.

Lektorat: Katja Völpel

Sprachkorrektorat: Simone Fischer

Covergestaltung: Christian Kalkert, Sandrina Dralle

Coverbild: AdobeStock.com/Tiero

electronic publication: III-satz, Husby, www.drei-satz.de

Dieses Ebook verwendet das ePub-Format und ist optimiert für die Nutzung mit dem iBooks-reader auf dem iPad von Apple. Bei der Verwendung anderer Reader kann es zu Darstellungsproblemen kommen.

Der Verlag räumt Ihnen mit dem Kauf des ebooks das Recht ein, die Inhalte im Rahmen des geltenden Urheberrechts zu nutzen. Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheherrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und Einspeicherung und Verarbeitung in elektronischen Systemen.

Der Verlag schützt seine ebooks vor Missbrauch des Urheberrechts durch ein digitales Rechtemanagement. Bei Kauf im Webshop des Verlages werden die ebooks mit einem nicht sichtbaren digitalen Wasserzeichen individuell pro Nutzer signiert.

Bei Kauf in anderen ebook-Webshops erfolgt die Signatur durch die Shopbetreiber. Angaben zu diesem DRM finden Sie auf den Seiten der jeweiligen Anbieter.

Kapitel 43: Zeitreihen: Autokorrelation und Kreuzkorrelation

Bei​ Zeitreihendaten​ ist häufig das Phänomen zu beobachten, dass die Werte der Zeitreihe zeitverzögert mit sich selbst korreliert sind. Dies bedeutet, dass ein Zusammenhang zwischen den zu unterschiedlichen Zeitpunkten beobachteten Werten besteht und aus einer heutigen Beobachtung möglicherweise Schlüsse auf spätere Beobachtungen gezogen werden können. Ein solcher Zusammenhang könnte beispielsweise vorliegen, wenn man jeden Tag die durchschnittliche Tagestemperatur an einem bestimmten Ort misst. Obwohl im Verlauf eines Jahres möglicherweise Werte zwischen -20° und +35° zu messen sind, werden die Werte zweier aufeinander folgender Tage selten mehr als 5° voneinander abweichen und meistens noch wesentlich dichter beieinander liegen. Die an einem bestimmten Tag gemessene Temperatur lässt damit bereits Rückschlüsse auf die Temperatur des Folgetages zu, denn wird eine Tagestemperatur von 20° gemessen, liegt auch die Temperatur am nächsten Tag mit hoher Wahrscheinlichkeit in der Nähe von 20°. Eine derartige Autokorrelation kann nicht nur zwischen den unmittelbar aufeinander folgenden Beobachtungen bestehen, sondern auch mit größerer Zeitverzögerung auftreten. Beispielsweise liegt bei Quartalsdaten häufig eine Korrelation zwischen den jeweils vier Perioden voneinander entfernten Beobachtungen vor. Mit einem Autokorrelationsdiagramm​ kann eine Zeitreihe daraufhin untersucht werden, ob Autokorrelation vorliegt. Dabei lässt sich zugleich der Grad der Autokorrelation identifizieren.

Werden zwei Zeitreihen​ gleichzeitig betrachtet, kann sich das Phänomen der zeitverzögerten Korrelation auch zwischen den Zeitreihen ergeben. Es besteht dann eine Korrelation zwischen den Beobachtungen einer Zeitreihe und den jeweils um eine oder mehrere Perioden vorausgehenden Beobachtungen der anderen Zeitreihe. In einem solchen Fall spricht man von Kreuzkorrelation​, die sich mit Hilfe von Kreuzkorrelationsdiagrammen erkennen lässt. Auto- und Kreuzkorrelationsdiagramme sind in gleicher Weise zu interpretieren; im folgenden Beispiel werden lediglich Autokorrelationsdiagramme betrachtet, die Erläuterungen gelten jedoch analog für Kreuzkorrelationsdiagramme.

43.1  Autokorrelation​

Abbildung 43.1 stellt den Verlauf der Arbeitslosenquote in den alten Bundesländern für den Zeitraum von 1960 bis 1994 dar. Das Diagramm wurde mit dem Befehl Analysieren, Vorhersage, Sequenzdiagramme erstellt, die Daten finden Sie in der Datei Makrodaten_abl.sav unter den Beispieldaten dieses Buches. Die Variable alq enthält die dargestellte Arbeitslosenquote. In der Grafik ist zu erkennen, dass die Arbeitslosenquote eines Jahres offenbar nicht vollkommen unabhängig von der entsprechenden Quote des Vorjahres bzw. von weiter zurückliegenden Arbeitslosenquoten ist. Vielmehr scheinen die Arbeitslosenquoten benachbarter Jahre relativ ähnlich zu sein, während bei weiter auseinander liegenden Jahren größere Unterschiede auftreten.

Abb. 43.1: Arbeitslosenquote für die »alte Bundesrepublik« von 1960 bis 1994

Einfache Autokorrelation

Autokorrelationsdiagramme für die Arbeitslosenquote werden mit den folgenden Einstellungen erzeugt:

  • Befehl. Zum Erstellen von Autokorrelationsdiagrammen wählen Sie den Befehl Analysieren, Vorhersage, Autokorrelationen.

  • Beschreibung des Diagramms. Fügen Sie in dem Dialogfeld dieses Befehls die Variable alq in das Feld Variablen ein. Alle übrigen Einstellungen werden unverändert übernommen, insbesondere bleiben die beiden Optionen der Gruppe Anzeigen angekreuzt. Die verwendeten Einstellungen sind in dem Dialogfeld aus Abbildung 43.4 wiedergegeben.

Diese Einstellungen liefern unter anderem die Grafik aus Abbildung 43.2. Das Diagramm zeigt die Stärke der Autokorrelation für verschiedene Verzögerungen (Lags) an. Es werden 1 bis 16 Lags dargestellt,[1] die größte berücksichtigte Verzögerung beträgt also 16 Perioden und damit in diesem Beispiel 16 Jahre. Die stärkste Autokorrelation wird bei einer Verzögerung von nur einem Jahr beobachtet. Für die Autokorrelation zwischen den unmittelbar aufeinander folgenden Werten ergibt sich ein Koeffizient von ungefähr 0,9, sodass der Zusammenhang zwischen den Arbeitslosenquoten der jeweils aufeinander folgenden Jahre sehr stark zu sein scheint. (Bei einer perfekten positiven Korrelation würde sich ein Wert von 1 ergeben, bei einer perfekten negativen Korrelation ein Wert von -1.) Die beiden schwarzen Linien in dem Diagramm stellen die Grenzen der 95 %-Konfidenzintervalle dar. Für Lags, bei denen die ausgewiesene Korrelation über diesen Signifikanzgrenzen liegt, ist mit einer Wahrscheinlichkeit von über 95 % somit tatsächlich Autokorrelation vorhanden. Korrelationen, die zwischen die Signifikanzgrenzen fallen, sind so gering, dass sie möglicherweise nur in der betrachteten Stichprobe, nicht aber in der Grundgesamtheit vorliegen.

Abb. 43.2: Autokorrelationsdiagramm für die Arbeitslosenquote

Partielle Autokorrelation​​

Die in Abbildung 43.2 ausgewiesenen Korrelationen nehmen mit zunehmender Verzögerung ab und werden nach mehr als elf Verzögerungen sogar negativ. Für eine Verzögerung zwischen einem und neun Jahren werden signifikante positive Korrelationen ausgewiesen. Dabei stellt sich jedoch die Frage, ob diese Korrelationen tatsächlich daraus resultieren, dass sich die Arbeitslosenquote eines Jahres unmittelbar auf die neun Jahre später zu messende Quote auswirkt, oder ob sich nicht vielmehr die berechneten Korrelationen lediglich aus den Korrelationen zwischen den unmittelbar aufeinander folgenden Beobachtungen ergeben, die in jeweils abgeschwächter Form auf größere Verzögerungen zurückwirken. Die Korrelationen größerer Lags, die jeweils um die Korrelationen geringerer Verzögerungen bereinigt wurden, werden als partielle Korrelationen bezeichnet. Zur Darstellung dieser partiellen Korrelationen wurde von SPSS automatisch ein zweites Diagramm gezeichnet, das in Abbildung 43.3 wiedergegeben ist.

Diese Grafik zeigt ein vollkommen anderes Bild als das Diagramm aus Abbildung 43.2. Die Autokorrelation für direkt aufeinander folgende Werte wird unverändert hoch mit ungefähr 0,9 ausgewiesen und liegt deutlich über der 95 %-Signifikanzgrenze. Die Autokorrelationen höherer Lags sind dagegen alle sehr viel geringer und zudem nicht signifikant. Auch wechseln sich positive und negative partielle Korrelationen scheinbar zufällig und wenig plausibel ab. Die Darstellung legt somit den Schluss nahe, dass bei der Arbeitslosenquote eine starke Autokorrelation zwischen benachbarten Werten und keine direkte Autokorrelation höherer Lags vorliegt.

Abb. 43.3: Partielle Autokorrelation für die Arbeitslosenquote

43.2  Erstellen von Zeitreihendiagrammen

Um Autokorrelationsdiagramme​ zu erstellen, öffnen Sie das Dialogfeld aus Abbildung 43.4 mit dem Befehl Analysieren, Vorhersage, Autokorrelationen. Das abgebildete Dialogfeld zeigt die Einstellungen, mit denen die beiden Autokorrelationsdiagramme aus Abbildung 43.2 und Abbildung 43.3 erzeugt wurden.

Kreuzkorrelationsdiagramme​ erstellen Sie mit dem Befehl Analysieren, Vorhersage, Kreuzkorrelationen. Das Dialogfeld zum Erstellen von Kreuzkorrelationsdiagrammen ist weitgehend identisch mit dem Dialogfeld Autokorrelationen, enthält jedoch nicht die Optionen aus der Gruppe Anzeigen.

Abb. 43.4: Erstellen von Autokorrelationsdiagrammen

Anzeigen

Diese Option steht nur für Autokorrelationsdiagramme zur Verfügung. Per Voreinstellung werden für jede ausgewählte Variable sowohl einfache als auch partielle Autokorrelationen dargestellt, Sie können aber auch eine der beiden folgenden Optionen abwählen.

  • Autokorrelationen. Mit dieser Option erstellen Sie eine Grafik, in der die Autokorrelationskoeffizienten der einzelnen Intervalle (Verzögerungen) dargestellt werden. Zusätzlich wird in der Grafik das zweiseitige 95 %-Konfidenzintervall für das Vorliegen von Autokorrelation in der Grundgesamtheit eingezeichnet. Ergänzend wird in die Ausgabedatei eine Tabelle geschrieben, die zu jedem Lag die genauen Korrelationskoeffizienten, die Standardfehler und die Box-Ljung-Statistik mit dem Signifikanzniveau ausweist. Für die Berechnung des Standardfehlers können Sie in dem Dialogfeld der Schaltfläche Optionen zwischen zwei Alternativen wählen; siehe unten.

  • Partielle Autokorrelationen. Diese Option erzeugt Grafiken für partielle Korrelationskoeffizienten. In einem Diagramm werden die Koeffizienten der einzelnen Lags mit dem zweiseitigen 95 %-Konfidenzintervall dargestellt. Eine ergänzende Tabelle nennt zusätzlich die genauen Korrelationskoeffizienten sowie die Standardfehler.

Transformieren

Wenn die Werte der Zeitreihe einen Trend aufweisen, zum Beispiel in der Tendenz linear ansteigen oder eine exponentielle Kurve beschreiben, kann es sinnvoll sein, die Werte zu transformieren und die Autokorrelationen der transformierten Werte (beispielsweise der Differenzen oder der Logarithmen) zu betrachten, da diese häufig stationär sind, also keinen Trend mehr aufweisen. Die gebräuchlichsten Transformationen werden bei der Autokorrelationsprozedur angeboten. Diese wirken sich lediglich auf die Berechnung der Korrelationen aus, die Werte in der Datendatei bleiben unverändert. Wählen Sie zum Transformieren der Werte zwischen den folgenden Optionen:

  • Natürlicher Logarithmus. Verwenden Sie diese Option, um die Autokorrelationskoeffizienten für die natürlichen Logarithmen (Logarithmen zur Basis e) der Originalwerte zu berechnen. Enthält die Zeitreihe Werte kleiner oder gleich 0, für die der Logarithmus nicht definiert ist, werden diese wie fehlende Werte behandelt und aus der Prozedur ausgeschlossen; darauf wird dann mit einer entsprechenden Warnung in der Ausgabedatei hingewiesen.

  • Differenz. Mit dieser Option werden die Autokorrelationen für die Differenzen der einzelnen Werte einer Zeitreihe berechnet. Dabei können Sie den Grad der Differenzbildung vorgeben. Per Voreinstellung werden die Differenzen vom Grad 1 gebildet, also jeweils die Differenzen zweier zeitlich aufeinander folgender Werte. Die Differenzen vom Grad 2 ergeben sich, indem zunächst die Differenzen vom Grad 1 berechnet und anschließend für die Folge der so berechneten Werte noch einmal die Differenzen gebildet werden. Die Differenzen vom Grad 2 sind somit die Differenzen der Differenzen. Die Anzahl der nach der Transformation verfügbaren Werte verringert sich um den Grad der Differenzbildung, da für die ersten Fälle keine Differenzen berechnet werden können.

  • Saisonale Differenz​. Diese Option wird nur angeboten, wenn in der Datendatei mit dem Befehl Daten, Datum und Uhrzeit definieren ein Zeitreihenformat definiert wurde. Sie können dann wie bei der vorhergehenden Option Differenz die Differenzen zwischen einzelnen Werten berechnen lassen, wobei sich der Grad der Differenzbildung nicht auf einzelne Fälle, sondern auf die Periodizität des Zeitreihenformats bezieht. Enthält die Datendatei zum Beispiel Quartalsdaten und weist damit eine Periodizität von 4 auf, so werden die Differenzen ersten Grades berechnet, indem von jedem Wert der um vier Perioden vorausgehende Wert abgezogen wird.

Optionen

Mit der Schaltfläche Optionen öffnen Sie das Dialogfeld aus Abbildung 43.5, in dem Sie die Anzahl der zu berücksichtigenden Zeitintervalle vorgeben und zwischen zwei alternativen Berechnungsmethoden für den Standardfehler einfacher Autokorrelationskoeffizienten wählen können. Ist in der Datendatei ein Zeitreihenformat mit einer Periodizität definiert, können Sie wählen, ob als Grundlage der Autokorrelationskoeffizienten die einzelnen Fälle der Datei oder die verschiedenen Perioden des Datums verwendet werden sollen.

Abb. 43.5: Optionen für Autokorrelationsdiagramme

  • Maximale Anzahl von Lags. Per Voreinstellung werden bei Autokorrelationsdiagrammen 16 Lags berücksichtigt. Sie können eine andere Zahl zwischen 1 und 999 eingeben, um alle Korrelationskoeffizienten für weiter oder weniger weit auseinander liegende Beobachtungen zu berechnen.

    Bei Kreuzkorrelationsdiagrammen ist die Anzahl von sieben Zeitintervallen voreingestellt. Dabei werden insgesamt 15 Korrelationskoeffizienten berechnet, denn jede Zeitreihe wird einmal gegenüber der jeweils anderen um eine bis sieben Perioden verzögert. Zusätzlich gibt ein Koeffizient die einfache Korrelation (ohne zeitliche Verzögerung einer Zeitreihe, also mit einem Lag von 0) zwischen den Zeitreihen an.

  • Methode für Standardfehler. Diese Option steht nur bei der Prozedur Autokorrelationen zur Verfügung und bezieht sich dabei lediglich auf die einfachen Autokorrelationskoeffizienten. Sie ist daher nicht aktiv, wenn im Hauptdialogfeld nur die Berechnung partieller Korrelationen ausgewählt ist. Für den Standardfehler der Korrelationskoeffizienten können Sie zwischen den beiden folgenden Optionen wählen:

    • Unabhängigkeitsmodell. Diese Option ist voreingestellt. Bei der Berechnung des Standardfehlers wird angenommen, dass »weißes Rauschen« vorliegt, die Werte also nicht einem Muster folgen.

    • Bartlett-Approximation. Bei dieser Methode basiert die Berechnung der Standardfehler auf einer Approximation, die zutrifft, wenn die Werte einen gleitenden Durchschnitt mit einer Ordnung von k – 1 aufweisen. Mit zunehmenden Lags wachsen auch die Standardfehler.

  • Autokorrelationen für periodische Intervalle anzeigen. Diese Option steht nur zur Verfügung, wenn in der Datendatei mit dem Befehl Daten, Datum und Uhrzeit definieren ein periodisches Zeitreihenformat festgelegt wurde. Kreuzen Sie die Option an, um die Autokorrelationen nicht für Lags einzelner Zeitintervalle (benachbarter Fälle), sondern für Lags über die gesamte Periodizität zu berechnen. Weist die Datendatei eine Periodizität von 5 auf (weil zum Beispiel für jeden Arbeitstag eine Beobachtung vorliegt), werden lediglich Korrelationen für Lags von 5, 10, 15 etc. berechnet, sodass jeweils die Werte des gleichen Wochentages miteinander verglichen werden.


[1] Die Zahl der zu berücksichtigenden Lags können Sie beim Erstellen der Grafik in dem Dialogfeld der Schaltfläche Optionen festlegen, siehe auch [hier].