Cover

Titelblatt

WILEY END USER LICENSE AGREEMENT

Besuchen Sie www.wiley.com/go/eula, um Wiley's E-Book-EULA einzusehen.

1-4

Statistik mit R für Dummies

Schummelseite

R stellt Ihnen eine Vielzahl von Funktionen zur Verfügung, die Ihnen die Arbeit erleichtern. Mit den Funktionen können Sie einfache Statistiken berechnen sowie komplexe Analysen durchführen.

Diese Schummelseite stellt eine Auswahl der Funktionen vor, die sich in der Basisinstallation von R befinden. Zahlreiche weitere Funktionen finden Sie in sogenannten R-Packages, die Sie bei Bedarf installieren können.

Zentrale Tendenz und Variabilität

Funktion

Was die Funktion berechnet

mean(x)

Mittelwert der Zahlen im Vektor x

median(x)

Median der Zahlen im Vektor x

var(x)

Geschätzte Varianz der Grundgesamtheit, aus der die Stichprobe im Vektor x gezogen wurde

sd(x)

Geschätzte Standardabweichung der Grundgesamtheit, aus der die Stichprobe im Vektor x gezogen wurde

scale(x)

Standardwerte (z-Werte) der Zahlen im Vektor x

Relativer Rang

Funktion

Was die Funktion berechnet

sort(x)

Sortiert die Zahlen im Vektor x in aufsteigender Reihenfolge.

sort(x)[n]

Die n-kleinste Zahl im Vektor x

rank(x)

Bestimmt den Rang (aufsteigend) der Werte im Vektor x

rank(-x)

Bestimmt den Rang (absteigend) der Werte im Vektor x

rank(x, ties.method= "average")

Bestimmt den Rang der Werte im Vektor x. Gleichen Werten wird der Mittelwert der Ränge zugewiesen, die sie erhalten würden.

rank(x, ties.method= "min")

Bestimmt den Rang der Werte im Vektor x. Gleichen Werten wird die kleinere Rangzahl zugewiesen.

rank(x, ties.method= "max")

Bestimmt den Rang der Werte im Vektor x. Gleichen Werten wird die größere Rangzahl zugewiesen.

quantile(x)

Gibt das 0-Prozent-, 25-Prozent-, 50-Prozent-, 75-Prozent- und das 100-Prozent-Quantil der Werte im Vektor x zurück. Ja, es handelt sich hierbei um die Quartile. (Nein, es handelt sich nicht um einen Druckfehler. Die Funktion quantile() gibt die Quartile von x zurück.)

t-Test

Funktion

Was die Funktion berechnet

t.test(x,mu=n, alternative = "two.sided")

Zweiseitiger t-Test, der prüft, ob sich der Mittelwert der Zahlen im Vektor x von n unterscheidet

t.test(x,mu=n, alternative = "greater")

Einseitiger t-Test, der prüft, ob der Mittelwert der Zahlen im Vektor x größer ist als n

t.test(x,mu=n, alternative = "less")

Einseitiger t-Test, der prüft, ob der Mittelwert der Zahlen im Vektor x kleiner ist als n

t.test(x,y,mu=0, var.equal = TRUE, alternative = "two.sided")

Zweiseitiger t-Test, der prüft, ob sich der Mittelwert der Zahlen im Vektor x vom Mittelwert im Vektor y unterscheidet. Es wird davon ausgegangen, dass die Varianzen der beiden Vektoren identisch sind.

t.test(x,y,mu=0, alternative = "two.sided", paired = TRUE)

Zweiseitiger gepaarter t-Test, der prüft, ob sich der Mittelwert der Zahlen im Vektor x vom Mittelwert im Vektor y unterscheidet. Die Vektoren enthalten zusammenhängende Stichproben.

Varianzanalyse (ANOVA)

Funktion

Was die Funktion berechnet

aov(y~x, data = d)

Einfaktorielle Varianzanalyse, bei der die Zahlen im Vektor y die abhängige und die Zahlen im Vektor x die unabhängige Variable enthalten. Die Daten befinden sich im Datensatz d.

aov(y~x + Error(w/x), data = d)

Varianzanalyse mit Messwiederholungen. Die Werte im Vektor y enthalten die abhängige Variable und die Werte im Vektor x die Stufen einer unabhängigen Variablen. Error(w/x) gibt an, dass jedes Element im Vektor w alle Stufen von x durchläuft (das heißt, x ist eine wiederholte Messung). Die Daten befinden sich im Datensatz d.

aov(y~x*z, data = d)

Zweifaktorielle Varianzanalyse, bei der die Werte in Vektor y die abhängige Variable und die Elemente in den Vektoren x und z die Stufen von zwei unabhängigen Variablen enthalten. Die Daten befinden sich im Datensatz d.

aov(y~x*z + Error(w/z), data = d)

Gemischte ANOVA. Die Werte in Vektor z enthalten die abhängige Variable und die Elemente der Vektoren y und x die Stufen der unabhängigen Variablen. Error(w/z) gibt an, dass jedes Element im Vektor w alle Stufen von z durchläuft (das heißt, z ist eine wiederholte Messung). Die Daten befinden sich im Datensatz d.

Korrelation und Regression

Funktion

Was die Funktion berechnet

cor(x,y)

Korrelationskoeffizient für die Beziehung zwischen den Zahlen im Vektor x und den Zahlen im Vektor y

cor.test(x,y)

Korrelationskoeffizient für die Beziehung zwischen den Zahlen im Vektor x und den Zahlen im Vektor y sowie ein t-Test der Signifikanz des Korrelationskoeffizienten.

lm(y~x, data = d)

Lineare Regressionsanalyse, bei der die Zahlen im Vektor y die abhängige und die im Vektor x die unabhängige Variable darstellen. Die Daten befinden sich im Datensatz d.

coefficients(a)

Steigung und Achsenabschnitt des linearen Modells a

confint(a)

Konfidenzintervalle der Steigung und des Achsenabschnitts des linearen Modells a

lm(y~x+z, data = d)

Multiple Regressionsanalyse. Die Zahlen im Vektor y stellen die abhängige und die Zahlen in den Vektoren x und z die unabhängigen Variablen dar. Die Daten befinden sich im Datensatz d.

Wenn Sie eine Varianzanalyse oder Regressionsanalyse durchführen, speichern Sie das Ergebnis in einer Liste, zum Beispiel:

a <- lm(y~x, data = d)

Verwenden Sie anschließend die Funktion summary(), um sich die Tabelle mit den Ergebnissen anzeigen zu lassen:

summary(a)

7-8

WILEY-VCH Verlag GmbH & Co. KGaA

Statistik mit R für Dummies

Joseph Schmuller

Übersetzung aus dem Amerikanischen vonRainer G. Haselier

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

1. Auflage 2017

© 2017 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim

Original English language edition Statistical Analysis with R For Dummies © 2017 by Wiley Publishing, Inc. All rights reserved including the right of reproduction in whole or in part in any form. This translation ­published by arrangement with John Wiley and Sons, Inc.

Copyright der englischsprachigen Originalausgabe Statistical Analysis with R For Dummies © 2017 by Wiley Publishing, Inc. Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Diese Übersetzung wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.

Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.

Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Coverfoto photobuay/fotolia

Korrektur Petra Heubach-Erdmann

Satz/ePub Reemers Publishing Services GmbH, Krefeld

Print ISBN: 978-3-527-71398-1

ePub ISBN: 978-3-527-81038-3

mobi ISBN: 978-3-527-81037-6

9-10

Über den Autor

Joseph Schmuller hat langjährige Erfahrungen in der Informationstechnologie, und zwar sowohl an Hochschulen als auch in Unternehmen. Er hat auch mehrere Informatikbücher geschrieben, unter anderem »Teach Yourself UML in 24 Hours« und »Statistik mit Excel für Dummies«, das bereits in der vierten Auflage erschienen ist. Er erstellte Online-Kurse für das Bildungsunternehmen Lynda.com, das inzwischen zu Microsoft gehört, und hat zahlreiche Artikel zu fortgeschrittenen IT-Technologien verfasst. Von 1991 und 1997 war er Chefredakteur der Zeitschrift PC AI.

Er ist ehemaliges Mitglied der American Statistical Association und hat unter anderem an der University of North Florida Statistik gelehrt. Er besitzt folgende Abschlüsse im Fachgebiet Psychologie: Bachelor of Science (B.S.) vom Brooklyn College, Master of Arts (M.A.) von der University of Missouri-Kansas City und Doctor of Philosophy (Ph.D.) von der University of Wisconsin. Joseph Schmuller lebt mit seiner Familie in Jacksonville, Florida, wo er eine Forschungsprofessur an der University of North Florida innehat.

21-24

Einführung

Sie halten ein Buch über Statistik in den Händen. Okay. Aber meiner bescheidenen (und absolut parteiischen) Meinung nach ist dies nicht nur einfach ein weiteres Buch über Statistik. Außerdem ist es nicht nur einfach ein weiteres Buch zu R. Ich behaupte dies aus zwei Gründen.

Erstens lernen Sie in vielen Büchern über Statistik die Grundzüge der Statistik kennen, erfahren aber nicht, wie Sie diese anwenden können. Das führt häufig dazu, dass die grundlegenden Konzepte nicht wirklich verstanden werden. Da R speziell auf das Einsatzgebiet der Statistik zugeschnitten ist, steht Ihnen mit R ein Werkzeug zur Verfügung, mit dem Sie statische Konzepte sowohl anwenden als auch erlernen können.

Zweitens können wir das Ganze auch von der anderen Seite her betrachten. Bevor ich Ihnen etwas über eines des R-Features erzähle, erkläre ich Ihnen die statistischen Grundlagen, auf denen das jeweilige Feature beruht. So lernen Sie die Features kennen, während Sie sie nutzen. Und Sie werden sie daher effektiver einsetzen können.

Ich wollte kein Buch schreiben, das lediglich die Details von R beschreibt und ein paar clevere Programmiertechniken vorstellt. Klar, manchmal muss das sein, wenn in einem Buch die Verwendung eines Software-Pakets wie R beschrieben wird. Aber ich wollte mich darauf nicht beschränken.

Ich wollte auch kein statistisches »Kochbuch« schreiben: Wenn Problem Nr. 310 auftritt, verwenden Sie das statistische Verfahren Nr. 214. Ich wollte mich auch darauf nicht beschränken, sondern darüber hinausgehen.

Fazit: In diesem Buch geht es nicht nur um Statistik oder nur um R, sondern um beides. Im richtigen Kontext kann R ein hervorragendes Tool für die Lehre und das Erlernen von Statistik sein, und ich habe versucht, den richtigen Kontext herzustellen.

Über dieses Buch

Obwohl bei der Statistik die Themen logisch aufeinander aufbauen, habe ich dieses Buch so strukturiert, dass Sie ein beliebiges Kapitel aufschlagen und lesen können. Mir ist wichtig, dass Sie die gesuchten Informationen schnell finden und sofort anwenden können, und das unabhängig davon, ob es sich um ein Konzept der Statistik oder um ein R-Feature handelt.

Wenn es Sie jedoch interessiert, können Sie dieses Buch selbstverständlich auch von vorn bis hinten durchlesen. Wenn Sie sich mit Statistik noch nicht auskennen und R für die statistische Analyse von Daten einsetzen wollen, empfehle ich Ihnen, vorne im Buch zu beginnen.

Ähnlichkeiten mit diesem anderen »Für Dummies«-Buch

Vielleicht wissen Sie, dass ich ein weiteres Buch geschrieben haben: Statistik mit Excel für Dummies (Wiley). Dies ist keine unverschämte Werbung für dieses Buch. (Das mache ich an anderen Stellen.)

Ich möchte Sie einfach nur darüber informieren, dass die Abschnitte in diesem Buch, die statistische Konzepte erläutern, denjenigen aus dem anderen Buch ähneln. An zahlreichen Stellen verwende ich identische Beispiele oder ähnliche Sätze. Dieses Material habe ich über Jahrzehnte für Lehrveranstaltungen über Statistik entwickelt, und es hat sich als sehr effektiv erwiesen. (Es scheint so, als ob die Rezensenten es auch mögen.) Falls Sie also bereits das andere Buch gelesen haben und Sie auf R umsteigen, kann Ihnen das gemeinsame Material möglicherweise dabei helfen, den Umstieg zu meistern.

Sie wissen ja, wenn etwas funktioniert, warum sollte man es wegschmeißen?

Was Sie nicht lesen müssen

In jedem Lehrbuch finden Sie jede Menge Informationen. Da ist auch dieses Buch keine Ausnahme. Ich habe versucht, nur Nützliches in das Buch aufzunehmen. Das ist mir jedoch nicht immer gleich gut gelungen. Wenn Sie also an einem Thema nicht so besonders interessiert sind, brauchen Sie die Abschnitte, die mit dem Symbol »Vorsicht Technik!« gekennzeichnet sind, nicht zu lesen.

Gelegentlich werden Sie auf Texte in einem grauen Kasten treffen. Diese enthalten ausführlichere Informationen zu einem Thema, gehören aber nicht zum Hauptthema. Wenn Sie wenig Zeit haben, können Sie diese Kästen überspringen.

Törichte Annahmen über den Leser

Bei diesem Buch setze ich Folgendes voraus:

image Sie kennen sich mit Windows oder dem Mac aus. Ich werde nicht erläutern, wie man auf Elemente zeigt, klickt, etwas auswählt und so weiter.

image Sie können R und RStudio installieren (in Kapitel 2 zeige ich Ihnen, wie das geht) und können daher die Beispiele nachvollziehen. Ich verwende die Windows-Version von RStudio. Sie sollten aber nicht auf Probleme stoßen, wenn Sie einen Mac verwenden.

Wie dieses Buch aufgebaut ist

Ich habe dieses Buch in fünf Teile gegliedert.

Teil I: Erste Schritte bei der statistischen Analyse mit R

In Teil I finden Sie eine allgemeine Einführung in die Statistik und in R. Es werden wichtige Begriffe der Statistik beschrieben und nützliche R-Techniken erläutert. Wenn Ihr letzter Kurs in Statistik schon eine Weile her ist oder wenn Sie noch nie an einem Statistikkurs teilgenommen haben, beginnen Sie am besten hier. Wenn Sie noch nie mit R gearbeitet haben, müssen Sie auf jeden Fall mit diesem Teil beginnen.

Teil II: Daten beschreiben

Ein Teil der Statistik befasst sich mit dem sinnvollen Zusammenfassen von Daten. In diesem Teil erfahren Sie, wie Sie dabei vorgehen müssen. Die meisten Leute kennen Mittelwerte und wissen, wie diese berechnet werden. Aber das ist noch nicht alles. In diesem Teil werden Sie weitere statistische Kenngrößen zum Füllen der Lücken kennenlernen und wie Sie diese mit R berechnen und in R verwenden. In diesem Teil finden Sie außerdem eine Einführung in die grafischen Funktionen von R.

Teil III: Rückschlüsse aus Daten ziehen

In Teil III geht es um die eigentliche Aufgabe der statistischen Analyse: die Bedeutung der Zahlen zu erkennen und Ihnen beim Treffen von Entscheidungen zu helfen. Normalerweise sind die Daten Messungen einer Stichprobe aus einer Grundgesamtheit. Ziel ist es, mit diesen Daten Entwicklungen in der Grundgesamtheit zu ermitteln.

Dies wirft eine Vielzahl von Fragen auf: Welche Bedeutung hat ein Mittelwert? Was bedeutet die Differenz zwischen zwei Mittelwerten? Haben zwei Dinge etwas miteinander zu tun? Das sind nur einige wenige der Fragen, um die es in Teil III geht. In diesem Teil werden die R-Funktionen vorgestellt, mit deren Hilfe Sie diese Fragen beantworten können.

Teil IV: Umgang mit der Wahrscheinlichkeit

Die Wahrscheinlichkeit ist die Grundlage für statistische Analysen und Entscheidungsfindungen. Teil IV hat die Wahrscheinlichkeit zum Thema. Hier erfahren Sie, wie Sie die Wahrscheinlichkeit insbesondere im Bereich der Modellierung einsetzen können. R enthält zahlreiche integrierte Features, die Ihnen dabei helfen, Wahrscheinlichkeiten zu verstehen und anzuwenden. Diese Features werden in diesem Teil erläutert.

Teil V: Der Top-Ten-Teil

Im Top-Ten-Teil finden Sie ein Kapitel, das zehn Onlineressourcen vorstellt, auf denen Sie weitere Informationen zu R finden.

Symbole, die in diesem Buch verwendet werden

Wie in allen Büchern der Dummies-Reihe finden Sie auch in diesem Buch überall Symbole. Dabei handelt es sich um kleine Bildchen am Seitenrand, anhand derer Sie erkennen können, worum es in dem Abschnitt daneben geht.

Dieses Symbol ist ein Zeichen für einen Hinweis oder eine einfache Lösung, um Ihnen die Arbeit zu erleichtern.

Dieses Symbol ist ein Zeichen für zeitlose Weisheiten, die Sie auch lange, nachdem Sie das Buch gelesen haben, noch brauchen werden.

Achten Sie auf die Informationen neben diesem Symbol. Es weist darauf hin, dass Sie etwas besser nicht tun sollten, wenn Sie Ihre Arbeit nicht zunichtemachen wollen.

Wie bereits im Abschnitt »Was Sie nicht lesen müssen« weiter vorne erwähnt, steht dieses Symbol für Material, das Sie überspringen können, wenn Ihnen der Inhalt zu technisch vorkommt. (Ich habe versucht, dies auf ein Minimum zu beschränken.)

Wie es weitergeht

Sie können mit dem Lesen des Buches an jeder beliebigen Stelle beginnen, aber hier sind noch ein paar Tipps. Sie möchten die Grundlagen der Statistik kennenlernen? Dann blättern Sie eine Seite weiter. Sie möchten die Grundlagen von R und RStudio kennenlernen? Alles, was Sie dazu brauchen, finden Sie in Kapitel 2. Sie möchten lieber mit der Erstellung von Diagrammen beginnen? Dann schlagen Sie Kapitel 3 auf. Alles andere finden Sie im Inhaltsverzeichnis oder im Stichwortverzeichnis.

25-26

Teil I

Erste Schritte bei der statistischen Analyse mit R