Contents
Vorwort
Teil 1 Datentypen
1 Datentypen
1.1 Kommt es wirklich darauf an?
1.2 Daten auf einer Intervallskala
1.3 Daten auf einer Ordinalskala
1.4 Daten auf einer Nominalskala
1.5 Aufbau dieses Buchs
1.6 Kapitelzusammenfassung
Teil 2 Daten auf Intervallskalen
2 Beschreibende Statistik
2.1 Zusammenfassung von Datensätzen
2.2 Zentrale Lagemaße – der Mittelwert, der Median und der Modalwert
2.3 Beschreibung der Spannweite – die Standardabweichung und die relative Standardabweichung
2.4 Quartile – eine andere Möglichkeit, Daten zu beschreiben
2.5 Verwendung von Software für die beschreibende Statistik
2.6 Kapitelzusammenfassung
3 Die Normalverteilung
3.1 Was ist eine Normalverteilung?
3.2 Wie erkennt man nicht normalverteilte Daten?
3.3 Anteile von Einzelwerten innerhalb von einer oder zwei Standardabweichungen vom Mittelwert
3.4 Kapitelzusammenfassung
4 Stichproben aus einer Grundgesamtheit und der Standardfehler des Mittelwerts
4.1 Stichproben und Grundgesamtheiten
4.2 Von der Stichprobe zur Grundgesamtheit
4.3 Verschiedene Stichprobenfehler
4.4 Welche Faktoren bestimmen die Höhe des zufälligen Stichprobenfehlers?
4.5 Abschätzung des wahrscheinlichen Stichprobenfehlers und der Standardfehler
4.6 Aufrechnung von Stichprobengröße und Standardabweichung
4.7 Kapitelzusammenfassung
5 Das 95%-Konfidenzintervall für den Mittelwert
5.1 Was ist ein Konfidenzintervall?
5.2 Wie breit sollte das Intervall sein?
5.3 Was meinen wir mit „95%“-Konfidenz?
5.4 Berechnung der Intervallbreite
5.5 Eine Reihe von Stichproben und 95%-Konfidenzintervallen
5.6 Wie stark hängt die Breite des Konfidenzintervalls von Änderungen der Standardabweichung, des Stichprobenumfangs und des gewünschten Konfidenzniveaus ab?
5.7 Wir treffen immer zwei Aussagen
5.8 Einseitige 95%-Konfidenzintervalle
5.9 Das 95%-Konfidenzintervall für den Unterschied zweier Behandlungen
5.10 Über die Notwendigkeit, dass die Daten einer Normalverteilung folgen, und Datentransformation
5.11 Kapitelzusammenfassung
6 Der doppelte t-Test (1). Einführung in Hypothesentests
6.1 Der doppelte t-Test – ein Beispiel für einen Hypothesentest
6.2 Signifikanz
6.3 Das Risiko eines falsch-positiven Ergebnisses
6.4 Von welchen Faktoren hängt es ab, ob wir ein signifikantes oder ein nicht signifikantes Ergebnis erhalten?
6.5 Voraussetzungen für einen doppelten t-Test
6.6 Kapitelzusammenfassung
7 Der doppelte t-Test (2): Der berüchtigte p-Wert
7.1 Wie kann man die Signifikanz eines Ergebnisses beziffern?
7.2 p-Werte
7.3 Gibt es zwei Arten, Signifikanz zu definieren?
7.4 Bestimmung des p-Wertes
7.6 Kapitelzusammenfassung
8 Der doppelte t-Test (3). Falsch-negative Befunde, Güte und notwendige Stichprobenumfänge
8.1 Was könnte sonst noch schief gehen?
8.2 Die Güte
8.3 Berechnung des notwendigen Stichprobenumfangs
8.4 Kapitelzusammenfassung
9 Der doppelte t-Test (4). Statistische Signifikanz, praktische Bedeutung und Äquivalenz
9.1 Praktische Bedeutung – ist die Differenz so groß, dass sie eine Rolle spielt?
9.2 Äquivalenztests
9.3 Tests auf Nicht-Unterlegenheit
9.4 p-Werte sind weniger aussagekräftig und können förmlich in die Irre führen
9.5 Setzen von Äquivalenzgrenzen vor dem eigentlichen Versuch
9.6 Kapitelzusammenfassung
10 Der doppelte t-Test (5). Einseitige Tests
10.1 Suche nach einer Veränderung in einer bestimmten Richtung
10.2 Schutz vor falsch-positiven Befunden
10.3 Versuchung
10.4 Einsatz eines Softwarepakets bei einem einseitigen Test
10.5 Sollte man häufiger einseitige Tests einsetzen?
10.6 Kapitelzusammenfassung
11 Was sagt uns ein statistisch signifikantes Ergebnis wirklich?
11.1 Wie interpretiert man statistische Signifikanz?
11.2 Am Anfang steht äußerste Skepsis
11.3 Kapitelzusammenfassung
12 Der gepaarte t-Test – Vergleich von zwei zusammenhängenden Datensätzen
12.1 Gepaarte Datensätze
12.2 Untersuchung der Daten mithilfe eines doppelten t-Tests
12.3 Alternative Anwendung eines gepaarten t-Tests
12.4 Durchführung eines gepaarten t-Tests
12.5 Wodurch ist bestimmt, ob ein gepaarter t-Test signifikant ist?
12.6 Größere Teststärke beim gepaarten t-Test
12.7 Der gepaarte t-Test ist nur auf natürliche Paare von Daten anwendbar
12.8 Auswahl des passenden Versuchsaufbaus
12.9 Voraussetzungen für das Anwenden eines gepaarten t-Tests
12.10 Stichprobenumfänge, praktische Bedeutung und einseitige Tests
12.11 Zusammenfassung der Unterschiede zwischen dem gepaarten und dem doppelten t-Test
13 Varianzanalyse – über t-Tests hinaus
13.1 Erweiterung zu komplexen Versuchsdesigns
13.2 Einfache Varianzanalyse
13.3 Zweifache Varianzanalyse
13.4 Multifaktorenversuche
13.5 Einfache Form – starke Aussage
13.6 Kapitelzusammenfassung
14 Korrelation und Regression – Zusammenhänge zwischen Messwerten
14.1 Korrelationsanalyse
14.2 Regressionsanalyse
14.3 Mehrfache Regression
14.4 Kapitelzusammenfassung
Teil 3 Daten auf Nominalskalen
15 Beschreibung von kategorisierten Daten
15.1 Beschreibende Statistik
15.2 Tests, ob der wahre Anteil möglicherweise einen vorbestimmten Wert hat
15.3 Kapitelzusammenfassung
16 Vergleich beobachteter Anteile – der Chi-Quadrat-Kontingenztest
16.1 Anwendung des Chi-Quadrat-Kontingenztests für den Vergleich von beobachteten Anteilen
16.2 Ein 95%-Konfidenzintervall für die Änderung der Ausstoßquote – ist die Änderung von praktischer Bedeutung?
16.3 Größere Kontingenztafeln – Nutzung der Diabetes-Sprechstunde
16.4 Planung der Versuchsgröße
16.5 Kapitelzusammenfassung
Teil 4 Daten auf Ordinalskalen
17 Ordinalskalierte, nicht normalverteilte Daten. Transformationen und parameterfreie Tests
17.1 Transformation auf eine Normalverteilung
17.2 Der Mann-Whitney-Test – ein nicht parametrisches Verfahren
17.3 Umgang mit Daten auf Ordinalskalen
17.4 Andere nicht parametrische Verfahren
17.5 Kapitelzusammenfassung
17.6 Anhang zu Kapitel 17
Teil 5 Reale Herausforderungen
18 Mehrfachtests
18.1 Was ist ein Mehrfachtests und warum ist er problematisch?
18.2 Wo treten Mehrfachtests auf?
18.3 Verfahren zur Vermeidung von Falsch-positiven
18.4 Die Rolle der wissenschaftlichen Zeitschriften
18.5 Kapitelzusammenfassung
19 Fragebögen
19.1 Gibt es Besonderheiten bei Fragebögen?
19.2 Arten von Fragen
19.3 Entwurf eines Fragebogens
19.4 Stichprobenumfang und Rücklaufquoten
19.5 Untersuchung der Ergebnisse
19.6 Verquickte epidemiologische Daten
19.7 Mehrfachtests bei Fragebogendaten
19.8 Kapitelzusammenfassung
Teil 6 Fazit
20 Schlussfolgerungen
20.1 Machen Sie sich das Ziel des Versuchs klar
20.2 Bauen Sie den Versuch einfach und damit klar und aussagekräftig auf
20.3 Planen Sie die statistischen Analysen schon als Teil des Versuchsdesigns und nicht erst auf den letzten Drücker
20.4 Untersuchen Sie die Daten visuell, bevor Sie in die statistischen Tests einsteigen
20.5 Hüten Sie sich vor Mehrfachtests
20.6 Interpretieren Sie sowohl Signifikanz als auch Nicht-Signifikanz mit gebührender Sorgfalt
Stichwortverzeichnis
Beachten Sie bitte auch weitere interessante Titel zu diesem Thema
Ansorge, R., Oberle, H. J., Rothe, K., Sonar, T.
Mathematik für Ingenieure 1
Lineare Algebra und analytische Geometrie, Differential- und Integralrechnung einer Variablen
2010
ISBN: 978-3-527-40980-8
Rumsey, D.
Statistik für Dummies
2010
ISBN: 978-3-527-70594-8
Zachmann, H. G., Jüngel, A.
Mathematik für Chemiker
2007
ISBN: 978-3-527-30315-1
Cann, A. J.
Mathe für Biologen
2004
ISBN: 978-3-527-31183-5
Autor
Philip Rowe
Liverpool John Moores University, UK
Übersetzer
Dipl.-Phys. Carsten Heinisch, Kaiserslautern
redaktor.de
1. Auflage 2012
Alle Bücher von Wiley-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.d-nb.de> abrufbar.
© 2012 Wiley-VCH Verlag & Co. KGaA, Boschstr. 12, 69469 Weinheim, Germany
Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.
Print ISBN: 978-3-527-33119-2
ePDF ISBN: 978-3-527-66972-1
ePub ISBN: 978-3-527-66971-4
Mobi ISBN: 978-3-527-66970-7
Umschlaggestaltung Simone Benjamin,
McLeese lake, Canada
Satz Beltz Bad Langensalza GmbH,
Bad Langensalza
Für Carol, Joshua und Nathan
Vorwort
Statistik als solche ist langweilig, uninteressant und unverständlich. Zumindest, wenn man sie auf traditionelle Art betreibt. Das Fach selbst muss dagegen gar nicht so schlecht sein. Es hat sich nur nicht aus einer selbstgewählten Zeitschleife befreien können. Vor gut dreißig Jahren gab es noch keine allgemein zugänglichen Computer und Softwarepakete, die uns all die Rechnerei abgenommen haben. Daher steckte das Fach bis zum Hals in den „Wie“-Fragen – wie kann ich am einfachsten das Durchschnittsgewicht von 500 Kartoffeln berechnen? Wie findet man heraus, ob die Rübenernte tatsächlich zunimmt, wenn man ein paar Schaufeln Pferdemist auf den Acker bringt? Wie berechnet man, ob es wirklich einen Zusammenhang zwischen der Regenmenge und der Größe unserer Äpfel gibt? Zur damaligen Zeit hatten die Statistiker noch eine echte Entschuldigung dafür, dass ihre Lehrbücher vollgestopft mit detaillierten Anleitungen für Rechenverfahren waren. Doch, so darf man fragen, ist das heute noch immer eine Entschuldigung? Heute würde doch niemand, der bei klarem Verstand ist, einen komplexen statistischen Test von Hand durchrechnen. Und warum wollen sie uns immer noch beibringen, wie man das tut?
Natürlich braucht die Welt auch heute noch echte „Statistiker“, die die Untersuchungsverfahren pflegen und verbessern, und natürlich auch Menschen, die die genaue Funktionsweise solcher Verfahren verstehen. Die meisten von uns sind aber keine Statistiker als solche. Wir wollen nur statistische Verfahren anwenden, um ein bestimmtes Ziel zu erreichen. Wir sollten demnach zwischen „Statistikern“ und „Statistik-Anwendern“ unterscheiden. Das ist so ähnlich wie die Unterscheidung zwischen Kfz-Entwicklern und Autofahrern. Autos zu entwickeln ist ein ehrenwerter und notwendiger Berufsstand, aber die meisten von uns wollen Autos einfach nur fahren. Glücklicherweise berücksichtigt die Literatur auf dem Gebiet der Kfz-Technik diesen Unterschied. Wenn ein Buch für Autofahrer geschrieben ist, steht einfach darin, wer schneller fahren will, muss das Gaspedal durchdrücken. Aber der Autor wird nicht versuchen, uns mit Details zur Einspritzanlage und Gemischaufbereitung zu langweilen. In Statistikbüchern hat diese Logik leider noch nicht Einzug gehalten. Sie versuchen noch immer die Funktionsweise eines Kolmogorow-Smirnow-Tests en détail einem Publikum zu erklären, das sich dafür nicht im geringsten interessiert.
Nun, dann gibt es gute Nachrichten: Dieses Buch behandelt die statistischen Rechnungen fröhlich als Blackbox. Es erklärt, was man in die Blackbox hineinsteckt und was am anderen Ende wieder herauskommt. Sie können dabei aber völlig ahnungslos bleiben, was im Inneren der Box abgeht, so wie Sie beim Einparken auch nicht über die Funktionsweise einer Servolenkung nachdenken. Bitte betrachten Sie diesen Ansatz nicht als Faulheit oder als negativ. Aber indem wir all das unnötige Beiwerk abstreifen, können wir uns auf die wirklich interessanten Punkte konzentrieren. Darum wird dieses Buch versuchen, genau die Themen zu behandeln, die Statistik-Anwender verstehen müssen:
Der Leserkreis, an den dieses Buch sich richtet, sind die Tausende von Menschen, die statistische Verfahren anwenden müssen, aber keinerlei Ehrgeiz haben, Statistiker zu werden, weil sich ihre wissenschaftliche Vorliebe auf ganz andere Themen richtet. Eine ganze Reihe von Studiengängen – von Pharmakologie und Botanik über Volks- und Betriebswirtschaft bis zur Psychologie – enthält gewisse Elemente der Statistik. Die Studenten dort (und wenn ich „Studenten“ sage, meine ich sowohl männliche als auch weibliche) müssen zumindest die grundlegenden statistischen Verfahren lernen. Viele von uns sind in der Forschung oder in der Industrie beschäftigt. Einige müssen ihre eigenen statistischen Untersuchungen durchführen, andere können auf die Hilfe professioneller Statistiker zurückgreifen. Doch selbst wenn Profis zur Hand gehen, stellt sich das Problem der Kommunikation. Wenn Sie nicht einmal die Bedeutung der Wörter kennen, werden Sie große Schwierigkeiten haben, einem Statistiker genau zu erklären, was Sie eigentlich tun wollen. Mein Ziel ist es, dass alle Personen aus diesen Gruppen dieses Buch nützlich finden.
Wenn Sie Student der Statistik oder gar professioneller Statistiker sind, kann ich Ihnen nur raten, das Buch schnell wieder wegzulegen. Sie könnten die herablassende Haltung gegenüber den mathematischen Grundlagen Ihres Fachs stark irritierend finden. Eigentlich wäre ich sogar ziemlich enttäuscht, wenn sich nicht wenigstens ein „traditioneller Statistiker“ bitterlich über dieses Buch beklagen würde.
Alle behandelten statistischen Verfahren und Tests werden mit praktischen Beispielen und Datensätzen illustriert. Diese Beispiele stammen aus den pharmazeutischen Wissenschaften, wie der Buchtitel es ja andeutet. Doch ziemlich alle beschriebenen Verfahren und Prinzipien sind natürlich auch für verwandte wissenschaftliche Disziplinen wie Medizin, Biologie, Biomedizin und Chemie interessant.
Das Buch richtet sich an Studenten vor dem ersten Abschluss (Bachelor) bzw. vor dem Vordiplom, an ihre Dozenten und an weniger erfahrene Forscher.
Die ersten Kapitel (1–5) sind recht grundlegend. Sie behandeln die Datenbeschreibung (Mittelwert, Median, Modalwert, Standardabweichung und Quartile) und führen das Problem ein, die Unsicherheit aufgrund des Stichprobenfehlers zu beschreiben (SEM und 95 %-Konfidenzintervall für den Mittelwert). In der Theorie sollte viel davon schon aus der Schule vertraut sein, doch nach meiner Erfahrung scheitern viele junge Studenten schon daran, (beispielsweise) den Median eines kleinen Datensatzes zu berechnen. Diese Kapitel sind also für Anfänger besonders interessant, entweder zum Lernen oder zum Wiederholen.
Die Kapitel 6–17 behandeln dann die am häufigsten verwendeten statistischen Testverfahren. In den meisten Studiengängen kommen diese Themen schon in den ersten Semestern. Dabei folgt der Zugang nicht den traditionellen Mustern, bei denen einer breiten Auswahl von Verfahren jeweils gleiches Gewicht eingeräumt wird. Da sich das Buch eher auf verschiedene Gesichtspunkte rund um das statistische Testen als auf die Rechenverfahren konzentriert, werden alle relevanten Aspekte mit einem einzigen Testverfahren – dem doppelten t-Test – illustriert (Kapitel 6–11). Die folgenden Kapitel (12–17) befassen sich dann etwas kürzer gefasst mit weiteren Testverfahren und greifen immer wieder auf die dann eingeführten Grundlagen zurück.
Die Abschlusskapitel (18 und 19) behandeln einige reale Probleme, mit denen die Studenten während ihrer eigenen Forschungsarbeiten bei der Abschlussarbeit in Berührung kommen werden. Es geht dabei um Mehrfachtests (in studentischen Projekten allzu häufig!) sowie das Design und die Auswertung von Fragebögen. Dieser letzte Punkt führt zwar keine grundlegend neuen Konzepte ein, die Verwendung von Fragebögen hat aber derart zugenommen, dass es mir sinnvoll erschien, alle relevanten Punkte an einer einzigen Stelle zusammenzufassen.
Im ganzen Buch werden Sie immer wieder Kästen mit wichtigen Begriffen oder Konzepten finden. Sie sehen etwa folgendermaßen aus:
Die Kästen bringen niemals neue Informationen, sie dienen nur der Zusammenfassung und Betonung.
Sie finden auch Kästen mit Ratschlägen wie diesen hier:
Die zynisch formulierten Kästen sollen Sie natürlich nicht wirklich zu einem Missbrauch der Statistik ermuntern, sondern sollen Ihnen die Missbrauchsmöglichkeiten aufzeigen, mit denen andere Ihnen vielleicht etwas unterjubeln wollen. Gefahr erkannt – Gefahr gebannt! Wie groß die Gefahr ist, zeigt die Anzahl der Ausrufezeichen am Rand:
Kleinere Sache. Der Missbrauch ist leicht zu entdecken oder hat nur geringes Täuschungspotenzial.
Mittlere Gefahr. Der gut informierte Leser (also Sie als Leser dieses Buchs) kann die versuchte Täuschung sofort aufdecken.
Schwere Täuschung. Ein besonders arglistiger Trick, den selbst der bestinformierte Lester vielleicht vermuten, aber nie beweisen kann.
Alle in diesem Buch beschriebenen Versuche und die dazugehörigen Daten sind frei erfunden. Aufbau und Ergebnisse sind aber immer realistisch. In einigen Fällen können sowohl der Aufbau eines Versuchs als auch die daraus folgende Datenanalyse etwas einfacher sein als die Gegebenheiten, die sich uns in der realen Welt stellen. Hier schien aber Klarheit wichtiger als strikter Realismus.
An einigen Stellen werden Einschätzungen abgegeben, ab welchem Betrag ein bestimmter gemessener Endpunkt bzw. dessen Änderung praktische Bedeutung hat. Diese Werte sind völlig willkürlich nach Kriterien gewählt, die mir als Autor realistisch erschienen. Ich hoffe, dass ich dabei nicht völlig falsch liege. Auf jeden Fall sollten Sie keinen dieser Werte als fachlich begründet ansehen.
Dieses Buch richtet sich an Leser, die Statistik anwenden müssen, aber keine Ambitionen haben, zu eigentlichen Statistikern zu werden. Es verzettelt sich nicht in Rechenverfahren und konzentriert sich stattdessen auf wichtige Themen rund um die Datenerzeugung und -untersuchung (Abschätzung des Stichprobenumfangs, Interpretation der statistischen Ergebnisse, Gefahren von Mehrfachtests, möglicher Missbrauch usw.). In Zeiten gut zugänglicher Computer-Statistikpakete sind nämlich genau solche Themen das Problem, nicht mehr die Rechnung als solche.
Die erläuternden Beispiele des Buchs stammen aus dem pharmazeutischen Umfeld. Demzufolge sollten Studenten (und Arbeitskräfte) etwa aus den Bereichen Pharmazie, Pharmakologie und klinischer Pharmazie mit dem Material vertraut sein. Die betrachteten Themen jedoch spielen in den meisten wissenschaftlichen Disziplinen eine Rolle und sollten darum auch von jedermann aus einem Nachbargebiet verständlich sein, selbst wenn die Beispiele nicht unmittelbar bekannt sind. Der Stoff wird in aufsteigender Schwierigkeit angeordnet:
Dieses Buch ist nicht an ein bestimmtes Statistikpaket gebunden. Mit den gegebenen Anweisungen sollte man seine Daten in jedes Statistikpaket eingeben und die wichtigen Teile der Ausgabe finden können. Spezielle Anweisungen für die Ausführung der besprochenen Verfahren mithilfe von Minitab oder SPSS finden sich auf der mit diesem Buch verbundenen (englischsprachigen) Website (www. staff.ljmu.ac.uk/phaprowe/pharmstats.htm).
Ein Statistikbuch aufzuschlagen und gleich mit einer Diskussion anzufangen, in welcher Weise man Daten in verschiedene Typen einteilen kann, das klingt entsetzlich abgehoben. Dennoch besteht der erste Schritt für die Behandlung von Daten im Allgemeinen in der Bestimmung, mit welchen Datentypen wir überhaupt zu tun haben. Das mag trocken sein, aber es hat reale Auswirkungen.
Wir schauen uns drei Arten von Daten an. Alle laufen in der Fachliteratur unter verschiedenen Bezeichnungen. Ich habe hier Namen ausgewählt, die ich am ehesten für selbsterklärend halte, und strebe kein einheitliches Benennungssystem an. Ich werde folgende drei Begriffe verwenden:
Die ersten zwei Datentypen, die wir hier diskutieren, hängen beide mit der Messung eines bestimmten Merkmals zusammen. Daten auf einer „Intervallskala“ (man findet auch die Bezeichnung „Proportionalskala“, obwohl es da streng genommen noch einen kleinen Unterschied gibt, auf den wir hier aber nicht eingehen müssen) werden durch eine stetige Messung gewonnen. Sie sind die aussagekräftigsten Daten, die man im Labor erzeugen kann, beispielsweise Gewichte, Längen, Zeiten, Konzentrationen, Drücke usw. Stellen Sie sich beispielsweise vor, wir hätten eine Reihe von Objekten mit einer Masse von 1 g, 2 g, 3 g usw. bis 7 g (Abbildung 1.1).
Abbildung 1.1 Daten auf einer Intervallskala – eine Reihe von Massen (1–7 g)
Nun stellen Sie sich die Massendifferenzen vor, die beim Übergang von einem Objekt zum nächsten auftreten. Diese Schritte betragen jeweils eine Einheit auf der Skala und haben folgende Eigenschaften:
Weil die Messungen Schritte von konstanter Größe zeigen (nämlich Intervalle), spricht man hier von einer Intervallskala. Obwohl die Messwerte in Abbildung 1.1 exakt ganzzahlig sind, könnten sie natürlich genauso gut auch beliebige Werte dazwischen (wie 1,5 g oder 3,175 g) annehmen. Daher nennt man die Maßskala auch „stetig“ oder „kontinuierlich“.
Auch hier geht es um Messungen, aber die erhobenen Kennzahlen sind meist etwas subjektiver als im vorigen Fall. Es ist schön, wenn man objektive Werte messen kann, wie den Blutdruck oder die Körpertemperatur. Es ist aber ebenso legitim, beispielsweise eine Vorstellung davon zu gewinnen, wie ein Patient seinen Zustand nach einer Behandlung einschätzt. Besonders naheliegend ist es, ein Punkte- oder Notenschema zu verwenden, beispielsweise von –2 bis +2 mit den folgenden Einschätzungen:
Abbildung 1.2 Daten auf einer Ordinalskala – Punkteschema für die Selbsteinschätzung des Gesundheitszustands von Patienten nach der Behandlung
−2 | merklich schlechter |
−1 | etwas schlechter |
0 | etwa gleich |
+1 | etwas besser |
+2 | erheblich besser |
In diesem Fall (Abbildung 1.2) wissen wir nur, dass ein Patient mit einem höheren Wert zufriedener ist mit seiner Behandlung. Wir wissen aber nicht, um wie viel zufriedener er ist.
Wir wissen nicht, wie groß die Abstände zwischen den einzelnen Einschätzungen sind; also können wir auch nicht behaupten, sie seien alle gleich groß. Es muss noch nicht einmal so sein, dass die Differenz zwischen den Einschätzungen −2 und 0 größer ist als der zwischen +1 und +2. Keine der Eigenschaften aus einer Intervallskala lässt sich also auf diese Daten übertragen.
Der Begriff „Ordinal“ spiegelt wider, dass die verschiedenen Ergebnisse sich in einer Rangfolge ordnen lassen, von einem Extremwert zum anderen. Daten auf einer Ordinalskala werden daher manchmal auch als „kategorial geordnet“ bezeichnet. In diesem Fall sind die Werte nicht stetig, d. h., die einzelnen Kategorien werden mit −1, +2 usw. bezeichnet, Zwischenwerte gibt es nicht.
In diesem Fall geht es in keinem Fall um die Messung eines Merkmals. Bei diesen Daten verwenden wir eine Einteilung ohne natürliche Rangfolge. Beispielsweise könnte einer der Faktoren, der die Effektivität einer Behandlung beeinflusst, der Hersteller des entsprechenden medizinischen Geräts sein. Die Patienten würde man dann nach den Herstellern „Müller“, „Meyer“ und „Schmidt“ einteilen. Hier gibt es keine natürliche Reihenfolge, es handelt sich nur um drei verschiedene Bezeichnungen.
Bei Ordinaldaten konnten wir wenigstens sagen, dass beispielsweise ein mit +2 bewerteter Fall eher dem Fall mit +1 als einem mit 0 oder −1 ähnelt. Bei Nominaldaten können wir aber nicht davon ausgehen, dass die „Müller“- und die „Meyer“-Patienten eine irgendwie geartete Ähnlichkeit aufweisen. Die Reihenfolge, in der man sie aufführt, ist völlig beliebig.
Sehr verbreitet sind Einteilungen mit genau zwei Kategorien, etwa männlich/weiblich, lebt/tot oder Erfolg/Misserfolg. In solchen Fällen spricht man von „dichotomen Werten“.
Das Buch ist so aufgebaut, dass nacheinander die verschiedenen Datentypen durchgenommen werden. Die Kapitel 2–14 behandeln Daten auf Intervallskalen, die bei stetigen Messungen gewonnen werden. Die Kapitel 15 und 16 befassen sich mit kategorialen Daten (auf Nominalskalen), geordnete Daten (auf Ordinalskalen) werden in Kapitel 17 besprochen.
Der unerlässliche erste Schritt bei der Auswahl der passenden statistischen Verfahren ist es, die zu behandelnden Datentypen zu erkennen.
Folgende Fälle können auftreten:
Experimente und Versuchsreihen erzeugen oft Datensätze, die zu lang sind, als dass man sie einfach erfassen könnte. Wir brauchen ein oder zwei Werte zur Zusammenfassung, die dem Betrachter ein genaues Bild der Gesamtlage vermitteln.
Bei Daten auf Intervallskalen (kontinuierliche Messung) gibt es zwei Gesichtspunkte, die wir mit solchen zusammenfassenden Werten möglichst beschreiben wollen:
Zur Antwort auf die erste Frage brauchen wir ein „zentrales Lagemaß“ (zentraler Lageparameter), für die Antwort auf die zweite ein „Streuungsmaß“ (Streuparameter).
In diesem Kapitel schauen wir uns mehrere Möglichkeiten an, wie man das bewerkstelligen kann. Es wäre falsch zu behaupten, dass eine dieser Möglichkeiten immer besser wäre als eine andere. Wir können aber sehr wohl rational begründen, warum wir eine bestimmte dieser Möglichkeiten auswählen, wenn wir die Art der Daten und den beabsichtigten Zweck berücksichtigen.
Der Begriff „zentrales Lagemaß“ beschreibt eine beliebige statistische Größe, mit der man die „Mitte“ eines Datensatzes angibt, um die herum die anderen Werte sich häufen. Im allgemeinen Gebrauch werden drei solche Indikatoren verwendet – der Mittelwert, der Medianwert und der Modalwert.
Der übliche Ansatz, die zentrale Lage von einem Datensatz zu beschreiben, ist es, den Durchschnitt zu bilden. In akademischen Kreisen ist es allerdings unüblich, den allgemein bekannten Begriff „Durchschnitt“ zu verwenden, daher redet man lieber vom „Mittelwert“.
Unser erster Beispieldatensatz beschreibt mehrere Chargen eines Impfstoffs. Jede Charge soll dieselbe Wirkungsstärke haben, allerdings sind Abweichungen bei der Herstellung unvermeidlich. Eine Anzahl von zehn Chargen wurde analysiert, die Ergebnisse sind in Tabelle 2.1 zu sehen.
Die Summe aller Wirkungsstärken (in Einheiten/ml) beträgt 991,5. Dividiert man dies durch die Anzahl der untersuchten Chargen (in diesem Fall zehn), so erhält man einen Durchschnitts- bzw. Mittelwert von 99,15 Einheiten/ml.
Die Rechnung lässt hier keine ernsthaften Zweifel zu, aber wir müssen uns immer klar machen, ob der erhaltene Zahlenwert dem Leser die richtige Botschaft übermittelt. Auch ohne strengen Beweis werden viele Leser den Wert 99,15 Einheiten/ml als einen typischen Wert betrachten. Mit anderen Worten, eine Charge mit einer Aktivität von 99,15 Einheiten/ml ist weder bemerkenswert schwach noch herausragend wirksam. Eine visuelle Darstellung der Daten hilft bei der Beurteilung der Frage, ob das tatsächlich der Fall ist (vgl. Abbildung 2.1).
Tabelle 2.1 Wirkungsstärken von zehn Chargen eines Impfstoffs (in Einheiten/ml)
Wirkungsstärke (Einheiten/ml) |
106,6 |
97,9 |
102,3 |
95,6 |
93,6 |
95,9 |
101,8 |
99,5 |
94,9 |
103,4 |
Mittelwert = 99,15 |
Abbildung 2.1 Der Mittelwert (hier aus zehn Chargen eines Impfstoffs berechnet) bezeichnet in zufriedenstellender Weise eine typische Wirksamkeit eines Impfstoffs
Der Mittelwert liegt genau in der Mitte all der Messwerte und bezeichnet damit tatsächlich einen völlig typischen Wert. In diesem Fall lässt sich der Mittelwert also wunderbar anwenden, man braucht keine Gedanken über die etwas undurchsichtigeren Alternativen zu machen. Das ist aber nicht immer der Fall.
Fünfzehn Patienten erhielten ihre Arzneien in einer kindersicheren Packung von einer Art, die sie zuvor noch nicht kennengelernt hatten. Dann wurde notiert, in welcher Zeit die einzelnen Patienten die Packung zum ersten Mal öffnen konnten. Die zweite Spalte in Tabelle 2.2 zeigt die Ergebnisse.
Der Mittelwert ergibt sich wie gezeigt zu 7,09 s, aber wir müssen uns fragen, welcher Schluss sich aus diesem Wert ziehen lässt. Ist er repräsentativ? Abbildung 2.2 zufolge ist das definitiv nicht der Fall.
Die meisten Patienten haben mehr oder weniger schnell das Prinzip begriffen und brauchten nur zwei bis fünf Sekunden, um die Packung zu öffnen. Vier von ihnen aber haben das Prinzip wohl zunächst falsch verstanden und brauchten bis zu 25 Sekunden, bis die Packung geöffnet war. Von diesen Vieren stammt ein überproportionaler Anteil (65,6 s) an der Gesamtsumme der Zeit. Dadurch nimmt der Mittelwert auf 7,09 s zu. Aber einen Patienten, der 7,09 s benötigt, würden wir nicht im entferntesten als typisch betrachten, sondern ganz im Gegenteil als ausgesprochen langsam.
Tabelle 2.2 Ranggeordnete Zeiten zum Öffnen einer kindersicheren Packung und Berechnung des Medians
Abbilding 2.2 Der Medianwert bezeichnet eine typische Zeit für das Öffnen einer neuartigen kindersicheren Packung; der Mittelwert dagegen ist durch Ausreißer verzerrt
Dieses Problem – dass Mittelwerte überproportional durch einige wenige Ausreißer beeinflusst werden – taucht in der biologischen und medizinischen Forschung häufig auf. In solchen Fällen ist es nützlich, den Medianwert (auch als Zentralwert oder kurz als Median bezeichnet) zu verwenden. Um ihn zu erhalten, sind die Ergebnisse in Tabelle 2.2 ihrer Größe nach geordnet (die kleinsten Werte oben, die größten unten), und die erste Spalte gibt die Rangzahl an. Wir wollen den Patienten genau in der Mitte bestimmen. In diesem Fall ist das der achte Patient, denn sieben Patienten sind langsamer und sieben sind schneller. Der Medianwert ist die von ihm benötigte Zeit, hier also 4,1 s.
Abbildung 2.2 zeigt, dass ein Patient, der 4,1 s zum Öffnen der Packung benötigt hat, wirklich typisch ist. In diesem Fall gibt also der Median ein besseres Maß für einen repräsentativen Wert.
Sollten wir in solchen Fällen automatisch den Median verwenden? Der Vorschlag, in jedem Fall, in dem die Datenreihe Ausreißer enthalten könnte, den Median als Kennzahl anzuwenden, wäre wohl eine zu starke Verallgemeinerung. Wir müssen stattdessen immer bedenken, welche Schlüsse wir aus der Kennzahl ziehen wollen. Wenn wir uns beispielsweise mit den Stückkosten für eine Reihe von Posten befassen und vorhaben, die Kosten für künftige Posten zu bestimmen, dann ist der Mittelwert sicher die passende Kennzahl, selbst wenn es Ausreißer gibt. Man kann die Kosten einer künftigen Charge von Artikeln nur bestimmen, indem man die Anzahl der Posten mit unserer Schätzung für die mittleren Kosten eines einzelnen Artikels multipliziert. Für einen solchen Zweck wäre der Median nutzlos.
Der Median ist robust gegen extreme Ausreißer: Der Begriff „robust“ soll bedeuten, dass eine Kennzahl oder ein Verfahren auch dann noch ein sinnvolles Ergebnis hervorbringt, wenn einige Daten stark abweichen. Was würde beispielsweise passieren, wenn die Transuse, die die kindersichere Packung erst nach 24,8 s geöffnet hatte, stattdessen eine ganze Woche gebraucht hätte? Die Person, die jetzt auf dem 15. Platz steht, wäre immer noch auf dem 15. Platz, und der Median – definiert durch den Achtplatzierten – bliebe unverändert bei 4,1 s. Der Mittelwert dagegen wäre enorm angewachsen, wenn jemand eine ganze Woche gebraucht hätte.
Diese Beständigkeit gegen die Auswirkung einiger absurder Werte ist der Grund, warum man den Median als robust betrachtet, den Mittelwert dagegen nicht.
Richtig angewandt, ist diese Robustheit eine nützliche Eigenschaft und erlaubt es, auch dann eine repräsentative Kennzahl anzugeben, wenn sich einige absonderliche Werte eingeschlichen haben. Die Gefahr liegt im Missbrauch, wenn nämlich jemand den Median nur einsetzt, um die Handvoll unangenehmer Werte zu verstecken, durch die eine sonst so schöne Messreihe verdorben wird.
Abbildung 2.3 Berechnung des Medianwerts bei einer geraden Anzahl an Datenpunkten (hier werden Zeiten in Sekunden gemessen)
Berechnung des Medianwerts bei einer geraden Anzahl von Beobachtungswerten: Im obigen Beispiel (Tabelle 2.2) werden insgesamt 15 Zeitmessungen betrachtet. Bei jeder ungeraden Zahl von Datenpunkten können wir immer den Einzelwert genau in der Mitte der Reihenfolge bestimmen. Bei einer geraden Anzahl gibt es aber keinen entsprechenden Einzelwert. In solchen Fällen nimmt man die mittleren beiden Beobachtungswerte her und bildet dann deren Mittelwert. Ein Beispiel für sechs Zeitmessungen ist in Abbildung 2.3 dargestellt.
Eine etwas merkwürdige Folge ist, dass wir – obwohl die Messwerte offenbar immer auf die nächste ganze Zahl gerundet wurden – am Ende einen Medianwert mit einem Bruch erhalten.
Der Zustand einer Reihe von Patienten mit Arthritis wird mithilfe einer globalen Bewertungsvariablen aufgezeichnet. Es handelt sich um eine kombinierte Datenreihe, bei der sowohl objektive Werte wie der Umfang der Gelenkentzündungen als auch subjektive Einschätzungen der Patienten über die Einschränkung ihrer Lebensqualität eingehen. Diese Einschätzung ist so angelegt, dass höhere Werte einen besseren Zustand abbilden. Die Patienten werden dann für drei Monate auf ein neues entzündungshemmendes Mittel umgestellt, danach wird dieselbe Datenreihe erneut erhoben. Nun berechnen wir die Änderung für jeden einzelnen Patienten. Ein positiver Wert zeigt eine Verbesserung des Patientenzustands an, ein negativer Wert eine Verschlechterung. 60 Patienten nehmen an der Studie teil, die Ergebnisse sind in Tabelle 2.3 dargestellt.
Ein Histogramm dieser Daten (Abbildung 2.4) zeigt die Schwierigkeit, die sich uns nun stellt: Bei den meisten Patienten hat sich die Gelenkentzündung verbessert, doch unter Berücksichtigung der Nebenwirkungen gibt es zwei klar zu unterscheidende Untergruppen. Bei knapp der Hälfte der Patienten treten keine oder relativ wenige Nebenwirkungen auf, ihre Lebensqualität hat sich also merklich verbessert. Für die anderen sind die Nebenwirkungen hingegen so stark, dass ihre Lebensqualität sich insgesamt verschlechtert hat.
Mathematisch ist es natürlich ohne Weiteres möglich, den Mittelwert oder den Median aus diesen Änderungen der Punktzahl zu berechnen, wie sie in Abbildung 2.4 gezeigt sind. Doch keiner dieser beiden Parameter beschreibt die vollständige Situation. Der Mittelwert (−0,77) ist besonders irreführend, denn er bezeichnet eine völlig atypischen Wert – nur bei ganz wenigen Patienten tritt eine Änderung der Punktzahl von ungefähr null auf. Wir brauchen Mittel und Wege, um zu beschreiben, dass es hier zwei verschiedene Untergruppen (sogenannte Cluster) gibt.
Tabelle 2.3 Individuelle Änderungen einer globalen Bewertungsvariablen nach der Behandlung mit einem neuen Entzündungshemmer (61 Patienten)
Änderungen der Punktzahl | ||
11 | −9 | −8 |
0 | −9 | 2 |
−5 | −15 | −11 |
11 | −13 | −12 |
−13 | −13 | 10 |
7 | −18 | −11 |
7 | −13 | 9 |
−12 | 9 | 14 |
10 | 14 | −9 |
−12 | 10 | 17 |
−10 | −9 | −14 |
6 | 11 | −6 |
13 | −11 | 13 |
−11 | 14 | 12 |
10 | 10 | −6 |
−9 | 21 | −9 |
9 | 6 | 2 |
8 | −13 | 5 |
−12 | −6 | −7 |
10 | −9 | −12 |
1 |
Abbildung 2.4 Die individuellen Änderungen bei der Punktzahl in einer globalen Bewertungsskala. Weder Mittelwert noch Median beschreiben eine typische bimodale Datenreihe – dazu benötigt man die Modalwerte
Die beiden ersten Datenreihen aus diesem Kapitel (die Wirksamkeit von Impfstoffen und die Zeit zum Öffnen der Verpackung) bestehen aus Werten, die um einen einzigen mittleren Punkt zentriert sind. Solche Daten heißen „unimodal“. Der allgemeine Ausdruck „polymodal“ wird in Fällen gebraucht, wo es mehrere Cluster gibt. In einer genauen Ausdrucksweise verwenden wir Ausdrücke wie bimodal oder trimodal, um die genaue Anzahl der Cluster anzugeben. Die Arthritis-Datenreihe ist offenbar polymodal (genauer ausgedrückt: bimodal).
Bei polymodalen Daten benötigen wir ein zentrales Lagemaß für jeden einzelnen Cluster. Dazu erfasst man den am häufigsten auftretenden Wert (den „Modus“ oder „Modalwert“) eines jeden Clusters. Bei den Arthritis-Daten sind das die Änderungen der Punktzahl von −10 und +10. Wir können also die Datenreihe durch die Angabe charakterisieren, die Daten seien bimodal mit den Modalwerten −10 und +10.
Unter den drei bislang beschriebenen Lagemaßen gibt es eine ganz entschiedene Rangordnung. Der Mittelwert ist sozusagen „Industriestandard“ und eignet sich bestens für eine ganze Reihe von Zwecken. Wenn nicht gerade besondere Verhältnisse vorliegen (z. B. Polymodalität oder eine ausgeprägte Verzerrung), bleibt der Mittelwert der Parameter der Wahl. Der Medianwert wird häufig eingesetzt, um den Einfluss extremer Ausreißer zu minimieren. Den Modalwert (oder die Modalwerte) nimmt man eigentlich nur, wenn alles andere nicht geht.
Wir haben zwei Maschinen zur Herstellung von Erythromycintabletten mit einem nominalen Wirkstoffgehalt von 250 mg. Die beiden Maschinen stammen von der Alpha GmbH beziehungsweise der Bravo AG. Man wählt zufällig je 500 Tabletten von jeder der beiden Maschinen und untersucht dann den Erythromycingehalt. Die Ergebnisse für die beiden Maschinen sind in den Histogrammen in den Abbildungen 2.5 und 2.6 gezeigt. Zur Erstellung dieser Histogramme wurde der Wirkstoffgehalt in Klassen von jeweils 2 mg Breite eingeteilt. (Die über die Histogramme gelegten glatten Kurven werden im nächsten Kapitel diskutiert.)
Abbildung 2.5 Histogramm des Erythromycingehalts von 500 Tabletten, die mit einer Maschine der Alpha GmbH produziert wurden (relativ große Schwankung – große Standardabweichung)
Beide Maschinen produzieren Tabletten mit einem ganz ähnlichen mittleren Wirkstoffgehalt, der Mittelwert liegt in beiden Fällen ziemlich dicht bei 250 mg. Dennoch unterscheiden sich die Tabletten deutlich: Bei der Alpha-Maschine gibt es einen erheblichen Anteil an Tabletten, deren Wirkstoffgehalt um mehr als 10 mg von der Nominaldosis abweicht (d. h. unter 240 mg bzw. über 260 mg), bei der Bravo-Maschine sind solche Ausreißer weit seltener. Wir brauchen also einen „Streuparameter“, um diesen Unterschied in der sogenannten Spannweite oder Variabilität auszudrücken.
Abbildung 2.6 Histogramm des Erythromycingehalts von 500 Tabletten, die mit einer Maschine der Bravo AG produziert wurden (relativ konstanter Gehalt – kleinere Standardabweichung)
Tabelle 2.4 Erythromycingehalt von je zehn Tabletten aus einer Tablettenmaschine der Hersteller Alpha und Bravo; Berechnung der Standardabweichungen
Der am meisten verbreitete Streuparameter ist die Standardabweichung (mit dem Formelzeichen σ; im Englischen ist auch die Abkürzung SD (für standard deviation) gebräuchlich). Obwohl dieses Buch im Allgemeinen die zeitraubendenden Berechnungen „von Hand“ vermeidet, wollen wir uns anhand eines Beispiels anschauen, wie die Standardabweichung bestimmt wird, weil so klarer wird, was sie eigentlich ausdrückt. Die Berechnung der Standardabweichung in einer Stichprobe von je zehn Tabletten aus den beiden Maschinen wird in Tabelle 2.4 gezeigt. Die erste Spalte gibt den Wirkstoffgehalt von zehn einzelnen Tabletten aus der Alpha-Maschine an. Der Mittelwert daraus ist 248,7 mg. In der nächsten Spalte findet man die „Abweichung“ jeder einzelnen Tablette vom Mittelwert der Stichprobe. Die erste Tablette beispielsweise hat einen Wirkstoffgehalt von 249 mg, also 0,3 mg mehr als der Mittelwert. Daher die 0,3 in der zweiten Spalte. Die Einzelheiten vom Rest der Rechnung sind nicht sonderlich interessant und werden hier nur der Vollständigkeit halber angegeben. Der nächste Schritt besteht darin, jede dieser Einzelabweichungen zu quadrieren (dritte Spalte). Diese Zahlen werden nun addiert, es ergibt sich 684,1. Das nun wird durch die Anzahl der Beobachtungen minus 1 geteilt, es ergibt sich 76,01. Daraus ziehen wir die Wurzel (8,72 mg) – fertig ist die Standardabweichung.
Der entscheidende Schritt ist die Erstellung der zweiten Spalte – die einzelnen Abweichungen vom gemeinsamen Mittelwert. (Beachten Sie, dass die Summe aller Werte in dieser Spalte null ergeben muss – rechnen Sie nach! Das ist so, weil die Abweichungen vom Mittelwert nach unten und nach oben sich definitionsgemäß ausgleichen. Daher quadriert man und wird so die Minuszeichen los.) Die erste Maschine produziert Tabletten mit stark streuendem Wirkstoffgehalt, einige Tabletten liegen erheblich neben dem Mittelwert (z. B. –13,7 mg oder +15,3 mg). Diese relativ großen Abweichungen ziehen sich dann durch den ganzen Rest der Rechnung und sorgen am Schluss für eine hohe Standardabweichung (8,72 mg).
Die Bravo-Maschine dagegen arbeitet gleichmäßiger – die einzelnen Tabletten haben niemals einen Wirkstoffgehalt, der sehr stark vom Mittelwert der Probe abweicht. Die kleinen Werte in der Spalte mit den Abweichungen ziehen sich dann wieder durch den ganzen Rest der Rechnung und werden am Schluss zu einer relativ geringen Standardabweichung verwurstet (3,78 mg).
Angabe der Standardabweichung mit dem Symbol ±: Das ±-Symbol – das man als „mehr oder weniger“ interpretieren kann – wird verwendet, um die Spannweite anzugeben. Bei den Tabletten aus unseren zwei Maschinen würden wir den Wirkstoffgehalt folgendermaßen angeben:
Alpha-Maschine: 248,7 ± 8,72 mg (± Standardabweichung)
Bravo-Maschine: 251,1 ± 3,78 mg (± Standardabweichung)
Wenn eine andere Größe als die Standardabweichung gemeint ist, sollte man das explizit angeben. Wird ein Ergebnis einfach in der Form „ein Wert ± ein anderer Wert“ geschrieben, nimmt man normalerweise an, dass die Standardabweichung angegeben ist.
Die oben angegebenen Werte geben ein gutes Bild der wahren Situation. Die beiden Maschinen produzieren Tabletten mit nahezu demselben mittleren Wirkstoffgehalt, aber die Tabletten aus der Alpha-Maschine streuen zwei- bis dreimal stärker.
Einheit der Standardabweichung: Die Standardabweichung ist keine einheitenlose Zahl, sondern hat dieselbe Einheit wie die Einzeldaten. Da unsere Datenreihe aus dem in Milligramm gemessenen Erythromycingehalt besteht, hat auch die Standardabweichung die Einheit Milligramm.