Das neue Buch von Nobelpreisträger Daniel Kahneman

Warum treffen wir, je nach Umständen, völlig unterschiedliche Entscheidungen auf ein und derselben Faktengrundlage? Wieso kommen zwei Experten, die über identische Informationen verfügen, zu komplett anderen Schlussfolgerungen? Weshalb entscheiden wir uns immer wieder falsch, ob im Beruf oder im Privatleben? In seinem neuen Buch, das in Zusammenarbeit mit Bestsellerautor Cass R. Sunstein und Olivier Sibony entstanden ist, klärt Daniel Kahneman über die Vielzahl von oft zufälligen Faktoren auf, die unsere Entscheidungsfindung stören und häufig negativ beeinflussen – sie sind im Begriff »Noise« zusammengefasst. Wir müssen lernen, diese »Störgeräusche« zu verstehen und mit ihnen umzugehen, nur dann können wir auf Dauer bessere Entscheidungen treffen. Dieses Buch ist ein Meilenstein zum Verständnis der Grundlagen unseres Handelns – vom Autor des Weltbestsellers »Schnelles Denken, langsames Denken«.

DANIEL KAHNEMAN, geboren 1934 in Tel Aviv, ist einer der weltweit einflussreichsten Kognitionspsychologen. Nach Stationen an der Hebrew University in Jerusalem und der University of British Columbia war er bis 1994 Professor an der University of California in Berkeley und hat seither die Eugene-Higgins-Professur für Psychologie an der Woodrow Wilson School der Princeton University inne. Kahneman revolutionierte die Wissenschaft vom menschlichen Verhalten, indem er die Erkenntnisse der Hirnforschung und der Verhaltensbiologie zusammenführt und auf die Wirtschaftswissenschaften anwendet. Für seine Arbeit erhielt Kahneman zahlreiche Auszeichnungen namhafter Universitäten und wurde 2002 mit dem Wirtschaftsnobelpreis ausgezeichnet. »Schnelles Denken, langsames Denken« wurde zum Weltbestseller und rangiert seit vielen Jahren ganz oben in den Bestsellerlisten.

CASS R. SUNSTEIN, geboren 1954, ist Jurist und Inhaber des Felix-Frankfurter-Lehrstuhls an der Harvard Law School. Er war Berater von Barack Obama zu Intelligence and Communications Technologies und ist Autor zahlreicher Bücher, darunter »The World According to Star Wars« und »Nudge. Wie man kluge Entscheidungen anstößt« (mit Richard Thaler), das zum Bestseller wurde.

OLIVIER SIBONY ist Autor, Dozent und Unternehmensberater, spezialisiert auf strategische Entscheidungsfindung und die Organisation von Entscheidungsprozessen. Er arbeitete 25 Jahre als Consultant, Partner und Direktor bei McKinsey & Company in Paris, New York und Brüssel. Als Affiliate Professor an der Business School HEC in Paris unterrichtet er Business Strategy und Corporate Strategy und hält häufig Vorträge zum Thema Entscheidungsfindung.

Besuchen Sie uns auf www.siedler-verlag.de

DANIEL KAHNEMAN
OLIVIER SIBONY
CASS R. SUNSTEIN

Was unsere Entscheidungen verzerrt –
und wie wir sie verbessern können

Aus dem Englischen
von Thorsten Schmidt

Siedler

Die Originalausgabe erschien 2021
unter dem Titel Noise. A Flaw in Human Judgement
bei Little, Brown Spark, New York

Der Inhalt dieses E-Books ist urheberrechtlich geschützt und enthält technische Sicherungsmaßnahmen gegen unbefugte Nutzung. Die Entfernung dieser Sicherung sowie die Nutzung durch unbefugte Verarbeitung, Vervielfältigung, Verbreitung oder öffentliche Zugänglichmachung, insbesondere in elektronischer Form, ist untersagt und kann straf- und zivilrechtliche Sanktionen nach sich ziehen.

Sollte diese Publikation Links auf Webseiten Dritter enthalten, so übernehmen wir für deren Inhalte keine Haftung, da wir uns diese nicht zu eigen machen, sondern lediglich auf deren Stand zum Zeitpunkt der Erstveröffentlichung verweisen.

Siedler Verlag, München, in der Penguin Random House Verlagsgruppe GmbH,

Neumarkter Straße 28, 81673 München

Redaktion: Fabian Bergmann

Umschlaggestaltung: Büro Jorge Schmidt, München,
unter Verwendung einer Vorlage von Julian Humphries

Umschlagabbildungen: © shutterstock/Lyudmyla Kharlamova;
© GettyImages/Mark Weiss

Satz: Uhl + Massopust GmbH

ISBN 978-3-641-24220-6
V001

www.siedler-verlag.de

Für Noga, Ori und Gili – DK
Für Fantin und Lélia – OS
Für Samantha – CRS

Inhalt

Einleitung: Zwei Arten von Fehlern

Teil 1: Noise entdecken

Kapitel 1: Verbrechen und Bestrafung: Ein Lotteriespiel

Kapitel 2: Ein verrauschtes System

Kapitel 3: Einmalige Entscheidungen

Teil 2: Unser Intellekt ist ein Messinstrument

Kapitel 4: Urteile, näher betrachtet

Kapitel 5: Wie man Fehler misst

Kapitel 6: Die Analyse von Noise

Kapitel 7: Occasion-Noise

Kapitel 8: Wie Gruppen Noise verstärken

Teil 3: Noise in prädiktiven Urteilen

Kapitel 9: Urteile und Modelle

Kapitel 10: Noisefreie Regeln

Kapitel 11: Objektive Unwissenheit

Kapitel 12: Das Tal des Normalen

Teil 4: Wie Noise entsteht

Kapitel 13: Heuristiken, Bias und Noise

Kapitel 14: Matching

Kapitel 15: Skalen

Kapitel 16: Muster

Kapitel 17: Die Quellen von Noise

Teil 5: Wie sich die Urteilsbildung verbessern lässt

Kapitel 18: Bessere Beurteiler für bessere Urteile

Kapitel 19: Debiasing und Entscheidungshygiene

Kapitel 20: Gezielte Steuerung des Informationsflusses in der Forensik

Kapitel 21: Selektion und Aggregation bei Prognosen

Kapitel 22: Leitlinien in der Medizin

Kapitel 23: Die Skala bei Leistungsbewertungen definieren

Kapitel 24: Strukturierte Personalauswahl

Kapitel 25: Strukturiertes Entscheidungsprotokoll

Teil 6: Optimales Noise

Kapitel 26: Die Kosten der Noise-Bekämpfung

Kapitel 27: Würde

Kapitel 28: Regeln oder Standards?

Zusammenfassung und Schluss: Noise ernst nehmen

Epilog: Eine Welt mit weniger Noise

Anhang A: Wie man ein Noise Audit durchführt

Anhang B: Eine Checkliste für einen Entscheidungsbeobachter

Anhang C: Die Korrektur von Vorhersagen

Danksagungen

Über die Autoren

Personenregister

Sachregister

Glossar

Anmerkungen

EINLEITUNG
Zwei Arten von Fehlern

Stellen Sie sich vor, vier Gruppen von Freunden gehen zu einem Schießstand. Jede Gruppe besteht aus fünf Personen; sie benutzen gemeinsam ein Gewehr, und jede Person schießt einmal.

Abbildung 1 zeigt die Ergebnisse.

A picture containing room

Description automatically generated

Abbildung 1: Vier Teams

In einer idealen Welt wäre jeder Schuss ein Volltreffer.

Das ist bei Team A fast der Fall. Die Treffer ballen sich dicht im Schwarzen zusammen, in der Mitte der Zielscheibe, und bilden ein fast perfektes Muster.

Das Resultat von Team B nennen wir biased (»verzerrt«), weil es systematisch danebengeschossen hat. Wie aus der Abbildung zu ersehen ist, lässt sich aus der Konsistenz des Bias, in diesem Fall also der Zielabweichung, eine Vorhersage ableiten. Würde eines der Mitglieder des Teams ein weiteres Mal schießen, würden wir darauf wetten, dass der Treffer im gleichen engen, abweichenden Bereich wie die ersten fünf läge. Die Beständigkeit des Bias legt auch eine kausale Erklärung nahe: Vielleicht war das Zielfernrohr am Gewehr des Teams verbogen.

Das Ergebnis von Team C nennen wir noisy (»verrauscht«), weil die Treffer breit gestreut sind. Es gibt kein offensichtliches Bias, weil die meisten Einschüsse in grober Näherung auf einem Kreis um die Mitte der Scheibe liegen. Wenn eines der Mitglieder des Teams einen weiteren Schuss abgeben würde, könnten wir kaum abschätzen, wo genau der Treffer landen würde. Außerdem fällt einem zur Erklärung der Ergebnisse von Team C keine interessante Hypothese ein. Wir wissen, dass vier seiner Mitglieder schlechte Schützen sind. Wir wissen nicht, warum ihre Treffer so verrauscht, so breit gestreut sind.

Das Resultat von Team D ist sowohl verzerrt als auch verrauscht. Vergleichbar mit Team B haben seine Mitglieder systematisch nicht die Mitte der Zielscheibe getroffen, und wie bei Team C sind die Treffer breit gestreut.

Aber dies ist kein Buch über das Schießen auf Zielscheiben. Unser Thema sind Urteilsfehler. Bias und Noise – systematische Abweichung und Zufallsstreuung – sind verschiedene Komponenten von Urteilsfehlern. Die Zielscheiben verdeutlichen den Unterschied.1

Der Schießstand ist eine Metapher für das, was bei der Urteilsbildung und insbesondere bei den vielfältigen Entscheidungen, die Menschen in Organisationen, Institutionen oder Unternehmen treffen, schiefgehen kann. In diesen Situationen finden wir die beiden Arten von Fehlern, die in Abbildung 1 veranschaulicht werden. Manche Urteile sind verzerrt; sie liegen systematisch »daneben«. Andere Urteile sind verrauscht, das heißt, sie sind weit um »das Ziel« gestreut, obwohl sie eigentlich übereinstimmen sollten. Leider sind viele Organisationen sowohl von Bias als auch von Noise betroffen.

Abbildung 2 veranschaulicht einen wichtigen Unterschied zwischen Bias und Noise. Sie zeigt das, was Sie auf dem Schießstand sehen würden, wenn Ihnen nur die Rückseiten der Zielscheiben gezeigt würden, auf welche die Teams geschossen haben, ohne dass Sie den geringsten Hinweis darauf hätten, wo sich die Zielscheibenmitte befindet, die von den Schützen anvisiert wurde.

A picture containing room

Description automatically generated

Abbildung 2: Ein Blick auf die Rückseite der Zielscheiben

Betrachtet man nur die Rückseite der Zielscheiben, lässt sich nicht sagen, ob Team A oder Team B treffsicherer war. Aber man kann auf den ersten Blick sagen, dass die Treffer der Teams C und D breit gestreut – verrauscht – sind, während dies bei den Teams A und B nicht der Fall ist. Tatsächlich wissen wir über die Streuung genauso viel wie in Abbildung 1. Es ist eine allgemeine Eigenschaft von Noise, dass man es erkennen und messen kann, auch wenn man nichts über das Ziel oder das Bias weiß.

Diese allgemeine Eigenschaft von Noise ist für das, worum es uns in diesem Buch geht, von zentraler Bedeutung, weil viele unserer Schlussfolgerungen auf Urteilen beruhen, bei denen die Wahrheit unbekannt oder sogar unerkennbar ist. Wenn Ärztinnen und Ärzte bei demselben Patienten verschiedene Diagnosen stellen, können wir ihren Dissens erforschen, ohne zu wissen, woran der Patient wirklich leidet. Wenn die Manager einer Filmproduktionsfirma das Marktpotenzial für einen Film abschätzen, können wir die Streuung ihrer Antworten analysieren, ohne zu wissen, wie viel der Film letztendlich eingespielt hat oder ob er überhaupt produziert wurde. Wir müssen nicht wissen, wer recht hat, um zu messen, wie sehr Urteile über denselben Sachverhalt voneinander abweichen. Um Noise zu messen, müssen wir lediglich die Rückseite der Zielscheibe betrachten.

Wenn wir Urteilsfehler verstehen wollen, müssen wir sowohl Bias – die systematische Abweichung, die Verzerrung – als auch Noise – die Zufallsstreuung, das störende Rauschen – verstehen. Wie wir sehen werden, ist Noise manchmal das wichtigere Problem. Aber in öffentlichen Diskussionen über Urteilsfehler und in Organisationen überall auf der Welt wird dies nur selten erkannt. Bias ist sozusagen der Star der Show, während Noise im Allgemeinen hinter den Kulissen verborgen bleibt. Das Thema systematische Abweichung wurde in Tausenden wissenschaftlichen Aufsätzen und Dutzenden populärwissenschaftlichen Büchern erörtert, von denen nur wenige das Problem der Zufallsstreuung überhaupt erwähnen. Mit diesem Buch versuchen wir, die Dinge wieder ins rechte Lot zu bringen.

Entscheidungsfindungen sind in vielen Lebensbereichen oft durch ein geradezu skandalös hohes Maß an Noise gekennzeichnet. Nachfolgend ein paar Beispiele für das Ausmaß an Zufallsstreuung in Situationen, in denen es auf Treffgenauigkeit ankommt:

Medizin: In Bezug auf denselben Patienten stellen Ärztinnen und Ärzte oft keine einheitlichen Diagnosen; dies betrifft Hautkrebs, Brustkrebs, Herzkrankheiten, Tuberkulose, Lungenentzündungen, Depressionen und viele weitere Erkrankungen. Besonders stark ist Noise in der Psychiatrie, wo subjektive Einschätzungen bei der Diagnose offensichtlich eine wichtige Rolle spielen. Aber auch in Bereichen, in denen man es nicht erwarten würde, wie etwa bei der Interpretation von Röntgenaufnahmen, findet man ein erhebliches Maß an Zufallsstreuung.
Entscheidungen über die behördliche Inobhutnahme von Kindern:2 Fallmanager in Jugendämtern müssen beurteilen, ob bei einem Minderjährigen eine Kindeswohlgefährdung vorliegt und – falls dem so ist – entscheiden, ob eine Unterbringung in einer Pflegefamilie angezeigt ist. Das System ist durch Noise gestört, da manche Fallmanager viel eher dazu neigen, Kinder in einer Pflegefamilie unterzubringen als ihre Kollegen. Von diesen unglücklichen Minderjährigen, die durch die strengen Sozialarbeiter an Pflegeeltern übergeben wurden, hat dann in späteren Jahren eine Mehrzahl im Leben deutlich weniger erreicht als Nichtpflegekinder, sie werden viel häufiger straffällig, die Mädchen unter ihnen werden häufiger im Teenageralter schwanger, und sie verdienen weniger.
Vorhersagen: Professionelle Prognostiker treffen höchst unterschiedliche Vorhersagen über den wahrscheinlichen Absatz eines neuen Produkts, die wahrscheinliche Zunahme der Arbeitslosenquote, die Wahrscheinlichkeit, dass angeschlagene Unternehmen pleitegehen, und vieles andere mehr. Aber sie sind nicht nur untereinander uneins, sie stimmen auch mit sich selbst nicht überein. Als zum Beispiel dieselben Softwareentwickler an zwei verschiedenen Tagen gebeten wurden, die Zeit abzuschätzen, die sie bräuchten, um dieselbe Aufgabe zu erledigen, unterschieden sich die von ihnen angesetzten Stundenzahlen durchschnittlich um 71 Prozent.3
Asylentscheidungen: Ob ein Asylbewerber in den Vereinigten Staaten anerkannt wird, kommt einer Art Glücksspiel gleich. Bei einer Studie über Fälle, die zufallsabhängig verschiedenen Richtern zugewiesen wurden, kam heraus, dass ein Richter 5 Prozent der Asylsuchenden anerkannte, während ein anderer 88 Prozent anerkannte. Der Titel der Studie sagt alles: »Flüchtlingsroulette«.4 (Wir werden nachfolgend einiges an Roulette erleben.)
Personalentscheidungen: Personalverantwortliche, die Vorstellungsgespräche führen, schätzen dieselben Bewerberinnen und Bewerber sehr unterschiedlich ein. Auch werden die Leistungen derselben Mitarbeiter höchst unterschiedlich bewertet, und die Bewertung hängt stärker von der Person des Beurteilenden als von der zu beurteilenden Leistung ab.
Kautionsentscheidungen: Ob ein Beschuldigter in den USA gegen Kautionszahlung auf freiem Fuß bleibt oder aber bis zum Prozess in Haft genommen wird, hängt weitgehend von der Person des Richters/der Richterin ab, der/die über die Sache verhandelt. Einige Richter/Richterinnen sind viel nachsichtiger als andere. Auch in Bezug auf die Frage, bei welchen Angeklagten die höchste Flucht- beziehungsweise Rückfallgefahr besteht, kommen Richter und Richterinnen zu sehr unterschiedlichen Einschätzungen.
Forensik (Kriminaltechnik): Uns wurde beigebracht, die Identifikation per Fingerabdruck für absolut sicher zu halten. Aber Sachverständige für Daktyloskopie, die beurteilen sollen, ob ein an einem Tatort gefundener Fingerabdruck eindeutig einem Verdächtigen zugeordnet werden kann, kommen gelegentlich zu unterschiedlichen Schlussfolgerungen. Aber nicht genug damit, dass sich die Experten uneins sind, hinzu kommt, dass dieselben Sachverständigen, wenn ihnen zu verschiedenen Zeitpunkten derselbe Fingerabdruck vorgelegt wird, mitunter widersprüchliche Einschätzungen abgeben. Eine ähnliche Uneinheitlichkeit der Beurteilungen ist auch für andere forensische Disziplinen, sogar für die DNA-Analyse, nachgewiesen.
Patentgewährung: Die Autoren einer führenden Studie über Patentanmeldungen weisen ebenfalls auf das damit verbundene Noise hin: »Ob das Patentamt ein Patent gewährt oder ablehnt, hängt in erheblichem Maße davon ab, welcher Prüfer den Antrag zufälligerweise auf seinen Tisch bekommt.«5 Unter Gerechtigkeitsaspekten ist diese Uneinheitlichkeit der Urteilsbildung ziemlich beunruhigend.

All diese von »Störgeräuschen« geprägten Situationen sind nur die Spitze eines riesigen Eisbergs. Ganz gleich, welche Beurteilungen man sich näher ansieht, man findet höchstwahrscheinlich Noise. Um die Qualität unserer Urteile zu verbessern, müssen wir sowohl Noise als auch Bias reduzieren.

Dieses Buch hat sechs Teile. In Teil 1 befassen wir uns mit dem Unterschied zwischen Noise und Bias, wir zeigen, dass die Entscheidungsfindung sowohl öffentlicher als auch privater Organisationen verrauscht sein kann, manchmal in einem schockierenden Ausmaß. Um die Dimension des Problems zu verdeutlichen, beginnen wir mit Urteilen auf zwei Gebieten. Beim ersten geht es um strafrechtliche Verurteilungen (also den staatlichen Bereich), beim zweiten um Versicherungen (also den privaten Sektor). Auf den ersten Blick könnten die beiden unterschiedlicher nicht sein. Aber in Bezug auf Noise haben sie viel gemeinsam. Um dies nachzuweisen, führen wir das Konzept des »Noise Audits« ein. Ein Noise Audit soll messen, wie groß das Ausmaß der Nichtübereinstimmung unter Fachkräften ist, die innerhalb einer Organisation die gleichen Fälle bearbeiten.

In Teil 2 befassen wir uns eingehend mit den wesentlichen Merkmalen der Urteilsbildung und mit der Frage, wie man Genauigkeit beziehungsweise Ungenauigkeit (Fehler) messen kann. Urteile unterliegen sowohl Verzerrung als auch Rauschen. Wir beschreiben eine bemerkenswerte Äquivalenz der Auswirkungen der beiden Fehlertypen. Das, was wir »Occasion-Noise« (situatives Rauschen) nennen, ist die Streuung der Urteile über denselben Fall durch dieselbe Person oder Gruppe bei verschiedenen Gelegenheiten. In Gruppendiskussionen entsteht aufgrund vermeintlich belangloser Faktoren wie der Reihenfolge der Sprecher ein erhebliches Maß an Noise.

Teil 3 betrachtet einen Typ von Urteilen, der schon gründlich erforscht wurde, etwas genauer: prädiktive Urteile. Wir gehen auf den wichtigsten Vorteil ein, den Regeln, Formeln und Algorithmen gegenüber der menschlichen Intuition haben, wenn es um Vorhersagen geht: Entgegen der landläufigen Meinung besteht dieser nicht so sehr darin, dass Regeln verlässlichere Erkenntnisse liefern, als vielmehr darin, dass sie nicht durch Noise gestört sind. Wir sprechen über eine grundsätzliche Grenze bei der Qualität prädiktiver Urteile – die objektive Unwissenheit über zukünftige Ereignisse – und darüber, wie diese in Verbindung mit Noise die Qualität der Vorhersage einschränkt. Schließlich wenden wir uns einer Frage zu, die Sie sich höchstwahrscheinlich schon selbst gestellt haben: Wenn Noise mit seinem Rauschen so allgegenwärtig ist, wieso ist es mir dann nicht schon früher aufgefallen?

Teil 4 befasst sich näher mit der Psychologie von Noise. Wir erläutern seine wichtigsten Ursachen. Dazu gehören Unterschiede zwischen Menschen, die auf eine Vielzahl von Faktoren zurückzuführen sind, unter anderem Persönlichkeit und Denkstil, höchst individuelle Variationen in der Gewichtung verschiedener Gesichtspunkte und die Tatsache, dass Menschen die gleichen Skalen in unterschiedlicher Weise anwenden. Wir gehen der Frage nach, warum wir Rauschen nicht wahrnehmen und uns Ereignisse und Urteile, die wir kaum vorhersehen konnten, häufig dennoch nicht überraschen.

Teil 5 beschäftigt sich mit der praktischen Frage, wie wir unsere Urteilsbildung verbessern und Fehler vermeiden können. (Leserinnen und Leser, die sich hauptsächlich für die praktischen Anwendungen der Verringerung von Noise interessieren, können die Diskussion über die Schwierigkeiten von Vorhersagen und die Psychologie der Urteilsbildung in den Teilen 3 und 4 überspringen und direkt mit diesem Teil weitermachen.) Wir sehen uns an, was in der Medizin, in der Wirtschaft, im Bildungswesen, bei Behörden und an anderer Stelle unternommen wird, um Störgeräusche bei der Entscheidungsfindung zu unterdrücken. Wir stellen unter dem Oberbegriff der »Entscheidungshygiene« eine Reihe von Verfahren zur Noise-Reduktion vor. Auch präsentieren wir fünf Fallstudien über Bereiche, in denen Noise erwiesenermaßen eine große Rolle spielt und schon seit Längerem erhebliche Anstrengungen unternommen werden, die Störgeräusche zu reduzieren – interessanterweise mit unterschiedlichem Erfolg. In diesen Fallstudien geht es um unzuverlässige medizinische Diagnosen, Leistungsbeurteilungen, Forensik (Kriminaltechnik), Personaleinstellungen und das Erstellen von Prognosen im Allgemeinen. Zum Abschluss stellen wir ein Verfahren vor, das wir »Strukturiertes Entscheidungsprotokoll« nennen: ein universell einsetzbares Verfahren zur Bewertung von Handlungsoptionen, das mehrere Schlüsselmethoden der Entscheidungshygiene umfasst und seine Anwender in die Lage versetzen soll, weniger mit Noise behaftete, zuverlässigere Urteile zu treffen.

Was ist das wünschenswerte Ausmaß an Noise? Teil 6 wendet sich dieser Frage zu. Auch wenn es der Intuition widersprechen mag, ist das wünschenswerte Ausmaß an Rauschen nicht gleich null. In einigen Bereichen ist es schlichtweg nicht machbar, Noise vollständig zu unterdrücken. In anderen Bereichen wäre es zu kostspielig. Auf wieder anderen Gebieten würden Bemühungen zur Beseitigung von Störgeräuschen andere wichtige Werte gefährden; so könnten solche Maßnahmen zum Beispiel die Arbeitsmoral untergraben und Menschen das Gefühl geben, dass sie als bloße Rädchen in einem Getriebe behandelt werden. Algorithmen können hier hilfreich sein, wecken aber eine Reihe von Bedenken; auf einige davon gehen wir hier ein. Dennoch ist das gegenwärtige Ausmaß an Noise nicht akzeptabel. Wir empfehlen privaten und öffentlichen Organisationen dringend, Noise Audits durchzuführen und sich intensiver als bislang darum zu bemühen, diese Störgeräusche zu beseitigen. Auf diese Weise könnten Organisationen dazu beitragen, weitverbreitete Ungerechtigkeiten abzumildern – und in vielen Bereichen Kosten zu senken.

Dieses Ziel vor Augen, beschließen wir jedes Kapitel mit einigen kurzen Aussagen in Form von Zitaten. Sie können diese Aussagen, so wie sie sind, auf Ihre eigene Situation anwenden oder sie entsprechend der für Sie relevanten Probleme umformulieren, ganz gleich, ob es dabei um Gesundheit, Sicherheit, Bildung, Geld, Berufsleben, Unterhaltung oder etwas anderes geht. Noise als Problem besser zu verstehen und Lösungsansätze dafür zu finden, ist Work in Progress und geht uns alle an. Wir alle können einen Beitrag dazu leisten. Dieses Buch wurde in der Hoffnung geschrieben, dass wir diese Chance auch tatsächlich nutzen.

TEIL 1
Noise entdecken

Es ist nicht hinnehmbar, wenn straffällig gewordene Menschen für genau die gleiche Straftat unter ansonsten gleichen Bedingungen völlig unterschiedliche Strafmaße erhalten – zum Beispiel der eine eine Freiheitsstrafe von fünf Jahren und der andere Bewährung. Und doch passiert in vielen Ländern genau dies. Selbstverständlich ist das Strafjustizsystem auch von Bias durchdrungen. Aber konzentrieren wir uns in Kapitel 1 auf Noise – und vor allem auf das, was geschah, als ein berühmter Richter auf dieses Phänomen aufmerksam machte und eine Kampagne startete, die in gewissem Sinne die Welt veränderte (wenn auch nicht genug). Wir berichten hier über die Situation in den Vereinigten Staaten, aber wir sind überzeugt davon, dass es sich in vielen anderen Ländern ähnlich verhält. Wir vermuten, dass das Problem der Zufallsstreuung von Urteilen in einigen dieser Länder sogar noch gravierender ist als in den USA. Am Beispiel der Strafzumessung wollen wir zeigen, dass Noise zu großen Ungerechtigkeiten führen kann.

Die enorme Schwankungsbreite hat bei Strafurteilen besonders dramatische Auswirkungen, aber wir befassen uns auch mit dem Privatsektor, wo manchmal ebenso viel auf dem Spiel steht. Dies verdeutlichen wir in Kapitel 2 anhand einer großen Versicherungsgesellschaft. Dort haben sogenannte Underwriter – Mitarbeiter, die für eine Versicherung Sonderrisiken analysieren und auf dieser Grundlage Angebote erstellen – die Aufgabe, die Höhe von Versicherungsprämien für potenzielle Kunden festzusetzen, während Schadensregulierer den Wert geltend gemachter Schadensforderungen beurteilen müssen. Vielleicht nehmen Sie an, dass es sich um einfache und mechanische Aufgaben handelt und dass verschiedene Fachleute ungefähr auf die gleichen Geldbeträge kommen. Wir haben ein sorgfältig geplantes Experiment – ein Noise Audit – durchgeführt, um diese Annahme zu überprüfen. Die Ergebnisse überraschten uns; aber sie haben auch die Führungsspitze des Unternehmens verblüfft, ja geradezu schockiert. Wir fanden nämlich heraus, dass das bloße Ausmaß an Noise das Unternehmen eine Menge Geld kostet. Das Experiment verdeutlicht, dass Noise auch erheblichen wirtschaftlichen Schaden verursachen kann.

Beide Beispiele – Strafjustizsystem und Versicherungswirtschaft – stützen sich auf Studien mit zahlreichen Teilnehmern, die eine große Zahl von Urteilen fällten. Aber viele wichtige Entscheidungen sind »singulär«, sie wiederholen sich nicht: Wie soll man mit einer scheinbar einzigartigen geschäftlichen Chance verfahren? Soll man ein völlig neues Produkt auf den Markt bringen? Wie sieht die angemessene Reaktion auf eine Pandemie aus? Soll man jemanden einstellen, der nicht dem Standardprofil entspricht? Tritt Noise auch bei Entscheidungen über solch einzigartige Situationen auf? Die Vermutung liegt nahe, dass dies nicht der Fall ist. Schließlich ist Rauschen unerwünschte Variabilität, und wie kann es bei einmaligen Entscheidungen zu Schwankungen kommen? In Kapitel 3 versuchen wir, diese Frage zu beantworten. Die Entscheidung, die man trifft – selbst in einer scheinbar einzigartigen Situation –, ist nur eine aus einer ganzen Wolke von Möglichkeiten. Auch hier findet man eine Menge Störgeräusche.

Aus diesen drei Kapiteln lässt sich eine Erkenntnis ableiten, die sich in einem Satz zusammenfassen lässt und wie ein roter Faden durch das gesamte Buch zieht: Wo Urteile getroffen werden, gibt es Noise – und zwar mehr, als man gemeinhin erwartet. Beginnen wir damit, herauszufinden, wie viel genau.

KAPITEL 1
Verbrechen und Bestrafung:
Ein Lotteriespiel

Angenommen, jemand ist wegen einer Straftat verurteilt worden – Ladendiebstahl, Heroinbesitz, Körperverletzung oder bewaffneter Raubüberfall. Welches Strafmaß hat er zu erwarten?

Die Antwort sollte nicht davon abhängen, welchem Richter oder welcher Richterin der Fall zufälligerweise übertragen wurde, ob es draußen heiß oder kalt ist oder die heimische Mannschaft am Vortag gewonnen hat. Es wäre empörend, wenn drei Personen, die wegen der gleichen Straftat verurteilt wurden, völlig unterschiedliche Strafmaße erhielten: Bewährung für den einen, zwei Jahre Haft für den zweiten und zehn Jahre für den dritten. Und trotzdem war und ist dieser Missstand in vielen Ländern nach wie vor Realität.

In der ganzen Welt besaßen Richter lange Zeit einen sehr großen Ermessensspielraum bei der Festsetzung des Strafmaßes. In vielen Ländern haben Experten dieses richterliche Ermessen positiv bewertet und es als gerecht und human gepriesen. Sie betonten beharrlich, das Strafmaß solle auf der Grundlage vieler Faktoren festgesetzt werden; dabei komme es nicht nur auf die Straftat an sich an, sondern auch auf den jeweiligen Charakter des Angeklagten und die Umstände der Tat. »Individueller Zuschnitt des Strafmaßes« lautete das Gebot der Stunde. Wären Richter durch Regeln in ihrer Ermessensfreiheit eingeschränkt, würden Straftäter auf eine menschenunwürdige Art und Weise behandelt; sie würden nicht als einzigartige Individuen betrachtet, die einen Anspruch darauf hätten, dass man ihre besonderen Lebensumstände berücksichtige. Die Idee eines »rechtsstaatlichen Verfahrens« an sich erschien vielen als ein Aufruf, Richtern unbeschränktes Ermessen zuzugestehen.

In den 1970er-Jahren begann die allgemeine Begeisterung für das richterliche Ermessen aus einem einfachen Grund zu schwinden: Es gab Belege dafür, dass die Strafzumessung einer Lotterie gleicht. Im Jahr 1973 lenkte ein berühmter US-Richter, Marvin Frankel, die öffentliche Aufmerksamkeit auf das Problem. Schon bevor er Richter geworden war, hatte sich Frankel nachdrücklich für Redefreiheit und Menschenrechte eingesetzt. Er war einer der Gründer des Lawyers Committee for Human Rights, einer Menschenrechtsorganisation, die heute Human Rights First heißt.

Frankel konnte ungestüm sein. Und er war empört über die Glückslotterie im Strafjustizsystem. Sein Buch Criminal Sentences: Law Without Order (»Strafurteile: Recht ohne Ordnung«) beginnt mit einer klaren Darlegung des Problems:

Jemand, der von einem Bundesgericht wegen Bankraubs verurteilt wurde, konnte eine Freiheitsstrafe von maximal 25 Jahren erhalten. Das heißt konkret, sein Strafmaß konnte irgendwo zwischen 0 und 25 Jahren liegen. Und wo genau es letztlich lag, hing, wie ich bald erkannte, weniger von dem Fall oder dem jeweiligen Angeklagten als von dem jeweiligen Richter ab, das heißt von den Ansichten, Vorlieben und Vorurteilen des Richters. Derselbe Angeklagte konnte daher in derselben Strafsache, je nachdem, welchem Richter der Fall übertragen wurde, zu sehr unterschiedlichen Strafen verurteilt werden.

Frankel legte zur Untermauerung seines Arguments keine statistische Analyse vor. Aber er schilderte eine Reihe eindringlicher Beispiele, die die ungerechtfertigte Ungleichbehandlung von Personen vor Augen führten, die in allen strafrechtlich relevanten Punkten übereinstimmten. Zwei Männer, bislang beide nicht straffällig, wurden wegen Einlösung gefälschter Schecks über 58,40 beziehungsweise 35,20 Dollar verurteilt: der erste zu 15 Jahren, der zweite zu 30 Tagen. Für einander ähnelnde Fälle von Unterschlagung wurde ein Mann zu einer Freiheitsstrafe von 117 Tagen und ein anderer zu einer von 20 Jahren verurteilt. Unter Verweis auf zahlreiche ähnliche Fälle beklagte Frankel das, was er die »beinahe völlig unkontrollierten und weitreichenden Befugnisse« von Bundesrichtern nannte,6 die dazu führten, dass »tagtäglich willkürliche Grausamkeiten begangen werden«,7 die er in einem Gemeinwesen, »das von Gesetzen, nicht von menschlicher Willkür regiert wird«,8 für nicht hinnehmbar ansah.

Frankel forderte den US-Kongress auf, dieser »Diskriminierung« – wie er die willkürlichen Grausamkeiten nannte – ein Ende zu setzen. Darunter verstand er hauptsächlich Noise in der Form nicht begründbarer Unterschiede bei der Strafzumessung. Aber auch Bias in Form »rassischer« und sozioökonomischer Ungleichheiten war ihm ein Dorn im Auge. Um sowohl Zufallsstreuung als auch systematische Abweichung zu bekämpfen, forderte er, die Ungleichbehandlung von Angeklagten dürfe nur dann zulässig sein, wenn die Unterschiede »durch sachdienliche Tests gerechtfertigt werden, die sich mit hinlänglicher Objektivität formulieren und anwenden lassen, um sicherzustellen, dass die Ergebnisse mehr sind als idiosynkratische Ukasse einzelner Beamter, Richter oder sonstiger Personen«.9 (Der Ausdruck »idiosynkratische Ukasse« hört sich ein bisschen esoterisch an; darunter verstand Frankel »persönliche Erlasse«.) Aber er plädierte, weit darüber hinausgehend, für eine Verringerung von Noise durch ein detailliertes »Profil beziehungsweise eine Checkliste von Faktoren, die, wenn möglich, eine Form numerischer oder anderweitiger objektiver Einstufung umfassen sollten«.10

Da er dies zu Beginn der 1970er-Jahre schrieb, ging er nicht ganz so weit, die »Verdrängung von Menschen durch Maschinen« zu verteidigen. Aber er kam dem doch erstaunlich nahe. Er war fest davon überzeugt, dass »eine rechtsstaatliche Ordnung einen Korpus unpersönlicher Regeln erfordert, die allgemein anwendbar und für Richter genauso bindend sind wie für alle anderen«. Er sprach sich ausdrücklich für die Nutzung von »Computern als einem Hilfsmittel für geordnetes Denken bei der Strafzumessung« aus.11 Er empfahl auch die Einrichtung einer Kommission für die Strafzumessung.12

Frankels Buch wurde zu einem der einflussreichsten in der gesamten Geschichte des Strafrechts – nicht nur in den Vereinigten Staaten, sondern weltweit. Sein Werk hatte jedoch handwerkliche Schwächen. Es stellte der Strafjustiz ein verheerendes Zeugnis aus, aber es war »impressionistisch«, zeigte Momentaufnahmen. Um zu überprüfen, ob Noise tatsächlich ein Problem war, wurden unmittelbar im Anschluss an die Publikation des Buches mehrere Studien durchgeführt, die dem Ausmaß von Noise bei Strafurteilen auf den Grund gingen.

Eine frühe, groß angelegte Studie dieser Art, die von Frankel selbst geleitet wurde, fand 1974 statt. Fünfzig Richter aus verschiedenen Bezirken wurden gebeten, Strafen für Angeklagte in hypothetischen Fällen festzusetzen. Diese waren in identischen Berichten zusammengefasst worden, die man ihnen vor der Strafzumessung zur Verfügung stellte. Der wichtigste Befund lautete, dass »fehlender Konsens die Norm«13 war und die Schwankungsbreite der Strafmaße »verblüffend«.14 Ein Heroindealer konnte je nach Richter zu einem bis zehn Jahren Freiheitsstrafe verurteilt werden.15 Die Freiheitsstrafen für einen Bankräuber konnten zwischen 5 und 18 Jahren betragen.16 In einem Erpressungsfall reichten die Strafen von sage und schreibe 20 Jahren Haft und einer Geldstrafe von 65.000 Dollar zu lediglich 3 Jahren Haft und keiner Geldstrafe.17 Besonders erschreckend: In 16 von 20 Fällen bestand kein Einvernehmen darüber, ob ein Freiheitsentzug überhaupt angemessen war.

An diese Studie schlossen sich eine Reihe weiterer an, die alle ähnlich schockierende Ausmaße an Noise zutage förderten. Im Jahr 1977 zum Beispiel führten William Austin und Thomas Williams eine Befragung von 47 Richtern durch; sie baten sie, in den gleichen fünf Fällen, die jeweils vergleichsweise geringfügige Vergehen betrafen, Strafmaße festzusetzen.18

Sämtliche Beschreibungen der Fälle enthielten auch Zusammenfassungen der Informationen, die Richter üblicherweise bei der Strafzumessung berücksichtigen, unter anderem die Anklage, die Zeugenaussagen, die Vorstrafen des Angeklagten (soweit vorhanden), sein sozialer Hintergrund und Hinweise auf seine Persönlichkeit. Der wichtigste Befund der Studie war eine »erhebliche Streuung«. In einem Fall, in dem es zum Beispiel um Einbruch ging, reichten die empfohlenen Haftstrafen von fünf Jahren bis zu lediglich dreißig Tagen (neben einer Geldstrafe von 100 Dollar). In einem anderen Fall um den Besitz von Marihuana empfahlen einige Richter Gefängnisstrafen, während andere zu Bewährung rieten.

Eine weitaus größere Studie, die 1981 durchgeführt wurde, bezog 208 Bundesrichter ein, denen dieselben 16 hypothetischen Fälle vorgelegt wurden.19 Ihre wichtigsten Ergebnisse waren verblüffend: »In nur 3 der 16 Fälle bestand einhelliges Einvernehmen darüber, eine Haftstrafe zu verhängen. Selbst wenn sich die meisten Richter einig waren, dass eine Freiheitsstrafe angemessen wäre, gab es große Unterschiede in der Dauer der von ihnen empfohlenen Haftstrafen. In einer Betrugssache, in der sich die mittlere Haftstrafe auf 8,5 Jahre belief, war die längste Freiheitsstrafe, die verhängt wurde, lebenslänglich. In einem anderen Fall war die mittlere Haftstrafe 1,1 Jahre, aber die längste Freiheitsstrafe, die empfohlen wurde, betrug 15 Jahre.«

So aufschlussreich diese Studien, die streng kontrollierte Experimente beinhalteten, auch sind, so unterschätzen sie doch höchstwahrscheinlich das Ausmaß an Noise in der realen Welt der Strafjustiz. Echte Richter erhalten viel mehr Informationen als die Teilnehmer in den sorgfältig ausgearbeiteten Falldarstellungen dieser Experimente. Ein Teil der zusätzlichen Informationen ist natürlich relevant, aber es gibt auch zahlreiche Anhaltspunkte dafür, dass irrelevante Informationen in Form nebensächlicher und scheinbar zufälliger Faktoren sich erheblich auf das Ergebnis auswirken können. So fand man zum Beispiel heraus, dass Richter am Tagesanfang oder nach einer Essenspause eine Strafe eher zur Bewährung aussetzen als unmittelbar vor einer solchen Pause. Wenn Richter hungrig sind, urteilen sie strenger.20

Bei einer Studie, in deren Rahmen Tausende von Jugendgerichtsentscheidungen ausgewertet wurden, kam Folgendes heraus: Wenn die lokale Footballmannschaft am Wochenende ein Spiel verliert, urteilen die Richter montags (und in geringerem Maß auch den Rest der Woche) strenger.21 Angeklagte von dunkler Hautfarbe sind die Hauptleidtragenden dieser erhöhten Strenge. Eine andere Studie wertete 1,5 Millionen Gerichtsentscheidungen aus drei Jahrzehnten aus, wobei in ähnlicher Weise herauskam, dass Richter an Tagen, die auf eine Niederlage der örtlichen Footballmannschaft folgten, härter urteilten als an Tagen nach einem Sieg.22

Die Auswertung von sechs Millionen Gerichtsentscheidungen, die über einen Zeitraum von zwölf Jahren in Frankreich ergingen, ergab, dass Angeklagte an ihrem Geburtstag nachsichtiger behandelt werden.23 (Wir vermuten, dass Richter auch an ihren eigenen Geburtstagen milder urteilen, aber soweit wir wissen, ist diese Hypothese nicht überprüft worden.) Sogar etwas scheinbar so Belangloses wie die Außentemperatur kann Richter beeinflussen.24 Bei der Analyse von 207.000 asylbehördlichen Entscheidungen über einen Zeitraum von vier Jahren wurde ein deutlicher Effekt durch tägliche Temperaturschwankungen festgestellt: Wenn es draußen heiß ist, haben Asylbewerber schlechtere Aussichten, anerkannt zu werden. Wenn man in seinem Heimatland aus politischen Gründen verfolgt wird und in einem anderen Land Asyl beantragt, sollte man also hoffen und vielleicht sogar dafür beten, dass die Anhörung an einem kühlen Tag stattfindet.

Zufallsschwankungen bei der Strafzumessung verringern

In den 1970er-Jahren wurde Edward M. Kennedy, der Bruder des ermordeten Präsidenten John F. Kennedy und eines der einflussreichsten Mitglieder des US-Senats, auf die Argumente Frankels und die empirischen Befunde, die seine Argumente stützten, aufmerksam. Kennedy war entsetzt. Schon 1975 brachte er einen Gesetzentwurf ein, der auf eine Reform der Strafzumessung abzielte; daraus wurde allerdings nichts. Aber Kennedy ließ sich dadurch nicht beirren. Auf die Studienergebnisse verweisend, drängte er weiterhin Jahr für Jahr auf die Verabschiedung dieses Gesetzentwurfs. Im Jahr 1984 gelang es ihm schließlich. Der Kongress reagierte auf die Belege für die ungerechtfertigte Streuung der Strafmaße mit der Verabschiedung des Sentencing Reform Act.25 Das neue Gesetz sollte die Störgeräusche im System verringern, indem es »den uneingeschränkten Ermessensspielraum reduziert, den das Gesetz jenen Richtern und Bewährungsbehörden verleiht, die für die Verhängung und Vollstreckung der Strafen zuständig sind«.26

Kongressabgeordnete verwiesen auf die »nicht zu rechtfertigende Spannbreite« der Strafmaße, wobei sie insbesondere Befunde hervorhoben, wonach im Großraum New York Strafmaße für identische Fälle von 3 bis zu 20 Jahren Haft reichen konnten.27 Wie von Richter Frankel empfohlen, ordnete das Gesetz die Einsetzung der United States Sentencing Commission an, deren Hauptaufgabe klar war: der Erlass von Leitlinien für die Strafzumessung, die bindend sein und die Bandbreite der Strafmaße – den Strafrahmen – einschränken sollten.

Im Jahr darauf erließ die Commission diese Leitlinien, die im Allgemeinen auf den Durchschnittsstrafen für ähnliche Verbrechen in einer Auswertung von 10.000 abgeschlossenen Strafprozessen basierten. Der Richter am Obersten Gerichtshof der USA, Stephen Breyer, der bei den Ausschussberatungen eine wichtige Rolle gespielt hatte, verteidigte die Bezugnahme auf die Strafmaßpraxis der Vergangenheit, indem er auf die unüberbrückbaren Meinungsunterschiede innerhalb der Commission hinwies: »Warum haben sich die Ausschussmitglieder nicht einfach zusammengesetzt und dieses Problem in einer rationalen Weise geklärt, statt einfach nur Urteile aus der Vergangenheit heranzuziehen? Die kurze Antwort lautet: Das konnten wir nicht. Wir konnten es nicht, weil es jede Menge gute Argumente gibt, die in entgegengesetzte Richtungen weisen … Versuchen Sie einmal, alle Straftaten, die es gibt, in eine Rangfolge der Strafwürdigkeit zu bringen … Sammeln Sie dann die Ergebnisse von Ihren Freunden und prüfen Sie, ob sie alle übereinstimmen. Ich sage Ihnen, das wird nicht so sein.«28

Gemäß den Leitlinien müssen Richter bei der Strafzumessung zwei Faktoren berücksichtigen: die Straftat und eventuelle Vorstrafen des Angeklagten. Die Straftaten werden je nach ihrer Schwere in eine von 43 Stufen der »Strafwürdigkeit« eingeordnet. Das Vorstrafenregister des Angeklagten gibt Auskunft über die Anzahl und Schwere seiner früheren Verurteilungen. Sobald die aktuelle Straftat und die Vorstrafen zusammengeführt wurden, stecken die Richtlinien einen relativ engen Strafrahmen ab, wobei die höchstmögliche Strafe die geringstmögliche um sechs Monate oder 25 Prozent – je nachdem, was größer ist – übertreffen darf. Richtern ist es erlaubt, vom Strafrahmen abzuweichen, wenn sie strafverschärfende oder mildernde Umstände erkennen, aber die Abweichungen müssen gegenüber einem Berufungsgericht begründet werden.

Obgleich die Richtlinien bindend sind, sind sie nicht vollkommen starr. Sie gehen nicht annähernd so weit, wie es Richter Frankel wünschte. Sie geben Richtern noch immer erhebliche Entscheidungsspielräume. Trotzdem gelangten verschiedene Studien, die zahlreiche Methoden anwandten und unterschiedliche historische Zeiträume betrachteten, zu demselben Schluss: Die Richtlinien mindern Noise. Technischer ausgedrückt: Sie »reduzieren den Teil der Nettovariation des Strafmaßes, der auf den zufälligen Umstand der Identität des Richters, der das Urteil spricht, zurückzuführen ist«.29

Die aufwendigste Studie führte die Commission selbst durch.30 Sie verglich Strafmaße bei Bankraub, Heroinhandel und Veruntreuung durch Bankmitarbeiter im Jahr 1985, vor dem Inkrafttreten der Leitlinien, mit den Strafmaßen, die zwischen dem 19. Januar 1989 und dem 30. September 1990 verhängt wurden. Straftäter wurden im Hinblick auf die Faktoren, die laut den Leitlinien für die Strafzumessung relevant waren, einander »passgenau zugeordnet«. Bei jeder Straftat waren die Unterschiede zwischen den Richtern im letztgenannten Zeitraum, nach der Verabschiedung des Sentencing Reform Act, viel geringer.

Laut einer anderen Studie betrug der durchschnittliche Unterschied in der Dauer der von Richtern verhängten Strafen 17 Prozent beziehungsweise 4,9 Monate im Zeitraum 1986/87. Diese Zahl fiel zwischen 1988 und 1993 auf 11 Prozent oder 3,9 Monate.31 Eine unabhängige Studie, die andere Zeiträume betrachtete, stieß auf ähnliche Erfolge bei der Verringerung von Disparitäten zwischen Richtern, definiert als die Unterschiede in den durchschnittlichen Strafmaßen, die Richter mit ähnlichen Fallbelastungen festsetzten.32

Ungeachtet dieser Befunde wurden die Leitlinien heftig kritisiert. Einige Personen, darunter viele Richter, hielten manche Strafmaße für zu hoch – was jedoch mit Bias, nicht mit Noise zu tun hat. Ein für unsere Zwecke viel interessanterer Einwand, der von zahlreichen Richtern erhoben wurde, lautete: Die Leitlinien seien zutiefst ungerecht, weil sie es Richtern untersagten, die besonderen Umstände der Tat angemessen zu berücksichtigen. Die Noise-Reduktion forderte einen Preis: Die Entscheidungsfindung wurde zu einem unannehmbar mechanischen Prozess. Die Juraprofessorin Kate Stith von der Universität Yale und Bundesrichter José Cabranes schrieben: »Das, was wir brauchen, ist nicht Blindheit, sondern Verständnis, Gerechtigkeit im Einzelfall« (im Sinne von Billigkeit), die »es nur in einem Urteil geben kann, das den Komplexitäten des Einzelfalls Rechnung trägt«.33

Diese Kritik führte dazu, dass die Leitlinien aus unterschiedlichen – teils juristischen, teils politischen – Gründen infrage gestellt wurden. Aber die Ablehnung blieb so lange folgenlos, bis der Oberste Gerichtshof aus technischen Gründen, die nichts mit der Debatte, die wir hier zusammenfassen, zu tun haben, die Leitlinien im Jahr 2005 für ungültig erklärte.34 Aufgrund der Gerichtsentscheidung wurden sie zu bloßen unverbindlichen Entscheidungshilfen. Insbesondere die meisten Bundesrichter freuten sich sehr über dieses Urteil. 75 Prozent zogen fakultative Entscheidungshilfen vor, während nur 3 Prozent verbindlichen Regeln den Vorzug gaben.35

Welche Folgen hatte die Umwandlung der Leitlinien in unverbindliche Entscheidungshilfen? Die in Harvard lehrende Juraprofessorin Crystal Yang ging dieser Frage auf den Grund, nicht mit einem Experiment oder einer Umfrage, sondern mit einem riesigen Datensatz realer Strafmaße von fast 400.000 Verurteilten. Dabei fand sie insbesondere heraus, dass die Unterschiede zwischen Richtern nach 2005 deutlich zugenommen hatten. Als die Leitlinien verbindlich gewesen waren, hatten Angeklagte, die von einem relativ strengen Richter verurteilt worden waren, eine um 2,8 Monate längere Freiheitsstrafe erhalten, als wenn sie von einem durchschnittlichen Richter verurteilt worden wären. Als die Richtlinien nur noch Entscheidungshilfen waren, verdoppelten sich die Unterschiede. Yang, die sich ganz ähnlich anhört wie Richter Frankel vierzig Jahre zuvor, schreibt, dass ihre »Befunde erhebliche Zweifel an der Gerechtigkeit von Strafurteilen wecken, da die Identität des Strafrichters, dem die Sache übertragen wird, in erheblichem Maße zu der Ungleichbehandlung ähnlicher Straftäter, die ähnlicher Straftaten schuldig gesprochen werden, beiträgt«.36

Nachdem die Leitlinien nur noch den Charakter von Empfehlungen hatten, urteilten Richter häufiger auf der Grundlage ihrer persönlichen Werte. Bindende Leitlinien reduzieren Bias und Noise. Nach der Entscheidung des Obersten Gerichtshofs gab es eine deutliche Zunahme der Unterschiede in den Strafmaßen afroamerikanischer und weißer Personen, die wegen der gleichen Straftat verurteilt wurden. Gleichzeitig nutzten Richterinnen ihren erweiterten Ermessensspielraum häufiger für ein milderes Urteil als Richter. Das Gleiche gilt für Richter, die von demokratischen Präsidenten ernannt wurden.

Drei Jahre nach dem Tod Richter Frankels im Jahr 2002 führte die Herabstufung der Leitlinien zu bloßen Entscheidungshilfen zum Rückfall in einen Zustand, der seinen Albträumen glich: Recht ohne Ordnung.

Die Geschichte des Kampfes von Richter Frankel für verbindliche Richtlinien der Strafzumessung vermittelt einen flüchtigen Eindruck von einigen der Schlüsselaspekte, die wir in diesem Buch behandeln werden.

Erstens: Die Urteilsbildung ist schwierig, weil die Welt ein komplexer, von Ungewissheiten geprägter Ort ist. Diese Komplexität wird offensichtlich in der Rechtsprechung, und sie trifft auch auf die meisten anderen Situationen zu, die ein »fachkundiges Urteil« erfordern. Dazu gehören Urteile, die von Ärzten, Pflegekräften, Juristen, Ingenieuren, Lehrern, Architekten, Hollywoodproduzenten, Mitgliedern von Berufungsausschüssen, Verlegern, Topmanagern aller Art und Mannschaftstrainern getroffen werden. Uneinigkeit ist unvermeidlich, wenn es um Urteile geht.

Zweitens: Das Ausmaß dieser Uneinigkeit ist viel größer, als wir erwarten. Während nur wenige Menschen den Grundsatz des richterlichen Ermessens ablehnen, stößt das Ausmaß der Disparität, die er erzeugt, auf fast einhellige Missbilligung. »System-Noise«, also die unerwünschte Uneinheitlichkeit von Urteilen, die idealerweise vollkommen gleich sein sollten, kann zunehmende Ungerechtigkeit, hohe ökonomische Kosten und alle möglichen Arten von Fehlern verursachen.

Drittens: Noise lässt sich vermindern. Die von Richter Frankel befürwortete und von der US Sentencing Commission umgesetzte Strategie – Regeln und Richtlinien – ist eine von mehreren Methoden, die Noise wirksam reduzieren. Für andere Arten von Urteilen sind andere Vorgehensweisen besser geeignet. Einige Methoden zur Noise-Reduktion können gleichzeitig auch Bias verringern.

Viertens: Bemühungen um Noise-Reduktion stoßen oftmals auf Bedenken und erhebliche Widerstände. Auch diese müssen ausgeräumt werden, oder der Kampf gegen Noise wird scheitern.

Zum Thema: Noise bei Strafurteilen

»Experimente zeigen große Unterschiede in den Strafmaßen, die verschiedene Richter in identischen Fällen festsetzen. Diese Schwankungen können nicht gerecht sein. Das Strafmaß eines Verurteilten sollte nicht davon abhängen, welchem Richter die Sache zufälligerweise zugewiesen wird.«

»Strafmaße sollten nicht von der Stimmung des Richters während der Verhandlung oder von der Außentemperatur abhängen.«

»Leitlinien sind eine Methode, um diesem Problem abzuhelfen. Aber viele Menschen mögen sie nicht, weil sie das richterliche Ermessen einschränken, das erforderlich sein kann, um Fairness und Genauigkeit zu gewährleisten. Schließlich ist doch jeder Fall einzigartig, oder?«

Inhalt

EINLEITUNG Zwei Arten von Fehlern

TEIL 1 Noise entdecken

KAPITEL 1 Verbrechen und Bestrafung: Ein Lotteriespiel

Zufallsschwankungen bei der Strafzumessung verringern

Zum Thema: Noise bei Strafurteilen

EINLEITUNG
Zwei Arten von Fehlern

TEIL 1
Noise entdecken

KAPITEL 1
Verbrechen und Bestrafung:
Ein Lotteriespiel