Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über www.dnb.de abrufbar.

Herstellung und Verlag: BoD – Books on Demand GmbH, Norderstedt

ISBN: 978-3-7412-7908-9

Inhalt

Einleitung
Theoretische Grundlagen
- 2.1 Allgemeine Begriffserklärungen
- 2.2 Stress, Stressreaktionen und Stressoren
  - 2.2.1 Zum Begriff „Stress“
  - 2.2.2 Einteilung von Stressoren
    - 2.2.2.1 Der situative Stressor
    - 2.2.2.2 Der kognitive Stressor
    - 2.2.2.3 Der Lombard-Stressor
  - 2.2.3 Stressreaktionen
  - 2.2.4 Auswirkungen von Umgebungslärm auf den menschlichen Organismus
    - 2.2.4.1 Aurale Lärmwirkungen
    - 2.2.4.2 Extraaurale Lärmwirkungen
    - 2.2.4.3 Psychische Lärmwirkungen
  - 2.2.5 Spezielle Reaktionsmuster auf den Lombardstressor
- 2.3 Forschungsüberblick.
  - 2.3.1 Lombard-Effekt und Sprachproduktion
  - 2.3.2 Spezielle Einflüsse auf die Stimmlippengrundfrequenz
  - 2.3.3 Sprechen unter forensischen Bedingungen
    - 2.3.3.1 Telefonübertragung
    - 2.3.3.2 Akustisches Umfeld der Telefonbenutzung
    - 2.3.3.3 Telefonsituation
  - 2.3.4 F0 als sprecherspezifisches Merkmal
  - 2.3.5 Messmethoden der Stimmlippengrundfrequenz
    - 2.3.5.1 Das “Peak-to-Peak-Verfahren“
    - 2.3.5.2 Das Verfahren der Autokorrelation
- 2.4 Zusammenfassung, Forschungsüberblick und Fragestellung
Versuchsaufbau
- 3.1 Ausgangsmaterial
- 3.2 Technische Voraussetzungen
- 3.3 Ablauf der Sprechprobenabnahme
- 3.4 Messmethode
Analyse und Ergebnisse
- 4.1 Störschall Fahrgeräusche und Stimmengewirr
  - 4.1.1 Deskriptive Statistik – F0-Mittelwert und Standardabweichung in Hz
  - 4.1.2 Messwerte
    - 4.1.2.1 Bedingungsspezifische Verteilung des F0-Mittelwerts
    - 4.1.2.2 Bedingungsspezifische Verteilung der Standardabweichung
  - 4.1.3 Explorative Statistik – F0-Mittelwert
    - 4.1.3.1 F0-Mittelwerte: Mean und Median
    - 4.1.3.2 Tests des F0-Mittelwerts
    - 4.1.3.3 Ranking des Störschalls – F0-Mittelwert
    - 4.1.3.4 Spontansprache vs. Lesetext - F0-Mittelwert
  - 4.1.4 Explorative Statistik – Standardabweichung
    - 4.1.4.1 Tests der Standardabweichung
    - 4.1.4.2 Ranking Störschall – Standardabweichung
    - 4.1.4.3 Spontansprache vs. Lesetext – Standardabweichung
  - 4.1.5 Zusammenfassung der Ergebnisse Arbeitshypothesen
  - 4.1.6 Relativität
    - 4.1.6.1 Relativität - F0-Mittelwert
    - 4.1.6.2 Relativität – Grundfrequenzvariabilität
- 4.2 Störschall Weißes Rauschen in Hz
  - 4.2.1 Deskriptive Statistik – F0-Mittelwert und Standardabweichung
  - 4.2.2 Explorative Statistik – F0-Mittelwert und Standardabweichung
  - 4.2.3 Relativität WR – Mittlere F0 und Grundfrequenzvariabilität
    - 4.2.3.1 Relativität - Mittlere F0
    - 4.2.3.2 Relativität – Grundfrequenzvariabilität
  - 4.2.4 Zusammenfassung: Weißes Rauschen
  - 4.2.5 Einordnung der Ergebnisse zur F0-Statistik im Modalmodus
Diskussion
- 5.1 Mittlere F0: Lesen und Spontansprache, Störschallqualität und –intensität
- 5.2 F0-Variabilität: Lesen und Spontansprache, Störschallqualität und –intensität
- 5.3 Relativität
- 5.4 Weißes Rauschen und erweiterte F0-Statistik
- 5.5 Kritik und Perspektiven
Zusammenfassung
Literaturverzeichnis
Anhang

Tabellenverzeichnis

Tabelle 1	Übersicht über psychologische und physiologische Stressreaktionen
Tabelle 2	Druck und Spannungsverhältnisse bei der Phonation
Tabelle 3	Übersicht über erstellte Sprechproben
Tabelle 4	Dauer der Erhebung der einzelnen Sprechproben
Tabelle 5	Ergebnisse Vorzeichentest: Modal zu Lombard - mittlere F0
Tabelle 6	Ranking F0-Mittelwert: Spontansprache
Tabelle 7	Ranking F0-Mittelwert: Lesetext
Tabelle 8	Ergebnisse Vorzeichentests: Lesen vs. Spontansprache - mittlere F0
Tabelle 9	Ergebnisse Vorzeichentests: Modal zu Lombard - Standardabweichung
Tabelle 10	Ranking SA - Spontansprache
Tabelle 11	Ranking SA - Lesetext
Tabelle 12	Ergebnisse Vorzeichentests: Lesen vs. Spontansprache - Standardabweichung
Tabelle 13	Vergleich– F0-Mittelwerte in Hz und Halbtönen bei Spontansprache
Tabelle 14	Vergleich– F0-Mittelwerte in Hz und Halbtönen bei Lesen
Tabelle 15	Vergleich Grundfrequenzvariabilität – in Hz, Halbtönen und Variationskoeffizient bei Spontansprache
Tabelle 16	Vergleich Grundfrequenzvariabilität – in Hz, Halbtönen und Variationskoeffizient bei Lesen
Tabelle 17	Vorzeichentest: F0-Mittelwert und SA - ‚Weißes Rauschen‘ bei Spontansprache (31 Vpn)
Tabelle 18	Messungen für die F0-Mittelwerte– Modalbedingung und Weißes Rauschen (63 Vpn)
Tabelle 19	Messungen für die Standardabweichung – Modalbedingung und Weißes Rauschen (63 Vpn)
Tabelle 20	Vorzeichentest: F0-Mittelwert und SA - „Weißes Rauschen“ (63 Vpn)
Tabelle 21	Vergleich– F0-Mittelwerte in Hz und Halbtönen
Tabelle 22	Vergleich Standardabweichung - Darstellung in Hz, HT und VK
Tabelle 23	Übersicht über Grundfrequenzstatistiken n >50
Tabelle 24	Ergebnisse F0-Messungen für die Modalbedingung (Spontansprache und Lesen)
Tabelle 25	Ergebnisse F0-Messungen für die Bedingung „Fahrgeräusche 70 dB“ (Spontansprache und Lesen)
Tabelle 26	Ergebnisse F0-Messungen für die Bedingung „Fahrgeräusche 80 dB“ (Spontansprache und Lesen)
Tabelle 27	Ergebnisse F0-Messungen für die Bedingung „Stimmengewirr 70 dB“ (Spontansprache und Lesen)
Tabelle 28	Ergebnisse F0-Messungen für die Bedingung „Stimmengewirr 80 dB“ (Spontansprache und Lesen)

Abbildungsverzeichnis

Abbildung 1	Schematische Darstellung des “Peak-Picking-Verfahrens“: Amplitudenmaxima aus drei aufeinander folgenden Perioden
Abbildung 2	10 Sekunden des Fahrgeräuschs im Breitbandsonagramm
Abbildung 3	10 Sekunden des Fahrgeräuschs im Schmalbandsonagramm
Abbildung 4	10 Sekunden des Stimmengewirrs im Breitbandsonagramm
Abbildung 5	10 Sekunden des Stimmengewirrs im Schmalbandsonagramm
Abbildung 6	Schematische Darstellung über Versuchsablauf
Abbildung 7	Übersicht über erstellte Sprechproben
Abbildung 8	Übersicht über Auswertung der stimmlich-sprachlichen Parameter – mittlere F0 und Standardabweichung
Abbildung 9	Übersicht über Auswertung der Messdaten in verschiedenen Dimensionen
Abbildung 10	Sonagraphische Darstellung einer Sprechprobe nach Optimierung der Einstellungen
Abbildung 11	Fehlerbehaftete F0-Extraktion: Typ 1
Abbildung 12	Fehlerhafte F0-Extraktion: Typ 2
Abbildung 13	Fehlerbehaftete F0-Extraktion: Typ 3
Abbildung 14	Verteilung der mittleren F0-Werte bei Spontansprache
Abbildung 15	Verteilung der mittleren F0-Werte bei Lesen
Abbildung 16	Verteilung der Standardabweichungen bei Spontansprache
Abbildung 17	Verteilung der Standardabweichungen bei Lesen
Abbildung 18	Beispiel einer F0-Kontur für VP 18 – Modalbedingung
Abbildung 19	Beispiel einer F0-Kontur für VP 18 – starker Lombard-Effekt (Stimmengewirr 80 dB)
Abbildung 20	Beispiel einer F0-Kontur für VP 2 - Modalbedingung
Abbildung 21	Beispiel F0-Kontur für VP 2 – schwacher Lombard-Effekt (Stimmengewirr 80 dB)
Abbildung 22	Verteilung der F0-Mittelwerte – Modal und Weißes Rauschen (63 Vpn)
Abbildung 23	Verteilung der Werte für die Standardabweichung – Modalbedingung und Weißes Rauschen (63 Vpn)
Abbildung 24	Übersicht über F0-Statistiken nach Eriksson und Traunmüller (1995)

Danksagung

Bei der Erstellung meiner Dissertation haben mich einige Menschen in besonderem Maße unterstützt. Dafür möchte ich mich an dieser Stelle bedanken.

Zuallererst danke ich dem Betreuer meines Promotionsprojektes Herrn Prof. Dr. Jens-Peter Koester. Er hat mich während meines gesamten Studiums, insbesondere aber auch während der Zeit meiner Promotion zu jedem Zeitpunkt unterstützt, mir in jeder Lage mit Rat und Tat zur Seite gestanden und hat mich, nicht zuletzt durch seinen unerschöpflichen wissenschaftlichen Fundus, sicher durch diese Zeit gelenkt.

Weiterhin möchte ich mich bei Frau Prof. Dr. Angelika Braun bedanken. Auch sie war zu jedem Zeitpunkt ein fester und wichtiger Bestandteil meines Promotionsprojekts. Ihre Tür stand mir jederzeit offen und ihre fachliche Kompetenz, ihr guter Rat sowie ihre stets aufbauenden Worte haben mir sehr geholfen.

Ein besonderer Dank gilt meinen Eltern. Ohne ihre Hilfe in vielerlei Form wäre es mir nicht möglich gewesen, die Promotion durch zu führen und diese Arbeit fertig zu stellen. Bei meinem Vater möchte ich mich besonders für seine Unterstützung auf fachlicher Ebene bedanken, ich konnte mich zu jeder Zeit auf ihn verlassen und mich an ihn wenden. Bei meiner Mutter möchte ich mich bedanken, dass sie nie des Aufbauens müde wurde und ihre motivierende und positive Einstellung haben mich vor allem auf persönlicher Ebene oft angeregt.

Ich danke Simon Haubrich, meinem Partner, gleichzeitig Freund und auch Berater: Er hat mir während dieser ganzen Zeit zur Seite gestanden, war immer für mich da und hat zu keinem Zeitpunkt den Glauben an mich verloren. Wie ein Fels in der Brandung.

Ebenfalls danke ich Dr. Christoph Meinerz, nicht nur für die Bereitstellung seiner Sprachproben zu Versuchs- und Analysezwecken, sondern darüber hinaus auch für die tatkräftige Unterstützung in fachlichen und persönlichen Dingen. Er hatte stets ein offenes Ohr für mich.

Weiterhin bedanke ich mich bei der Landespolizeischule Rheinland-Pfalz - zum Einen bei Herrn Fachbereichsleiter Klaus-Jörg Weidmann und Herrn Norbert Streit, EPHK, für die bereitwillige und umfangreiche Unterstützung meines Projekts, zum Anderen aber auch bei denjenigen Personen, die sich mir im Rahmen meines Experiments als Versuchspersonen zur Verfügung gestellt haben.

Nicht zuletzt danke ich meinen Freunden und all den Menschen, die mir während dieser gesamten Zeit soviel Verständnis und Unterstützung entgegen gebracht haben, mich motiviert, aufgebaut und angetrieben haben - die einfach da waren, wenn es darauf ankam.

1 Einleitung

In der forensischen Sprechererkennung spielen bei der Stimmenanalyse und beim Stimmenvergleich neben auditiv wahrnehmbaren auch verschiedene quantifizierbare phonetische Parameter eine Rolle, darunter Formantfrequenzen, Artikulations- und Silbenrate oder auch die mittlere Sprechstimmlage. Letztere, in der wissenschaftlichen Literatur auch als mittlere Grundfrequenz bezeichnet, gilt in der forensischen Sprechererkennung als sprecherspezifisches Merkmal¹. Dabei ist jedoch zu berücksichtigen, dass die Ausprägung bzw. Lage der mittleren Grundfrequenz von verschiedenen Faktoren beeinflusst wird, wodurch die Aussagekraft von Grundfrequenzparametern entsprechend relativiert wird. Diese Einflussfaktoren lassen sich nach Braun (1995) in drei Gruppen einteilen: nach physiologischen Einflüssen (z.B. Alter, Geschlecht), nach psychologischen (z.B. die affektive Verfassung des Sprechers oder die Sprechsituation) und technischen Einflüssen (Aufnahmebedingungen). Zu den Umständen, die die Sprechsituation bestimmen, gehören neben den sozialen und psychologischen Bedingungen auch die Belastung eines Sprechers durch Umgebungslärm. Dass sich Lärmbelastung auf die Sprachproduktion, speziell auch auf die Sprechlautstärke und –tonhöhe und deren akustische Korrelate der Sprechschallintensität und –grundfrequenz, auswirkt, ist aus der wissenschaftlichen Literatur hinlänglich bekannt. Erstmals wurde dieser Effekt von Etienne Lombard (1911) beschrieben.

Vor diesem Hintergrund stellt sich hier speziell die Frage, wie diese auch als Lombard-Effekt bezeichnete Erscheinung im Zusammenhang eines forensischen Stimmen-vergleichs zu bewerten ist, wenn sprachliche Äußerungen zu vergleichen sind, die unter neutralen Bedingungen und unter Lärmbelastung realisiert wurden. Konkret bedeutet das, dass, wenn die Veränderung von Grundfrequenzparametern bei Störschallbelastung das Ergebnis einer natürlichen, eventuell unbewussten, Reaktion sind, zu klären ist, welches Gewicht unter diesen Umständen z.B. die mittlere Grundfrequenz als sprecherspezifisches Merkmal haben kann.

Mit dieser Arbeit soll der Versuch unternommen werden, Einsichten zu dieser Fragestellung, i.e. die Veränderung von Grundfrequenzparametern bei Störschallbelastung im Vergleich zum neutralen Sprechmodus und ihre Einordnung unter dem Blickwinkel des forensischen Stimmenvergleichs, zu gewinnen. Zu diesem Zweck werden im Rahmen dieser Arbeit zunächst die Störschallbelastung und der Lombard-Effekt als Auslöser bzw. Ergebnis einer Stressreaktion in einen psychologischen Kontext eingeordnet. Dazu wird die einschlägige Literatur zur Ermittlung des Stands der Forschung zur Fragestellung vorgestellt und bewertet. Der Fokus der Arbeit richtet sich dann auf die Erhebung belastbarer Daten über die Größenordnung der Veränderung von Grundfrequenzparametern als Ergebnis des Lombard-Effekts. In einem ersten Abschnitt wird sich die empirische Untersuchung dabei auf aus der forensischen Praxis bekannte, typische Störschallarten fokussieren und neben der Beschreibung und Analyse der möglichen absoluten Veränderungen von der Neutral- zur Lombard-Bedingung das Augenmerk auf relative Veränderungen richten, wenn nämlich die Veränderungen in z.B. ihrer akustischen oder auditiven Dimension dargestellt werden. Zusätzlich wird in einem zweiten Abschnitt des empirischen Teils der Arbeit die Verteilung von Grundfrequenzparametern in einer erweiterten Versuchspersonenpopulation bei Sprechen im Ruhzustand und unter dem Einfluss von Weißem Rauschen beobachtet. Sie soll dazu dienen, im Rahmen aktueller Bemühungen zur Entwicklung von Hintergrundstatistiken, vorhandene Daten zu aktualisieren und zu ergänzen. Abschließend erfolgt dann eine Bewertung der Ergebnisse im Hinblick auf ihre mögliche Bedeutung für forensische Stimmenanalysen und Stimmenvergleiche.

¹ Nolan, 1983.

2 Theoretische Grundlagen

In Kapitel 2 erfolgen, vor Vertiefung der Thematik Stress bzw. Lombard-Effekt und Stimme, einleitend einige Erläuterungen in Bezug auf die Verwendung bestimmter Begrifflichkeiten im Rahmen dieser Arbeit. Im Anschluss daran wird auf den allgemeinen Begriff ‚Stress“ eingegangen – Definitionen, Auswirkungen und Arten von Stress. Nach Klärung dieser Sachverhalte wird konkret auf den Lombard-Stress und dessen Auswirkung auf die mittlere Stimmlippengrundfrequenz eingegangen, indem diesbezügliche Untersuchungen und Erkenntnisse aus der einschlägigen Literatur vorgestellt und bewertet werden. Abschließend ergeben sich daraus eine Zusammenfassung sowie die Formulierung der Arbeitshypothesen für den empirischen Teil dieser Arbeit.

2.1 Allgemeine Begriffserklärungen

Im weiteren Verlauf der Arbeit wird eine Vielzahl von Begriffen verwendet, die in der wissenschaftlichen und erst recht in der populärwissenschaftlichen Literatur mit wechselnder Bedeutung gebraucht werden. Im Folgenden werden diese daher zunächst präzisiert.

Der Begriff „Stimme“ wird hier in zwei unterschiedlichen Bedeutungen verwendet werden: Zum einen bezeichnet er im engeren Sinne rein phonatorische Prozesse, zum anderen umschreibt er, im weiteren Sinn, das Ergebnis des Zusammenwirkens aller am peripheren Sprachproduktionsprozess beteiligter Komponenten, d.h. den subglottalen, laryngealen und supraglottalen Vorgängen, und damit das sich daraus ergebende auditiv wahrnehmbare stimmlich-sprachliche Gesamterscheinungsbild.

Desgleichen wird der Begriff „Sprechen“ einerseits verwendet zur Bezeichnung rein supraglottaler, also artikulatorischer Prozesse, andererseits aber auch zur Bezeichnung der konkreten sprachlichen Äußerungen der Versuchspersonen unter den jeweiligen Aufnahmebedingungen im Rahmen der empirischen Untersuchungen dieser Arbeit.

Es wird angestrebt, die jeweilige Eindeutigkeit beider Begriffe durch den entsprechenden Kontext oder durch Erläuterungen herbeizuführen.

Unter dem Begriff „Sprechweise“ werden Merkmale der gesprochenen Sprache zusammengefasst, die sich einzellaut- oder auch silbenübergreifend manifestieren. Dazu gehören beispielsweise die Melodik der Stimme, also Variationen der Stimmlippengrundfrequenz oder Intonation und Akzentuierung.

Die Begriffe „modal“ und „normal“ bzw. „Modalbedingung“ und „Normalbedingung“ beziehen sich auf die Sprachproduktion der Versuchspersonen im Zustand der Ruhe. Ruhe bedeutet dabei, dass die Versuchspersonen keinen belastenden Störschällen oder sonstigem offensichtlichem Stress ausgesetzt sind.

Unter „Lombardbedingung“ ist, im Gegensatz dazu, allgemein zu verstehen, dass die Versuchspersonen während der Sprachproduktion gezielt unterschiedlichen Störschallen ausgesetzt sind.

2.2 Stress, Stressreaktionen und Stressoren

Im Hinblick auf die Transparenz der weiteren Besprechung und besonders der Fragestellungen im empirischen Teil dieser Arbeit ist es sinnvoll, die Begriffe „Stress“, „Stressreaktion“ und „Stressor“ inhaltlich zu definieren und voneinander abzugrenzen.

2.2.1 Zum Begriff „Stress“

In einer frühen Studie von Cannon (1915) wird der Begriff „Stress“ erstmals wissenschaftlich erwähnt. Cannon beschreibt Stress als Reaktion und Adaption des Körpers auf äußere, bedrohliche Umstände, die einen Organismus² aus dem natürlichen Gleichgewicht bringen. Er erforschte diese Reaktionen anhand von Tierversuchen. Cannon erkannte das von ihm bezeichnete “fight-or-flight“-Verhalten, welches zwei Reaktionen umfasst: Entweder eine Konfrontation mit der Bedrohung oder eine Flucht vor eben dieser. Zu beobachten waren in beiden Verhaltensmustern Veränderungen der Atemfrequenz, des Pulses sowie der Muskelaktivität. Bei diesen Veränderungen komme das natürliche Gleichgewicht des Lebewesens kurzzeitig aus dem Gleichgewicht – die Leistungsfähigkeit werde gesteigert, um der Bedrohung entgegenwirken zu können oder dieser aus zu weichen³.

Selye (1936) verwendet den Begriff Stress, indem er ihn als „Allgemeines Anpassungssyndrom“, bestehend aus einer Vielzahl physiologischer Reaktionen auf eine äußerliche, außerordentliche Bedrohung beschreibt. Selye geht also nicht von einer einzigen allgemein auftretenden Reaktion aus, sondern er verweist auf ein breites Spektrum von Reaktionsmöglichkeiten. Diese variieren nicht nur je nach Stresssituation, sondern zeigen auch individuelle Reaktionsmuster. Sein Modell weitet er später aus und fasst dieses in seinem Werk The stress of life (1956) zusammen. Basierend darauf ist eine weitere wichtige Unterscheidung zu machen: Eine Differenzierung von positivem und negativem Stress⁴ (“eustress“: positiver Stress und “distress“: negativer Stress⁵), von denen die unterschiedlichen Reaktionen abhängen⁶.

Während Cannon und Selye Stress offenbar als reiz- und reaktionsbezogene Erscheinung betrachten, eröffnet Lazarus (1984) in seiner Arbeit eine psychologische Dimension des Phänomens. Er fasst Stress, wie Cannon und Selye, auch als Verbindung von Reiz und Reaktion auf, differenziert jedoch die Stressreaktionen nach psychologischen Kriterien, nämlich in Abhängigkeit von der individuellen Bewertung. Nach Lazarus kann zwischen der „Primär“-, „Sekundär“- sowie „Tertiärbewertung“ unterschieden werden. Letztere wird auch als „Neubewertung“ bezeichnet. Unter „Primärbewertung“ versteht Lazarus die Einordnung des Stresses als entweder positiv, bedeutungslos oder bedrohlich. Darauf folgt die „Sekundärbewertung“. Im Rahmen der Sekundärbewertung wird „die Situation dahingehend geprüft, ob sie mit den bestehenden Ressourcen bewältigt werden kann“⁷. Ist dies nicht der Fall, so wird eine Stressreaktion ausgelöst. Wie Selye besteht auch Lazarus auf mögliche Unterschiede bei den Reaktionen auf Stress. Er macht dies abhängig, zum einen von der individuellen Persönlichkeit, zum anderen aber auch vom jeweiligen wahrgenommenen Stressausmaß. Neben den Bewertungskategorien unterscheidet Lazarus weiterhin drei mögliche Arten der Bewältigung von Stress. Diese fasst er als das “Coping“-CopingCoping“Coping“Coping“⁸