This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
für Prominenz, und die Ziffern im Index beziehen sich auf deren perzeptorische Stärke. Sie können für die weiteren Ausführungen grob auf eine Rangskala projiziert werden, wobei 1 auf die schwächste und 3 auf die stärkste Prominenz verweist. Alle anderen Konstituenten in den Äußerungen (a) und (b) besitzen die Prominenzstärke P1. Wird hiervon ausgehend in (a) im Sinne von P3-P2 eine starke Prominenz auf die initiale Konstituente „Brötchen“ und eine weitere weniger starke Prominenz auf die finale Konstituente „ausverkauft“ gelegt, so entsteht – neben der Kennzeichnung von „Brötchen“ und „ausverkauft“ als Informationsschwerpunkte – eine Hervorhebung, die sich in einer breiten Perspektive auf die Semantik der Äußerung insgesamt bezieht. Eine vergleichbare über die Markierung zweier einzelner Informationsschwerpunkte hinausgehende holistisch orientierte Hervorhebungsbedeutung ergibt sich auch in (b) mit dem Muster P3-P2. Das heißt, die Hervorhebung referiert auf den Vorgang des Händeschüttelns als Ganzes. Wird von P3-P2 zu P3-P1 die weniger starke Prominenz auf der letzten Konstituente „geschüttelt“ auf das Niveau der umliegenden Konstituenten reduziert („geschüttelt“ ist dadurch gleichzeitig nicht länger als Informationsschwerpunkt markiert), verengt sich die inhaltliche Perspektive der Hervorhebung. In der Aussage der Äußerung (b) insgesamt tritt nun die körperliche Berührung in den Vordergrund, während die genaue Qualität dieser Berührung (also z.B. schütteln, geben, drücken) nebensächlich wird. Ein denkbarer situativer Kontext für eine solche Äußerung ist zum Beispiel, dass der Sprecher von einem persönlichen Zusammentreffen mit einer berühmten Person berichtet. Das Muster P3-P1 führt in (a) ebenfalls zu einer Einengung der inhaltlichen Perspektive auf „Brötchen“. Anders als in (b) kommt hierbei jedoch in der Bedeutung der Hervorhebung zusätzlich eine Kontrastierung der Brötchen zu anderen (alternativen) Backwaren herein (vgl. auch den zuvor bereits genannten Kontrast in „EINE Malerin“ zu einer anderen Anzahl von Malerinnen). Dementspre-
18 18
Einleitung Einleitung
chend ist eine naheliegende Fortsetzung der Äußerung (a) mit P3-P1: „Aber Brot ist noch da“. In (b) entsteht ein Kontrast hingegen für das inverse Prominenzmuster P1-P3. In einer inhaltlich verengten Perspektive wird die Handlung des Schüttelns so anderen Handlungen gegenübergestellt, und die Äußerung kann als eine Beschwerde interpretiert werden – zum Beispiel paraphrasierbar als „Hätte er nicht ein bisschen weniger forsch ein können?“. Wird das Muster P1-P3 schließlich in (a) angewandt, entfällt eine solche Kontrastierung wieder, und es bleibt lediglich die Einengung der inhaltlichen Perspektive auf „ausverkauft“ übrig. Eine solche Äußerung kann gegenüber einem Kunden in einer Bäckerei auftreten, der nach mindestens einer gescheiterten Auskunft noch immer nicht verstanden hat, dass die von ihm gewünschte Ware, deren genaue Art zur Nebensache wird, nicht mehr zu haben ist. Während für das Muster P3-P2 erläutert wurde, dass es in (a) und (b) zu einer Hervorhebungsbedeutung führt, die in einer breiten inhaltlichen Perspektive die Semantik der Äußerung als Ganzes betrifft, gilt dies nicht in der gleichen Weise für das Muster P3-P3. Verglichen mit P3-P2 schwächt das Muster P3-P3 die Bindung der betreffenden Konstituenten (bzw. ihrer Semantik). So wird etwa im Falle von (b) mit dem Muster P3-P3, anders als mit P3-P2, nicht das Händeschütteln als Gesamtheit, sondern jede einzelne Komponente der Gesamtheit (hier also Handlung und Handlungsobjekt) gleichermaßen herausgestellt; ohne dabei gleichzeitig eine Kontrastierung einer der Komponenten hervorzurufen, wie sie für P1-P3 beschrieben wurde. Das durch das Muster P3-P2 etablierte inhaltliche Kompositum ‚Händeschütteln’ wird durch das Muster P3-P3 quasi in ein ‚Schütteln der Hände’ aufgebrochen. Dies kann auf grammatischer Ebene dadurch weiter unterstützt werden, dass „mir die“ durch „meine“ ausgetauscht wird. Durch das separate Herausstellen der Komponenten einer Gesamtheit, kann letztere wiederum in besonderer Weise unterstrichen werden. Äußerung (b) erhält dementsprechend in Verbindung mit dem Muster P3P3 einen expressiven Charakter, der als Nachdruck beschrieben werden kann; mit dem Ziel, die Intensität der Erfahrung wiederzugeben. Wird zudem der silbeninitiale Konsonant /5/ („sch“) in „geschüttelt“ deutlich ausgedehnt und der darauf folgende Vokal entsprechend verkürzt, wird die Erfahrung vom Sprecher zusätzlich negativ verstärkt („Ich dachte, er würde mir den Arm abreißen!“). Auch in Kombination mit der Äußerung (a) lässt sich die Bedeutung des Musters P3-P3 als Nachdruck beschreiben. Allerdings wird dieser eher als eine Bekräftigung des Wahrheitsgehalts der Aussage interpretiert. Die vorangegangenen Beispiele zeigen im Einklang mit Barry (1981) zum einen klar, dass der Bedeutungstyp der Hervorhebung nicht in dem Sinne grammatischer Natur ist (vgl. u.a. Crystal 1995), dass er in Auftreten
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
19 19
und Form durch Syntax oder Morphologie prädeterminiert wird und folglich nur zur Indikation der grammatischen Struktur dient. Hervorhebung transportiert vielmehr ein breites Spektrum eigener kommunikativer Bedeutungen. An den präsentierten Beispielen wurde darüber hinaus aber auch demonstriert, dass Hervorhebung nicht grundsätzlich unabhängig vom lautlichen Kanal und dessen Einheiten verstanden wird. So führten etwa die Muster P3-P1 und P1-P3 nur in jeweils einer der beiden Äußerungen zu einer Kontrastierung der Konstituente mit der Prominenz P3. Dennoch sollte die Hervorhebung nicht mit relationalen Bedeutungen gleichgesetzt werden, wie sie zum Beispiel durch die attitudinalen Bedeutungen repräsentiert werden. Äußerungen wie die zuvor besprochenen führen vielmehr zu den folgenden Überlegungen. Hervorhebung ist heterogen, sowohl im Hinblick auf die darunter subsumierten Bedeutungen als auch bezüglich der jeweils dazugehörigen phonetischen Substanz. Die fundamentalste Einheit im Rahmen der Hervorhebung ist auf phonetischer Seite immer (aber nicht ausschließlich) auf eine einzelne Prominenzspitze gegründet und dient im strukturellen Sinne der reinen Kennzeichnung von Informationsschwerpunkten. Das heißt, es handelt sich um eine kontextunabhängig verstehbare Bedeutung, auf der auch die von Barry (1981) und Kohler (2004b) genannte guide function (vgl. S. 12) aufbaut und die in allen gegebenen Beispielen in gleicher Weise vorliegt. Auf Äußerungsebene entstehen hieraus weitere, über die Grundeinheit der Hervorhebung hinausgehende bedeutungstragende Einheiten, die folglich mehr Prominenzrelationen und, wie im Falle der Muster P3-P2 und P3-P3, auch mehr als eine einzelne Prominenzspitze überspannen können. Einer der Kerngedanken hierbei ist, dass die Bedeutungen von Prominenzmustern wie P3-P2 und P3-P3 nicht einfach aus der Summe der Bedeutungen der einzelnen Prominenzspitzen (bzw. –relationen) abgeleitet werden können, sondern dass auf Basis der Muster (neue) funktionale Ganzheiten entstehen. So geht in Äußerung (a) beispielsweise von P3-P1 zu P3-P2 oder zu P3-P3 die Kontrastierung verloren. Die Annahme auf Prominenzmustern basierender funktionaler Ganzheiten steht der derzeit dominierenden Analyse entgegen, in der Prominenzspitzen bzw. Akzentsilben (also Prominenzspitzen, an die sprechmelodische Zeichen angehängt sind) in atomistischer Weise phänomenal und insbesondere funktional isoliert voneinander behandelt werden. Bezüglich der Bedeutungen der funktionalen Ganzheiten kristallisiert auch im Hinblick auf die gegebenen Beispiele Folgendes heraus. Solche Einheiten, die unterschiedlich starke Prominenzspitzen integrieren (z.B. P3-P2), stellen (inhaltliche) Beziehungen zwischen den betreffenden Konstituenten her. Das heißt, letztere werden miteinander verbunden. Demzu-
20 20
Einleitung Einleitung
folge schaffen sie beim Hörer im Hinblick auf den Äußerungsinhalt eine breite Perspektive. Für Einheiten, die nur eine einzelne oder zwei gleichwertige Prominenzspitzen überspannen, werden keine vergleichbaren inhaltlichen Beziehungen hergestellt. Erstere stellen erst gar keine Beziehungen zu anderen Konstituenten her und isolieren so die Konstituente mit der Prominenzspitze, womit bezüglich des Äußerungsinhalts auch eine Einengung der Perspektive einhergeht. Einheiten mit gleichwertigen Prominenzen dividieren die betreffenden Konstituenten bzw. deren Semantik eher auseinander anstatt sie zu verbinden. Insgesamt umfasst das Bedeutungsspektrum dieser größeren bedeutungstragenden Einheiten der Hervorhebung Formen der Perspektivität (die auch als Fokus bezeichnet werden, vgl. Baumann et al. 2006), Kontrastivität und Expressivität. Anders als die Grundeinheit werden sie – wie demonstriert wurde – zwar nicht kontextunabhängig verstanden, allerdings auch nicht in der Weise relational wie die attitudinalen Bedeutungen. Während die Interpretation letzterer an den übrigen Bedeutungskomponenten der jeweiligen Äußerung hängt, ist für die in globaleren Prominenzmustern kodierten Hervorhebungsbedeutungen anzunehmen, dass sie an der grammatischen Struktur der jeweiligen Äußerung ausgerichtet sind. Insofern bleibt der Bedeutungstyp der Hervorhebung insgesamt in erster Linie strukturbezogen; entweder weil die Bedeutung selbst strukturierender Art ist oder weil sie an Strukturen (und nicht an Bedeutungen) gekoppelt ist. Im Rahmen der größeren bedeutungstragenden Einheiten entstehen Bedeutungsunterschiede auch über die Stärke und Art der involvierten Prominenz(-spitze). Dieser Bedeutungskomplex wurde unter anderem von Kohler (2006b) sowie von Kohler und Niebuhr (2007) untersucht. Sie beschreiben Kategorien emphatischer Hervorhebungen, die sich durch besonders starke Prominenzspitzen auszeichnen und/oder die Prominenzen über tonale vs. atonale phonetische Mittel erzeugen, wobei im Falle von letzteren wiederum klangliche vs. nicht-klangliche Mittel unterschieden werden können. Zu nicht-klanglichen Mitteln kann auch die Pause gerechnet werden (vgl. Strangert 2003). Wie anhand des „geschüttelt“-Beispiels gezeigt wurde, können solche Hervorhebungen die Semantik der jeweiligen Konstituente (negativ oder positiv) verstärken. Die vorangegangenen Ausführungen haben deutlich gemacht, dass hinter dem Bedeutungstyp der Hervorhebung ein komplexes Kategoriensystem angenommen werden kann. Die Frage, wie genau ein solches System auszusehen hat, ist auf dem derzeitigen Stand der Forschung noch nicht beantwortet und liegt auch außerhalb der Zielsetzung der vorliegenden Arbeit. Ansätze hierfür sind allerdings bereits vorhanden (z.B. Kohler 2006b). Für die Zwecke der vorliegenden Arbeit ist es ausreichend, wenn der Leser sich der phonetischen und funktionalen Komplexität und Viel-
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
21 21
schichtigkeit des Bedeutungstyps der Hervorhebung bewusst ist, da der Terminus der Hervorhebung (sofern nicht anders angegeben) nachfolgend vereinfacht mit Bezug auf seine kleinste Grundeinheit und seine fundamentalste Bedeutung gebraucht wird: die Kennzeichnung von Informationsschwerpunkten. 1.3.2 Die bedeutungsbezogenen Bestandteile der Sprechmelodie – Zeichen und phonologische Komponente Dass im lautlichen Informationskanal bedeutungstragende Einheiten transportiert werden, ist jedem Sprachbenutzer sofort einleuchtend und auch aus einer wissenschaftlichen Perspektive unumstritten. Die Muster aus Timbre und Stimme sowie ihre dazugehörigen Abbilder, die beispielsweise in der standarddeutschen Orthographie durch <Tina> und
22 22
Einleitung Einleitung
abhängig davon, welches die bedeutungstragenden Einheiten sind (mögliche Auffassungen hierzu werden in den Abschnitten 2.3 und 2.4 vorgestellt), kann jedoch eine Partitionierung im Sinne bedeutungsdifferenzierender Elemente angenommen werden. Wenn beispielsweise die vier Sprechmelodien aus Abbildung 1(a)-(b) und (e)-(f) im Abschnitt 1.3.1 als jeweils eine bedeutungstragende Einheit betrachtet werden, dann werden zwei bedeutungsdifferenzierende Faktoren erkennbar: Die Art des Tonhöhenverlaufs einerseits (steigend-fallend oder fallend-steigend) und die Position des Extremums dieses Verlaufs in Relation zu (dem Nukleus) der Akzentsilbe „Ma-“ (davor oder darin) andererseits. Eine alternative Möglichkeit besteht darin, nicht die gesamte Sprechmelodie, sondern nur einen einzelnen Ton als eine bedeutungstragende Einheit anzusehen. Bedeutungsdifferenzierend wirkt sich in diesem Fall unter anderem aus, ob es sich um einen hohen oder tiefen Ton handelt und wie er mit der Struktur der Äußerung verknüpft ist. Steht zum Beispiel ein hoher Ton, wie er als Tonhöhenmaximum in den Beispielen (b) und (f) aus Abbildung 1 vorkommt, am Ende der Äußerung wie in (f), bildet er eine bedeutungstragende Einheit, die eine Frage signalisieren kann. Wird er hingegen wie in (b) mit der akzentuierten Silbe verbunden, entsteht eine bedeutungstragende Einheit, durch die der geäußerte Sachverhalt als eine bislang unbekannte Aussage interpretiert werden kann. Die vorangehenden Ausführungen zeigen, dass sprechmelodische Muster ebenso wie die Muster aus Timbre und Stimme bedeutungstragende Einheiten ausbilden, die durch bedeutungsdifferenzierende Elemente geformt werden. Die skizzierte Analogie zwischen der Funktionsweise des lautlichen und melodischen Informationskanals ist somit grundsätzlich gerechtfertigt. Ausgehend vom Standarddeutschen und anderen Intonationssprachen, bestehen im Detail jedoch wesentliche Unterschiede zwischen den bedeutungsdifferenzierenden Elementen des lautlichen und des melodischen Kanals. Gleiches gilt für die bedeutungstragenden Einheiten. Letzteres betrifft unter anderem den Typ von transportierten Bedeutungen. Während der lautliche Kanal vor allem als Träger sprecherunabhängiger Bedeutungen über die reale und geistige Welt fungiert, werden im melodischen Kanal hauptsächlich sprecherabhängige Bedeutungen transportiert, mit denen zum Beispiel die Bedeutungen des lautlichen Kanals kommentiert werden (z.B. die in 1.3.1 vorgestellten attitudinalen Bedeutungen). Hinzu kommt, wohlmöglich als Konsequenz der unterschiedlichen Nutzung beider Kanäle, dass die Verbindung zwischen Bedeutungen und ihren sprachlichen Formen im melodischen Kanal tendenziell weniger willkürlich ist als im lautlichen Kanal. Im lautlichen Kanal stellen Verbindungen, in denen die Bedeutung durch die Form hindurchschimmert, „a tiny minority“ (Laver 1994:17) dar. Sie entstehen durch Onomatopöie, bei
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
23 23
der außersprachliche Referenten durch sprachliche Formen repräsentiert sind, die ihre charakteristischen Geräusche imitieren. Im Zusammenhang mit den bedeutungsdifferenzierenden Elementen wurde erläutert, dass diese im lautlichen Kanal, bedingt durch das gängige Analyseparadigma, als Segmente aufgefasst werden können. Das heißt, die bedeutungsdifferenzierenden Elemente befinden sich in einer lückenlosen und gleichzeitig disjunkten chronologischen Anordnung. Wie die genannten bedeutungsdifferenzierenden Elemente der Sprechmelodie zeigen, sind diese segmentellen Eigenschaften nicht auf den melodischen Kanal übertragbar: Die Art des Tonhöhenverlaufs und die Position des Extremums teilen keine gemeinsame zeitliche Grenze, sondern bilden eine Beziehung der Einbeziehung aus. Die Kopplung eines hohen/tiefen Tons an Strukturstellen der Phrase indiziert keine sequenzielle, sondern eine simultane Verbindung. Zudem bilden hohe und tiefe Töne auf keiner Stufe der speech chain eine lückenlose Sequenz, sondern sind durch Transitionen unterbrochen4. Die tendenziell weniger willkürliche Beziehung zwischen Form und Funktion bedeutungstragender Einheiten der Sprechmelodie in Kombination mit der nicht-segmentellen Organisation ihrer bedeutungsdifferenzierenden Elemente bildet die Grundlage für einen weiteren inhaltlichen Unterschied zum lautlichen Kanal. So ist im melodischen Kanal die Trennung zwischen bedeutungstragenden Einheiten und bedeutungsdifferenzierenden Elementen weniger scharf. Elemente wie der steigend-fallende oder der fallend-steigende Tonhöhenverlauf sind selbst nicht frei von Bedeutung. Über sprachexterne Interpretationswege, wie zum Beispiel den frequency code (siehe Ohala 1983, 1984), verfügen sie vielmehr über ein bestimmtes Bedeutungspotential, das mit den Potentialen der übrigen Elemente interagiert. Durch die Interaktion wird eine Möglichkeit aus dem Bedeutungspotential jedes Elementes selektiert und mit den übrigen zum Inhalt der bedeutungstragenden Einheit amalgamiert. Die Elemente sind _____________ 4
In diesem Zusammenhang ist darauf hinzuweisen, dass das traditionelle Segmentkonzept auch für den lautlichen Kanal problematisch ist. Insbesondere in der nicht abgelesenen Spontansprache, in der sich die Ausbreitung von Merkmalen eines Segmentes über die benachbarten Segmente ebenso findet wie die Substitution von Segmenten durch suprasegmentelle Phänomene (vgl. z.B. Kohler 2001a, b; Wesener 2001) lässt sich die „absolute slicing hypothesis“ (Goldsmith 1976:17) nur schwer mit der phonetischen Realität zur Deckung bringen. Alternativen zum traditionellen Segmentkonzept finden sich bereits bei Ohala (1992) und Laver (1994). Auch auf phonologischer Seite wurden zahlreiche nicht lineare Modelle entwickelt. Hierzu gehören die autosegmentelle Phonologie (Goldsmith 1976, 1990, 1995), die prosodische Phonologie von Firth (vgl. Sommerstein 1977) und die artikulatorische Phonologie (Browman und Goldstein 1992). Dennoch ist das lineare Segmentkonzept in der phonetischen und phonologischen Forschung bis heute dominant geblieben (eine Verteidigung dieses Paradigmas gibt Shattuck-Hufnagel 1992).
24 24
Einleitung Einleitung
somit weniger bedeutungsdifferenzierend als vielmehr bedeutungskonstituierend. Auf die Pendants des lautlichen Kanals, wie etwa /V/, /H/ oder /P/, trifft dies nicht zu. In dieser Hinsicht sind sie als reine bedeutungsdifferenzierende und somit klassisch distinktive Elemente eindeutig von den bedeutungstragenden Einheiten abgegrenzt. In der Literatur (z.B. Jones 1957, 1962 sowie Clark und Yallop 1995 für eine Übersicht) werden die bedeutungsdifferenzierenden Elemente des lautlichen Kanals im Rahmen des segmentellen Paradigmas als Phoneme bezeichnet und den durch sie geformten bedeutungstragenden Einheiten, den Morphemen, gegenübergestellt. Einige Autoren (hierzu zählt z.B. Gussenhoven 1984; Bolinger 1986; Féry 1993; Rossi 2000 und viele Autoren des traditionellen amerikanischen Strukturalismus) übertragen diese Terminologie ganz oder teilweise auch auf die Elemente des melodischen Kanals. Mit Blick auf die zuvor skizzierten Unterschiede soll für den melodischen Kanal in dieser Arbeit eine eigenständige Terminologie vorgestellt werden, aus der heraus die besonderen Eigenschaften dieses Kanals erkennbar sind. Die Elemente des melodischen Kanals sind im Gegensatz zu den Phonemen weder rein distinktiv, noch in eine segmentelle Anordnung analysierbar. Stattdessen kommt ihnen eine allgemein funktionale und in diesem Sinne phonologische Rolle in bedeutungstragenden Einheiten zu, die durch sie kompositorisch geformt werden. Die bedeutungsdifferenzierenden Elemente der Sprechmelodie werden daher als phonologische Komponenten bezeichnet. Aufgrund der gravierenden Unterschiede in der Art der Bedeutung und deren Verbindung zur Form der bedeutungstragenden Einheit erscheint es nicht angemessen, den segmentellen Terminus des Morphems auch im melodischen Bereich anzuwenden. Es wird daher ein alternativer Terminus gebraucht, der ebenfalls Form und Bedeutung integriert, nämlich das Zeichen im Sinne von de Saussure (1916). Durch unterschiedliche Zusammenstellungen phonologischer Komponenten können andere Zeichenformen entstehen.
1.4 Forschungsfragen und Aufbau der Arbeit Auf der Grundlage der eingangs formulierten Zielsetzung und den Erläuterungen zur Sprechmelodie wird den folgenden beiden Forschungsfragen nachgegangen: - (1) Wie sind die phonologischen Komponenten beschaffen, aus denen sich sprechmelodische Zeichen zusammensetzen?
Zielsetung derund Arbeit Forschungsfragen Aufbau
25 25
- (2) Welche auditiven Verarbeitungsprozesse liegen der Perzeption sprechmelodischer Zeichen zugrunde? Obwohl beide Forschungsfragen allgemein gestellt sind, wird sich die vorliegende Arbeit bei der Suche nach Antworten zunächst nur auf die drei Sprechmelodien aus Abbildung 1(a)-(c) bzw. auf die hierin enthaltenen Zeichen konzentrieren, die sich auf die attitudinalen Bedeutungen GEGEBEN, NEU und UNERWARTET beziehen. Anstelle hierbei den oft beschrittenen Weg über Messungen in den artikulatorischen oder akustischen Abbildern der speech chain zu gehen, wird gemäß der Argumentation in 1.1 eine perzeptorisch ausgerichtete Forschungsstrategie verfolgt. Diese Strategie steht im Einklang mit der Forderung von Collier (1972:42), dass „the establishment of the systematics that characterizes our perception of intonation” am Ausgangspunkt von Theorien und Modellen stehen muss. Ladd (1996:61) weist ferner darauf hin, dass fundamentale Fragen zur Phonologie sprechmelodischer Zeichen „in the realm of perception“ weiterhin offen sind. Im Rahmen der skizzierten perzeptorischen Strategie erfolgt der Zugang zu den sprechmelodischen Zeichen über ihre Bedeutung. Das heißt, bei der Ermittlung der phonologischen Form der behandelten Zeichen, geht die vorliegende Arbeit nach zwei Grundsätzen vor: Neben „form follows function“ (vgl. Xu 2004a:91) gilt form follows perception. Was den Aufbau anlangt, so zerfällt die Arbeit in einen empirischen Teil (A) und einen theoretischen Teil (B). In Teil (A) „Experimentelle Untersuchungen zur Wahrnehmung von Sprechmelodiegipfeln“ werden zunächst die Sprechmelodien aus Abbildung 1(a)-(c) in zwei diametralen phonologischen Theorien analysiert. Am Ausgang dieser Analyse stehen zwei grundlegend andere Annahmen zur Form dreier sprechmelodischer Zeichen, die im Anschluss vor einem empirischen Hintergrund gegeneinander abgewogen werden. Darüber hinaus wird gezeigt, dass keine der beiden alternativen phonologischen Kompositionen, aus denen sich die Zeichenformen konstituieren, vollständig damit zur Deckung gebracht werden kann, wie Sprecher und Hörer mit den Zeichen, die in den drei Sprechmelodien aus Abbildung 1(a)-(c) enthalten sind, umgehen. Auf dieser Grundlage werden schließlich weiterführende Hypothesen formuliert und in eigenen Perzeptionsexperimenten überprüft. Im zweiten Teil (B) „Theoretische Überlegungen zur Wahrnehmung von Sprechmelodiegipfeln“ wird ein Überblick über relevante Aspekte der auditiven und visuellen Wahrnehmung gegeben. Hieraus werden unter gleichzeitiger Berücksichtigung der Erkenntnisse aus Teil (A) und weiterer empirischer Quellen Ansätze einer Theorie zur Wahrnehmung der Sprechmelodie entwickelt, die mögliche Antworten auf die Forschungsfragen (1) und (2) geben. Die theoretischen Ansätze und die daraus abgeleiteten Zeichenformen werden anschließend vor dem Hintergrund der in Teil (A)
26 26
Einleitung Einleitung
eingeführten phonologischen Theorien kritisch diskutiert. Die Diskussion mündet schließlich in einen allgemeinen Forschungsausblick. In Verbindung mit den beiden beschriebenen Forschungsfragen wird in dieser Arbeit zwangsläufig die Frage berührt, ob sprechmelodische Zeichen aus (geschichteten) globalen Komponenten bestehen oder ob sie sich aus lokalen Komponenten in sequentieller Anordnung konstituieren, die in einen phonologisch irrelevanten sprechmelodischen Hintergrund eingebettet sind. Hierauf muss explizit hingewiesen werden, da dieser Frage angesichts der seit langem bestehenden Kontroverse über die Repräsentationsform phonologischer Komponenten der Sprechmelodie zwischen dem „contour camp“ und dem „level camp“ (Bolinger 1972:156) eine richtungsweisende Bedeutung zukommt.
Teil A: Experimentelle Untersuchungen zur Wahrnehmung von Sprechmelodiegipfeln
2 Forschungsgegenstand Auf der Grundlage der Angaben zur Bedeutung der Sprechmelodien aus Abbildung 1(a)-(c), die in Abschnitt 1.3.1 vorgestellt wurden, wird angenommen, dass diese Sprechmelodien drei unterschiedliche Zeichen enthalten. Die attitudinalen Bedeutungen, die diese Zeichen tragen, werden kontextabhängig verstanden. Ihre fallgebundenen Spezifika lassen sich nicht verallgemeinern. Die generischen Charakteristika der drei Zeichen können jedoch mit GEGEBEN vs. NEU vs. UNERWARTET angegeben werden. Im Rahmen dieser Arbeit wird nun die Frage gestellt, wie diese Zeichen aussehen. Durch welche phonologischen Komponenten werden sie geformt und – damit einhergehend – wie werden die drei Zeichen gegeneinander abgegrenzt? Auf dem derzeitigen Stand der Forschung existieren bereits mehrere phonologische Theorien, die zum Teil deutlich abweichende Antworten auf die genannte Forschungsfrage (1) geben. Um das Spektrum an Antwortalternativen vorzustellen und damit gleichzeitig Forschungsfrage (1) vor einem möglichst breiten Hintergrund erörtern zu können, werden zwei solcher Antworten vorgestellt. Sie kommen aus phonologischen Theorien, die sich in sehr unterschiedlich ausgerichteten Forschungstraditionen entwickelt haben. Hierbei handelt es sich auf der einen Seite um die Phonologie des Kieler Intonationsmodells (KIM) von Kohler (1991a, b) und auf der anderen Seite um die autosegmentell-metrische Phonologie (AM-Phonologie) auf der Grundlage von Pierrehumbert (1980). Die drei sprechmelodischen Zeichen und ihre zugrundeliegenden Sprechmelodien sowie die darauf basierenden alternativen Zeichenformen, die als Antwortalternativen am Ausgang der beiden phonologischen Analysen stehen, bilden den Forschungsgegenstand, der insofern über eine phonetische und eine (zweigeteilte) phonologische Seite verfügt. Nachfolgend werden beide Seiten vorgestellt. Damit wird in diesem Kapitel der Grundstein für eine empirisch basierte Evaluierung der alternativen phonologischen Kompositionen der Zeichentriade gelegt, die im nächsten Kapitel durchgeführt wird.
30 30
Forschungsgegenstand
2.1 Hinweise zur Auswahl des Forschungsgegenstandes Grundlegende Erkenntnisse zur Form sprechmelodischer Zeichen haben die größte Aussagekraft, wenn die Gesamtheit der sprechmelodischen Zeichen einer Sprache (hier des Standarddeutschen) und ihrer phonetischen Abbilder in die Untersuchung mit einbezogen wird. Eine solche Vorgehensweise wird hier vor allem deswegen nicht gewählt, da dies einen Konsens über das Inventar der sprechmelodischen Zeichen voraussetzen würde. Allein vor dem Hintergrund, dass das vollständige Bedeutungsspektrum der Sprechmelodie noch nicht offengelegt wurde (vgl. Cruttenden 1997 und 1.3.1), kann diese Voraussetzung derzeit nicht erfüllt werden. Es ist somit unausweichlich, eine Auswahl aus vorhandenen sprechmelodischen Zeichen zu treffen und die hiermit gewonnenen Einsichten dann ggf. auf andere Zeichen zu generalisieren. Unter diesen Bedingungen muss bei der Auswahl des Forschungsgegenstandes auf das Kriterium der Validität besonderer Wert gelegt werden. Die drei sprechmelodischen Zeichen, die in den folgenden Abschnitten in zwei alternativen Formgebungen vorgestellt werden, wurden als Forschungsgegenstand für diese Arbeit selektiert, da sie dieser Anforderung aus folgenden Gründen gerecht werden können: Erstens existiert für sie bereits ein solides empirisches Fundament, das als Ausgangspunkt für weitere experimentelle Untersuchungen herangezogen werden kann. Zweitens bilden die gewählten Sprechmelodien auch in anderen Sprachen vergleichbare Zeichentriaden aus (d.h. es existieren zwischen ihnen vergleichbare phonologische Oppositionen, die zu einer vergleichbaren Form für jedes der drei Zeichen führen), allerdings zum Teil mit anderer funktionaler Anbindung. Dadurch besteht zum einen die Möglichkeit, die Ergebnisse der durchgeführten Untersuchungen in diese Sprachen hineinzutragen und – sofern eine empirische Überprüfung dies rechtfertigt – zu übertragen. Zweitens können die empirischen Befunde zu solchen Zeichentriaden aus anderen Sprachen das empirische Fundament für die in dieser Arbeit erforschten drei Zeichen des Standarddeutschen ergänzen. Drittens wird die Annahme, dass die drei Sprechmelodien der Abbildung 1(a)-(c) unterschiedliche Zeichen enthalten, modellübergreifend vertreten.
2.2 Die phonetische Seite des Forschungsgegenstandes – drei Sprechmelodien und ihre akustischen Ausprägungen Die drei Sprechmelodien aus Abbildung 1(a)-(c) repräsentieren die phonetische Seite des Forschungsgegenstandes. Genau genommen repräsentie-
PhonetikForschungsgegenstand des Forschungsgegenstands
31
ren sie nur den perzeptorischen Ausschnitt dieser Seite des Forschungsgegenstandes, die prinzipiell auch den gesamten Weg der Sprachübertragung umfasst (vgl. 1.1). Abbildung 2 stellt die Sprechmelodien zusammenfassend dar. Die hierin dargestellten Äußerungen können zudem über die CD angehört werden, die der vorliegenden Arbeit als Anhang J beigefügt wurde. Wie aus dieser deskriptiven Darstellung hervorgeht, enthalten alle drei Sprechmelodien steigend-fallende Tonhöhenbewegungen. Ein wichtiger Unterschied besteht jedoch darin, wie der Hochpunkt dieser steigendfallenden Tonhöhenbewegungen zur akzentuierten Silbe „Ma-“ in „Malerin“ liegt. Er kann sich vor, auf oder nach der Akzentsilbe befinden. Solange der lautliche Strang der zugrundeliegenden Äußerung für alle drei Sprechmelodien gleich ist, bedeutet dies für die relativen Längeneigenschaften dieser Tonhöhenbewegung, dass der tieftonige Bereich für die links dargestellte Sprechmelodie vor dem Hochpunkt kürzer ist als danach. Die akzentuierte Silbe fällt daher in den längeren tieftonigen Abschnitt. Für die rechts abgebildete Sprechmelodie verhalten sich die relativen Längeneigenschaften gerade umgekehrt. Zwar liegt die akzentuierte Silbe wiederum im längeren der beiden tieftonigen Bereiche, dieser befindet sich nun jedoch vor dem Hochpunkt. Die mittlere Sprechmelodie ist durch ein ausgewogeneres Längenverhältnis der tieftonigen Bereiche zu beiden Seiten des Hochpunktes gekennzeichnet, wodurch letzterer mit der Akzentsilbe zusammenfällt. In einer groben Beschreibung der Lautheitseigenschaften gilt für die drei Sprechmelodien zudem, dass die Lautheit im Bereich der steigend-fallenden Tonhöhenbewegungen größer ist als zu deren Seiten. Die drei dargestellten sprechmelodischen Gesamtkonfigurationen sollen – ausgerichtet an der Tonhöhe – als Sprechmelodiegipfel bezeichnet werden. Mit Bezug auf die Lage des Tonhöhenmaximums zur Akzentsilbe werden sie als linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel terminologisch differenziert.
Abbildung 2: Auditiv-impressionistische Darstellung der Sprechmelodien in der ansonsten gleichbleibenden Äußerung „Eine Malerin“ als Repräsentanten der phonetischen Seite des Forschungsgegenstandes. Die Darstellung erfolgte gemäß der Konventionen der Britischen Schule (vgl. Jones 1969; O'Connor und Arnold 1970).
32 32
Forschungsgegenstand
Im Rahmen der phonetischen Seite des Forschungsgegenstandes ist aber nicht nur die perzeptorische Beschreibung relevant. Insbesondere mit Blick auf die noch folgenden phonologischen Formgebungen der Zeichentriade in 2.3 und 2.4 und die vorliegenden empirischen Erkenntnisse hierzu sind auch die akustischen Eigenschaften der drei Sprechmelodien von Interesse. Die linksliegenden, zentralen und rechtsliegenden Sprechmelodiegipfel wurden daher vom Autor in der lautlich konstanten Äußerung „Eine Malerin“ mit „Ma-“ als (einziger) Akzentsilbe produziert und über ein Mikrophon digital aufgezeichnet. Abbildung 3 zeigt zu jeder dieser drei Produktionen im Oszillogramm (oben) das entstandene Schwingungsmuster des komplexen Signals über der Zeit und im Spektrogramm (unten) die Energieverteilung über das Frequenzspektrum (Gruppen energiereicher Frequenzen spiegeln die Formanten wider, siehe hierzu Ladefoged 1996). Während hieraus primär die Bestandteile des lautlichen Kanals ersichtlich werden, stellen die dazwischen dargestellten Verläufe der Intensität (zweites Fenster von oben) und der Grundfrequenz (F0, zweites Fenster von unten) in erster Linie die akustischen Eigenschaften der drei Sprechmelodien dar. Es ist zu beachten, dass die gezeigten akustischen Eigenschaften der Sprechmelodiegipfel nur eine von zahlreichen möglichen Ausprägungen darstellen. Die Gründe liegen unter anderem in der unter 1.1 erwähnten Verfälschung sprechmelodischer Zeichen im Rahmen ihrer Übertragung. Darüber hinaus ist aber auch möglich, dass die akustische Variation die Form sprechmelodischer Zeichen reflektiert. Die vorliegende Arbeit wird dieser Möglichkeit nachgehen. Hinsichtlich der Ausprägung der F0-Gipfel können die Gipfelmaxima linksliegender Sprechmelodiegipfel beispielsweise auch innerhalb der Akzentsilbe auftreten, anstatt wie in Abbildung 3 dargestellt vor dem initialen Nasal [m] der Akzentsilbe zu liegen. Niebuhr und Kohler (2004) argumentieren dafür, dass der Vokalbeginn der Akzentsilbe eine wichtige akustische Grenze bei der Produktion linksliegender und zentraler Sprechmelodiegipfel darstellt. Niebuhr und Ambrazaitis (2006) finden unter der Bedingung weiterer Silben nach der Akzentsilbe ferner, dass zentrale und rechtsliegende Sprechmelodiegipfel ihr F0-Maximum in den meisten Fällen auf unterschiedlichen Seiten der hinteren Grenze des Akzentvokals haben. Das F0-Maximum rechtsliegender Sprechmelodiegipfel muss sich somit nicht unbedingt nach der Akzentsilbe befinden, sondern nur nach ihrem Vokal. Beides deckt sich mit Beobachtungen von Gartenberg und Panzlaff-Reuter (1991). Insgesamt zeichnet sich damit ab, dass linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel seitens ihrer akustischen Ausprägung oft durch ein prävokalisches, innervokalisches und postvokalisches F0-Gipfelmaximum gekennzeichnet sind.
Das Forschungsgegenstand Kieler Intonationsmodell
33
Abbildung 3: Mögliche akustische Ausprägungen der linksliegenden, zentralen und rechtsliegenden Sprechmelodiegipfel über „Eine Malerin“. Alle drei Produktionen stammen vom Autor. Es ist jeweils ein Oszillogramm (oben) und ein von 0-5kHz reichendes Spektrogramm (unten) gegeben. Unter dem Oszillogramm ist der Intensitätsverlauf im Bereich von 60-80dB angegeben. Über dem Spektrogramm befindet sich der von 70-200Hz linear skalierte F0-Verlauf. Die Grenze der akzentuierten Silbe „Ma-“ ist mit durchgehenden, der Beginn des Akzentvokals mit gestrichelten vertikalen Linien gekennzeichnet.
2.3 Die phonologische Seite des Forschungsgegenstandes I Das Kieler Intonationsmodell (KIM) 2.3.1 Phonologischer Hintergrund des KIM Zurückgehend auf die Prager Schule (Trubetzkoy 1939), die ihrerseits an der semiotischen Theorie von Ferdinand de Saussure (1916) ausgerichtet ist, wird ein Zeichen als die Verknüpfung zwischen Bezeichnendem und Bezeichnetem (signifiant und signifié nach de Saussure) definiert. Auf dieser Grundlage gestattet und fordert die Aufstellung eines phonologischen Systems zur Bildung lautlicher Morpheme oder sprechmelodischer Zeichen einer Sprache die Bezugnahme auf deren Bedeutung. Die Phonologie des Kieler Intonationsmodells KIM (Kohler 1991a, b) ist in dieser europä-
34 34
Einleitung Forschungsgegenstand
ischen Tradition verankert. Entsprechend ist die Bezugnahme auf die bedeutungsdifferenzierende Funktion das maßgebliche Kriterium für die Aufstellung eines phonologischen Systems in diesem Modell. Die phonologischen Komponenten des KIM können daher, analog zum Paradigma der Minimalpaarbildung aus der Prager Schule, nur bei einer gleichzeitigen Betrachtung zweier oder mehrerer sprechmelodischer Zeichen bestimmt werden. Diese Vorgehensweise ist nur ein Charakteristikum der phonologischen Theorie hinter dem Kieler Intonationsmodell. Daneben müssen zwei weitere eingeführt werden. Eines hiervon stellt ein Komplement zur bedeutungsgeleiteten Vorgehensweise bei der Gewinnung der phonologischen Komponenten dar. So geben Bedeutungsunterschiede zwischen (zwei) Sprechmelodien zwar Auskunft über die Existenz phonologischer Komponenten, sie erlauben jedoch keine weiterführenden Schlussfolgerungen über die Beschaffenheit dieser Komponenten. Für die Phonologie des KIM ist es nun charakteristisch, sich dieser Beschaffenheit auf perzeptorischem Wege anzunähern. Bei der dafür verwendeten experimentellen Strategie beurteilen Hörer einen sprechmelodischen Raum, der durch eine Manipulation akustischer Parameter wie der Grundfrequenz erzeugt wird und von dem angenommen wird, dass er den durch die betreffenden phonologischen Komponenten verursachten Bedeutungsunterschied erfasst. Ein systematisches Wahrnehmungsverhalten innerhalb dieses Raumes bzw. das sich daraus ergebende systematische Urteilsverhalten gibt Aufschluss über die Beschaffenheit der phonologischen Komponenten, die in der Phonologie des KIM dann allerdings nicht perzeptorisch, sondern mit Rückbezug auf die Manipulation akustisch definiert werden. Die skizzierte Strategie wird in Verbindung mit der Form der Zeichentriade im folgenden Abschnitt an einem Beispiel veranschaulicht werden. Gleichzeitig bekräftigt ein systematisches Wahrnehmungs- bzw. Urteilsverhalten den angenommenen Bedeutungsunterschied. In diesem Zusammenhang wird auch deutlich, dass die Phonologie des KIM die Zeichen und ihre Formen nicht aufgrund theoretischer Überlegungen postuliert, sondern sie im Sinne eines experimental-phonologischen Ansatzes aus der Empirie heraus bestimmt. Die perzeptorische Herangehensweise an die Beschaffenheit der phonologischen Komponenten geschieht in Anlehnung an die Britische Schule, die zum Beispiel durch Jones (1969), Armstrong und Ward (1967), O'Connor und Arnold (1970) oder Halliday (1967) geprägt wurde. Eine weitere Parallele zwischen der Phonologie des KIM und den sprechmelodischen Konzepten der Britischen Schule – die zugleich das dritte Charakteristikum der Phonologie des KIM darstellt – besteht darin, dass die sprechmelodischen Zeichen als Konturen repräsentiert werden (Kohler 1991a, b). Solche Konturen sind als holistische und kohärente Einheiten
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
35 35
der Sprechmelodie aufzufassen. Entsprechend müssen phonologische Komponenten, die diesen Einheiten ihre Formen verleihen, die Kontur als Ganzes betreffen. Die phonologischen Komponenten des KIM beziehen sich daher auf die F0-Eigenschaften der Kontur und ihre zeitliche Gestaltung. Letzteres betrifft beispielsweise die Position der Kontur über dem lautlichen Strang, insbesondere ihre Lage zu den Grenzen der akzentuierten Silbe. Die beschriebenen drei Charakteristika des Kieler Intonationsmodells und ihre logischen Verknüpfungen sind in der Abbildung 4 zusammenfassend illustriert. Der an einer zentralen vertikalen Achse gespiegelte Aufbau der Abbildung macht deutlich, dass Zeichen und ihre phonologischen Komponenten nur über Bedeutungsunterschiede, also über die gleichzeitige Betrachtung zweier oder mehrerer Zeichen, bestimmt werden können. Die Stationen auf der vertikalen Achse selbst stellen heraus, dass die phonologischen Komponenten des KIM perzeptorisch fundiert, aber akustisch definiert sind. Einige dieser Komponenten sollen im nächsten Abschnitt beschrieben werden.
Abbildung 4: Die drei Charakteristika des Kieler Intonationsmodells KIM, Bedeutungsbezug, perzeptorische Herangehensweise und Konturgebundenheit sowie ihr Zusammenwirken in der Phonologie des KIM.
Mit Blick auf den experimentellen Teil dieser Arbeit ist den vorangegangenen Ausführungen hinzuzufügen, dass das Kieler Intonationsmodell neben der Phonologie sprechmelodischer Zeichen auch eine akzentbezogene
36 36
Einleitung Forschungsgegenstand
Phonologie aufstellt (die dem Bedeutungstyp der Hervorhebung gewidmet ist, vgl. 1.3.1). Beide Phonologien sind durch die Annahme verbunden, dass die Sprechmelodie und ihre akustische Ausprägung ursächlich für die Prominenz der akzentuierten Silbe sind. In diesem Sinne ist die Sprechmelodie als „prominence-lending“ (Ladd 1996:50) einzustufen. Kontinuierliche phonetische Abstufungen in der Prominenz werden in der Akzentphonologie des KIM auf drei Akzentstufen projiziert. Dabei kann von einer mittleren Standardakzentuierung nach oben und unten abgewichen werden. Im ersteren Fall liegt eine emphatische Akzentuierung vor. Eine Abweichung von der Standardakzentstufe nach unten wird als partielle Deakzentuierung bezeichnet. Für die Unterscheidung dieser drei Akzentstufen ist wiederum die Bedeutung bzw. die Bedeutungsveränderung maßgeblich. 2.3.2 Die Form des Forschungsgegenstandes im KIM Am Ausgangspunkt für die Ableitung der ersten Zeichenformalternative für die untersuchte Triade aus den drei unter 2.2 präsentierten Sprechmelodien bzw. aus ihren akustischen Ausprägungen muss die Frage nach den Zeichengrenzen gestellt werden. Diese Grenzen geben die zeitliche Extension und damit den phonetischen Inhalt der sprechmelodischen Zeichen vor, der dann wiederum die Grundlage für die phonologischen Komponenten bildet. Im Rahmen des Kieler Intonationsmodells ist die Frage nach den Zeichengrenzen an das Konturkonzept gekoppelt, das bereits im vorangegangenen Abschnitt 2.3.1 umrissen wurde. Unter dem gegebenen deliminativen Gesichtspunkt ist diesem Konzept hinzuzufügen, dass es sich bei Konturen um akzentgebundene Sprechmelodiemuster handelt (Kohler 1991a, b). Als Kontur gilt daher diejenige sprechmelodische Konfiguration, die sich vom Anfangsbereich einer akzentuierten Silbe bis zum Anfangsbereich der nachfolgenden Akzentsilbe bzw. bis zum Ende einer prosodischen Phrase erstreckt. Ein solches Intervall wird in der phonetischen Literatur als Akzentgruppe bezeichnet (vgl. z.B. van Santen und Möbius 1997). Innerhalb einer Akzentgruppe kommt die Form sprechmelodischer Zeichen mit Bezug auf F0 und dessen zeitliche Gestaltung zustande (Kohler 1991a, b). Dabei wird F0 zur Unterscheidung zweier grundlegender Formklassen – Täler und Gipfel – herangezogen. Die Abgrenzung von Tälern gegenüber Gipfeln erfolgt nach der Art des F0-Verlaufs. So können Täler durch eine zunächst fallende F0-Bewegung gekennzeichnet sein, auf die ein (oft konkaver) Anstieg folgen muss. Umgekehrt zeichnen sich Gipfel durch einen obligatorischen (zumeist konvexen) F0-Abstieg aus, dem ein steigender F0-Verlauf vorausgehen kann.
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
37 37
Die in Abbildung 3 des Abschnitts 2.2 dargestellten akustischen Ausprägungen der drei Sprechmelodiegipfel bestehen aus (konvex) steigendfallenden F0-Bewegungen, die sich innerhalb der Grenzen einer prosodischen Phrase über eine Akzentsilbe erstrecken, also in das Intervall einer Akzentgruppe fallen. Auf der Basis dieser akustischen und strukturellen Eigenschaften wird daher angenommen, dass jeder der drei Sprechmelodiegipfel in der Phonologie des KIM nur eine Kontur und dementsprechend nur ein Zeichen repräsentiert, das phonologisch der Formklasse der Gipfel zuzuordnen ist. Hierin stellen sie jedoch noch keine unterschiedlichen Zeichen dar. Damit dies geschieht, muss neben der phonologischen Komponente des Konturverlaufs (Gipfel) eine weitere phonologische Komponente, die auf die zeitliche Positionierung der Kontur über der Akzentsilbe ausgerichtet ist, in jede Zeichenform einbezogen werden5. Da es sich hierbei um diejenigen phonologischen Komponenten handelt, die ausschlaggebend für die Unterscheidung der drei sprechmelodischen Zeichen sind, soll auf ihre empirische Grundlage nachfolgend detaillierter eingegangen werden. Zur perzeptorischen Fundierung dieser drei weiteren phonologischen Komponenten hat Kohler (1987, siehe auch 1991c für mehr Einzelheiten) mit LPC-Resynthese einen quasi-kontinuierlichen akustischen Synchronisationsraum geschaffen, indem er (auf einer linearen Zeitskala in ms) in zehn äquidistanten Abständen einen lokalen steigend-fallenden F0-Gipfel über die akzentuierte Silbe „-lo-“ des Satzes „Sie hat ja gelogen“ hinweg verschob. Die einzelnen Resynthesen dieses Raumes wurden als Teststimuli in zwei verschiedene Arten von Hörtests eingebunden, die als Teile eines zusammenhängenden Perzeptionsexperimentes zu verstehen sind. In einem der beiden Hörtests sollten die phonologischen Komponenten durch ihre Wirkung auf ein ansonsten konstantes Bedeutungsumfeld sichtbar gemacht werden. Dazu wurde den ersten acht Teststimuli des Synchronisationsraumes („Sie hat ja gelogen“) jeweils der konstante Kontextstimulus „Jetzt versteh’ ich das erst“ vorangestellt, der einen F0-Gipfel mit Hochpunkt im Zentrum des Vokals des Akzentsilbe „-steh“ enthielt. Beide Äußerungen wurden so gewählt, dass sie allein auf Basis der Morphembedeutungen grundsätzlich kompatibel sind. Ob dies auch für ihre Gesamtbedeutungen galt, war somit vom Bedeutungsbeitrag der sprechmelodischen Zeichen abhängig. Aufgrund seiner Position innerhalb der Akzent-
_____________ 5
Werden diese zeitlichen Positionierungen der Gipfelkonturen in einem gleichbleibenden lautlichen Kontext betrachtet, dann sind sie, ähnlich wie es für die drei Sprechmelodiegipfel in 2.2 beschrieben wurde, in Form von gegenläufigen Veränderungen in der Dauer der umliegenden tiefen F0-Bereiche konzeptualisierbar. Insofern gehen in die Formgebung der Zeichentriade durch die phonologischen Komponenten im KIM zwei aus der Definition der Sprechmelodie ableitbare Größen ein, F0 und Dauer.
38 38
Einleitung Forschungsgegenstand
silbe gehörte der F0-Gipfel in „-steh“ dem gleichen Synchronisationsraum an, der mit den F0-Gipfeln über „-lo-“ in „gelogen“ geschaffen wurde. Auch in ihren sonstigen Verlaufseigenschaften waren beide F0-Gipfel vergleichbar. Sollte dieser Synchronisationsraum nur eine phonologische Komponente abdecken, dann wären die sprechmelodischen Zeichen beider Äußerungen und somit auch ihr Beitrag zur Gesamtbedeutung identisch. Auf die perzeptorische Beurteilung beider Äußerungen als zusammenpassend oder nicht zusammenpassend würde die unterschiedliche Synchronisation der F0-Gipfel somit keinen Einfluss haben. Sollte sich durch die zeitliche Position des Gipfels über der Akzentsilbe allerdings die phonologische Zusammensetzung des sprechmelodischen Zeichens im Teststimulus verändern, dann wird sich dies in der zusammenhängenden Beurteilung beider Äußerungen niederschlagen. Ein solches experimentelles Setup zielt somit indirekt darauf ab, dass die Versuchspersonen das sprechmelodische Zeichen des Stimulus identifizieren. Dieser Test wird daher auch Identifikationstest genannt. Als Resultat des Identifikationstests fand Kohler parallel zu dem Übergang des F0-Hochpunktes in den Akzentvokal eine abrupte Veränderung in der Beurteilung beider Äußerungen von nicht zusammenpassend zu zusammenpassend. In einem davon unabhängigen Identifikationstest mit einem leicht abgewandelten experimentellen Paradigma zeigte sich zudem, dass diese Beurteilung als zusammenpassend wieder deutlich absackte, wenn der F0-Gipfel in den Stimuli so positioniert war, dass er seinen Hochpunkt erst gegen Ende des akzentuierten Vokals erreichte (wodurch nur ein unerheblicher F0-Abstieg vor der finalen Vokalgrenze stattfand, die gleichzeitig die finale Silbengrenze darstellt) und gleichzeitig der Anstieg zum F0-Gipfel erst nach dem Vokaleinsatz begann. Kohler kommt aufgrund des systematischen Wahrnehmungsverhaltens der Hörer innerhalb des generierten Synchronisationsraumes zu der Schlussfolgerung, dass der Synchronisationsraum drei phonologische Komponenten überspannt hat. Die Abgrenzung der ersten gegenüber der zweiten Komponente wurde akustisch an dem Übergang des F0-Hochpunktes des Gipfels in den Akzentvokal hinein festgemacht. Dementsprechend wird die erste Komponente durch F0-Gipfel gebildet, die ihr Maximum vor dem Vokalbeginn erreichen und somit in den Vokal hinein fallen. Sie wird als ‚früh’ bezeichnet. Die akustische Definition der zweiten Komponente umfasst F0-Gipfel, deren Anstieg sich bis kurz über die Grenze des Vokalbeginns hinaus erstreckt, sodass noch ein deutlicher F0Abstieg im Vokal verbleibt. Diese Komponente wurde ‚mittel’ genannt. Die dritte phonologische Komponente wurde von der zweiten (‚mittel’) primär auf der Basis des erneuten Rückgangs in der Beurteilung der Kontext-Stimulus-Paare als zusammenpassend abgegrenzt (daneben verweist
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
39 39
Kohler 1991c auch auf die Ergebnisse eines Diskriminationstests). Akustisch zeichnet sich die dritte Komponente dadurch aus, dass der steigendfallende F0-Gipfel so weit nach dem Einsatz des Akzentvokals positioniert ist, dass das Gipfelmaximum erst in der hinteren Peripherie des Vokals oder darüber hinaus erreicht wird. Peters und Kohler (2004) geben eine Illustration der drei phonologisch unterschiedlichen Gipfelpositionen. In Anbetracht der F0-Gipfelpositionen in den akustischen Ausprägungen der Sprechmelodiegipfel aus Abbildung 3 (siehe Abschnitt 2.2) sind letztere so in den von Kohler (1987, 1991c) aufgespannten Synchronisationsraum einzuordnen, dass sie in jeweils einen der Bereiche der drei phonologischen Komponenten fallen. Die Zeichenform des linksliegenden Sprechmelodiegipfels wird somit durch die Komponente ‚früh’ komplettiert. Der Form des zentralen Gipfels wird die Komponente ‚mittel’ hinzugefügt und dem rechtsliegenden Gipfel gehört die Komponente ‚spät’ an. Zusammengefasst werden die drei zu untersuchenden Sprechmelodiegipfel in der Phonologie des KIM jeweils als ein Zeichen repräsentiert, dessen Form sich aus zwei akustisch definierten phonologischen Komponenten ableitet, der Art des F0-Verlaufs (diese als ‚Gipfel’ bezeichnete Komponente ist in allen drei Zeichenformen identisch) und der zeitlichen Positionierung der Gipfelkontur bzw. ihres F0-Maximums zu den Grenzen des akzentuierten Vokals (die als Folge von Dauerveränderungen in Abschnitten der Kontur verstanden werden kann, siehe Fußnote 5 zuvor). Letzteres bildet die Grundlage für die phonologischen Komponenten ‚früh’ vs. ‚mittel’ vs. ‚spät’, durch die sich die drei Zeichenformen unterscheiden und eigene Zeichen bilden. In diesem Sinne nimmt die Zeit in der Phonologie des Kieler Intonationsmodells eine zentrale Rolle ein. Die zweigliedrige Form jedes der drei Zeichen wird indirekt auch durch die Festlegung der Zeichengrenzen mitbestimmt, da diese den phonetischen Inhalt absteckt, aus dem die phonologischen Komponenten hervorgehen. In Abbildung 5 werden die herausgearbeiteten Einflüsse der F0- und zeitbezogenen Eigenschaften sowie der Zeichengrenzen auf die Zeichenform noch einmal als Diagramm illustriert. Abschließend ist darauf hinzuweisen, dass die Phonologie des Kieler Intonationsmodells insofern für neue Erkenntnisse offen ist, als dass durch den Konturansatz prinzipiell alle sprechmelodischen Merkmale innerhalb eines definierten Intervalls wie der Akzentgruppe zur Bedeutung und damit auch zur Form des Zeichens beitragen können.
40 40
Einleitung Forschungsgegenstand
Abbildung 5: Entstehung der zweigliedrigen Zeichenform des frühen, mittleren und späten Gipfels für den rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der Phonologie des KIM (siehe hiezu Abb. 4). Die Grundfrequenz und ihre zeitliche Gestaltung sind hieran direkt, die Zeichengrenzen indirekt beteiligt.
2.4 Die phonologische Seite des Forschungsgegenstandes II Die autosegmentell-metrische (AM) Phonologie 2.4.1 Hintergrund der AM-Phonologie Die autosegmentell-metrische (AM) Phonologie wurde von Pierrehumbert (1980) in Anlehnung an die Arbeiten von Liberman (1975) zur metrischen Theorie und von Bruce (1977) zur phonologischen Repräsentation schwedischer Tonakzente formuliert und von Beckman und Pierrehumbert (1986) weiterentwickelt. Die Bezeichnung dieser phonologischen Theorie durch den zusammenhängenden Begriff ‚autosegmentell-metrisch’ stammt allerdings nicht von Pierrehumbert selber, sondern wurde von Ladd (1996) geprägt. Die darin enthaltenen Konzepte sind, ebenso wie die weiteren Merkmale dieses Ansatzes, in der Tradition der amerikanischen Phonologie entstanden. Entscheidend geprägt wurde die amerikanische Phonologie durch Whitney (1867). Im Gegensatz zu de Saussure (1916), der sprachliche Zeichen als integrative Einheiten aus Form und Bedeutung betrachtete, argumentierte Whitney, dass die Form allein das Zeichen konstituiert, losgelöst von seiner Bedeutung (er bezog sich hierbei vorrangig auf Wörter). Whitney legte damit den Grundstein für die behavioristische Herangehensweise an sprachliche Strukturen durch Bloomfield (1935). Sie folgte dem
Zum Begriff der Sprechmelodie Die AM-Phonolgie
41 41
Grundsatz, dass für die Beschreibung einer Sprache die einzelnen sprachlichen Ebenen, die als Hierarchie von Phonologie über Morphologie bis Syntax betrachtet wurden, einzeln und ohne Referenz zu höheren Ebenen behandelt werden müssen, um Zirkelschlüsse bei der Bestimmung von Elementen des Sprachkodes auszuschließen. Das bedeutet, dass die Phonologie allein mit dem phonetisch-segmentellen Input zu operieren hatte, ohne die übergeordnete Ebene der bedeutungstragenden Einheiten (Zeichen und Morphem) oder gar Bedeutung an sich mit einzubeziehen. Der auf den lautlichen Kanal ausgerichtete amerikanische Strukturalismus war diesem Grundsatz verpflichtet und hat gefordert, die Phoneme ausschließlich auf der Basis einer Distributionsanalyse der einzelnen phonetischen Segmente aufzustellen (vgl. Bloch 1948; Harris 1951). So wurden Laute in paralleler Verteilung verschiedenen Phonemen zugewiesen, während phonetisch ähnliche Laute in komplementärer Verteilung demselben Phonem zugeordnet wurden. Die beschriebene konzeptuelle Entwicklung findet ihre Fortsetzung in der autosegmentell-metrischen Phonologie für den Bereich des melodischen Kanals. Dabei reflektiert der Begriff ‚autosegmentell-metrisch’ eine grundlegende Trennung zwischen intonation auf der einen und stress auf der anderen Seite. Der Begriff stress bezieht sich auf die phonetisch konkrete Eigenschaft einer Silbe, in ihrer Prominenz gegenüber benachbarten Silben aufgrund besonderer Ausprägungen in den akustischen Parametern Dauer und Intensität unterschiedlich deutlich hervorzutreten. Diese Eigenschaft ist die (mögliche) Folge zugrundeliegender abstrakter Gewichtungsrelationen, die durch ein metrisches Gitter für die jeweilige Silbenkette einer Äußerung bestimmt werden (vgl. Liberman 1975; Liberman und Prince 1977). Die intonation bildet eine eigene Beschreibungsebene in Phonetik und Phonologie. Das heißt, ihre Elemente existieren unabhängig von dem stress-Muster der jeweiligen Äußerung. In diesem Sinne sind sie Autosegmente (vgl. Goldsmith 1976), die mit den metrisch stärksten Silben (designated terminal elements) oder strukturell signifikanten Punkten einer Äußerung (tone bearing units) assoziiert sein können. In dem vorgestellten Rahmen hat Pierrehumbert (1980) für die intonation-Ebene gefordert, dass die phonologische Analyse in ähnlicher Weise wie die erläuterte Distributionsanalyse der Lautsegmente durchgeführt werden muss. Es soll erreicht werden, phonologische Komponenten mit exklusivem Bezug zur Phonetik zu gewinnen, losgelöst von Bedeutungen und bedeutungstragenden Einheiten sowie Elementen des lautlichen Kanals. Dazu wählt sie als phonetische Analysestufe innerhalb der speech chain das akustische Sprachsignal und konzentriert sich hierin insbesondere auf den F0-Verlauf. Beckman (1995:453) hat den F0-Verlauf später entsprechend als „narrow phonetic transcription“ der intonatorischen Zei-
42 42
Einleitung Forschungsgegenstand
chen(-formen) charakterisiert. Die hieran ermittelten phonologischen Komponenten können dann a posteriori zu kompositionalen Bedeutungen (d.h. zu sprechmelodischen Zeichen) verbunden werden. Bei den grundlegenden phonologischen Komponenten der Intonation handelt es sich um Töne, die als lokale Zielpunkte (targets) im akustischen F0-Verlauf beobachtet werden können6. Sie fallen oft – aber nicht zwangsläufig – mit Extrema oder Wendepunkten des F0-Verlaufs zusammen. Dabei sind Wendepunkte in einem deskriptiven Sinne als markante Richtungswechsel im F0-Verlauf zu verstehen und nicht in ihrer mathematischen Verwendung als maximale/minimale Steigungen einer Funktion. Ein Zielpunkt kann mit Bezug auf den unmittelbar vorangehenden akustisch entweder höher oder tiefer liegen und wird dementsprechend als H (high) oder L (low) bezeichnet. In der Konsequenz wird die Intonation somit – anders als im Kieler Intonationsmodell KIM (vgl. 2.3.1) – nicht durch ganzheitliche kohärente Konturen gebildet, sondern als streng lineare Abfolge von unabhängigen phonologischen F0-Ereignissen (Zeitpunkten, „events“) verstanden, die durch phonologisch irrelevante F0-Abschnitte (Zeitstrecken, „transitions“) unterbrochen werden (siehe Ladd 1996:45). Im Gegensatz zu der schwedischen Analyse von Bruce (1977) stellen diese phonologisch irrelevanten Abschnitte phonetisch jedoch nicht immer eine lineare Interpolation zwischen den lokalen Zielpunkten dar. In ihrer linearen Abfolge haben die einzelnen Töne bei Pierrehumbert (1980) nicht alle den gleichen Status, sondern sind in einer phonologischen Hierarchie organisiert, die in zwei Teile gegliedert werden kann, einen globaleren und einen lokaleren. Auf der untersten Ebene der globaleren Hierarchie fallen die linear angeordneten phonologischen Töne in verschiedene syntagmatische Strukturstellen, die zusammen die Einheit der Intonationsphrase bilden. Der Aufbau einer solchen Phrase ähnelt den von Selkirk (1984) bzw. Nespor und Vogel (1986) postulierten Strukturen. Vom Ende einer Intonationsphrase nach vorn werden die Strukturstellen als Grenzton (boundary tone) und Phrasenton (phrase tone; früher Phrasenakzent bzw. phrase accent in Anlehnung an Bruce 1977) bezeichnet, die zusammen den Eckton (edge tone) bilden. Diesem wiederum kann auf der gleichen Ebene der Hierarchie eine beliebige Anzahl an Tonakzenten (pitch accents), mindestens
_____________ 6
Dies ist zumindest die Auffassung, wie sie Pierrehumbert (1980) in Anlehnung an Bruce (1977) darstellt, indem sie fordert, dass die Töne einzig mit Bezug zum F0-Verlauf gewonnen werden können. Tatsächlich zählt es aber bis heute zu den „unresolved issues“ (Ladd 1996:102), wie ein Ton über die speech chain hinweg zu erkennen und auf welcher Stufe er für ein phonologisches System zu extrahieren ist.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
43 43
jedoch einer, vorangehen. Am vorderen Ende wird die Intonationsphrase erneut durch einen Grenzton abgeschlossen. In der Überarbeitung des Ansatzes von Pierrehumbert (1980) durch Beckman und Pierrehumbert (1986) wurde in den beschriebenen globaleren Teil der Hierarchie die Intermediärphrase (intermediate phrase) als obligatorische prosodische Konstituente direkt unter der Intonationsphrase eingeführt. Diese Innovation war Anlass für eine Reihe konzeptueller Veränderungen anderer Konstituenten. Da jede Intermediärphrase beispielsweise, ebenso wie die übergeordnete Intonationsphrase, über einen Grenzton verfügt, wird der Phrasenton bzw. Phrasenakzent im Sinne des Konzepts von Pierrehumbert (1980) obsolet. Er dient vor allem dazu, zusammen mit dem folgenden Grenzton komplexe F0-Muster nach dem letzten Tonakzent (z.B. kombinierte Konturen und verschiedene Arten phrasenfinaler Anstiege) phonologisch zu erfassen. Diese Aufgabe kann nun von den beiden Grenztönen der Intermediärphrase und der Intonationsphrase erfüllt werden, die am Ende der Intonationsphrase koinzidieren (vgl. Grice und Baumann 2000). Obwohl das neue Konzept des intermediären Grenztons in vielen Analysen unter dem alten Begriff des Phrasentons bzw. -akzentes weiter geführt wird, erscheint der grundsätzlich wieder frei gewordene Terminus des Phrasenakzentes in der Literatur nun auch mit einem ganz anderen konzeptuellen Inhalt, nämlich im wörtlichen Sinne als Mischform von Tonakzent und Phrasenton zwischen dem letzten Tonakzent und dem ersten (zur Intermediärphrase gehörigen) Grenzton (siehe Grice et al. 2000 zum Standarddeutschen). Für die vorliegende Arbeit soll das Konzept der Intermediärphrase und die damit verbundenen phonologisch-strukturellen Konsequenzen unter anderem aus folgenden Gründen unberücksichtigt bleiben: Die Abgrenzung von Intonationsphrase und Intermediärphrase wird weder in der Akustik noch in der Perzeption konsistent durchgeführt (z.B. können Intermediärphrasengrenzen mit und ohne perzeptorischen Einschnitt angenommen werden; siehe Ladd 1996). Die Grenztöne der Intermediärphrase fallen in Form und Bedeutung stark heterogen aus, je nachdem ob sie mit dem Grenzton der Intonationsphrase zusammenstehen oder nicht. Somit wirkt die phonologische Struktur inadäquat. Des weiteren können die F0Muster am Ende der Intermediärphrase genauso komplex sein, wie am Ende der Intonationsphrase. Daher ist ein Phrasentonkonzept unabhängig vom Typ der Phrase erforderlich. Letztlich ist es auch unter der Berücksichtigung der theoretischen Argumentation von Beckman und Pierrehumbert (1986) wenig plausibel, zwischen Intermediärphrase und Intonationsphrase zu differenzieren, wenn letztere nur eine einzige Intermediärphrase enthält.
44 44
Einleitung Forschungsgegenstand
Was die einzelnen Konstituenten im globaleren Teil der Hierarchie anlangt, so sind Tonakzente diejenigen tonalen Zielpunkte, die mit den metrisch starken Silben assoziiert sind. Entsprechend handelt es sich um Akzentsilben (vgl. 1.2.3). Diese Assoziation indiziert das besondere metrische Gewicht dieser Silben und evoziert auf diese Weise Prominenz7. Bezüglich Prominenz ist darüber hinaus zu beachten, dass die Akzentsilben im Standarddeutschen in der Regel auch aufgrund von stress besonders hervortreten. Grenztöne werden durch die initialen und finalen Zielpunkte einer Intonationsphrase konstituiert. Sie sind dementsprechend nicht mit den metrisch starken Silben, sondern mit strukturell signifikanten Punkten der Phrase assoziiert. Phrasentöne (in ihrem ursprünglichen Konzept) repräsentieren letztlich oft schwer lokalisierbare tonale Zielpunkte, die zwischen dem letzten Tonakzent und dem finalen Grenzton vorkommen. Der lokalere Teil der phonologischen Hierarchie bezieht sich auf die tonale Organisation innerhalb der Strukturstellen des Grenztons, Phrasentons und Tonakzents. So werden aufgrund theoretischer Erwägungen von Pierrehumbert (1980) bzw. Beckman und Pierrehumbert (1986) die Strukturstellen des Grenz- und Phrasentons nur durch jeweils einen phonologischen Ton gefüllt, während die Tonakzente auch durch Komposita aus zwei tonalen Bausteinen gebildet werden können, wobei jeweils einer dieser Bausteine den Schwerpunkt bildet, das heißt mit der metrisch starken Silbe assoziiert ist. Obwohl Pierrehumbert (1980) dies nicht zweifelsfrei sagt, lassen ihre Anleihen bei der autosegmentellen Phonologie von Goldsmith (1976) darauf schließen, dass die phonologische Assoziation auch mit einer phonetischen Gleichzeitigkeit einhergeht. Das heißt, ein mit der metrisch starken Silbe assoziierter Ton liegt innerhalb dieser Silbe. Dies ist auch die allgemeine Interpretation bei der Übertragung des AMKonzeptes von Pierrehumbert (1980) auf andere Sprachen (vgl. Arvaniti et al. 2000). Die vorliegende Arbeit wird dieser Interpretation ebenfalls folgen. Um beide Bausteine eines bitonalen Akzentes auf einer metasprachlichen (annotativen) Ebene zu unterscheiden, wird der den Schwerpunkt bildende Ton durch einen Stern (*) gekennzeichnet. Der ungesternte Ton bleibt ohne Assoziation mit Silben oder anderen lautlichen
_____________ 7
Hieraus geht hervor, dass die beobachtbaren F0-Bewegungen in der Akzentsilbe nicht wie im KIM als ursächlich für die perzeptorische Prominenz und damit als „prominence-lending“ angesehen werden (vgl. Ladd 1996:50). Vielmehr dienen sie nur als Indikator der zugrundeliegenden metrischen Gewichtung. Diese Indikation ist es dann, die beim Hörer eine hohe Prominenz der entsprechenden Silbe auslöst. Entsprechend fasst Ladd (1996:50) die genannten F0-Bewegungen nur als „prominence-cueing“ auf.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
45 45
Elementen. Er bezieht sich stattdessen auf den gesternten Ton. Diese Beziehung kommt darin zum Ausdruck, dass der ungesternte Ton in einem „given time interval“ (Pierrehumbert 1980:40) zum gesternten Ton außerhalb der Akzentsilbe8 auftritt, wodurch F0 zwischen den Tönen durch einen „fairly invariant time course“ (Pierrehumbert und Beckman 1988:123) gekennzeichnet ist. Grice (1995) hat in Auseinandersetzung mit der Intonationsbeschreibung der Britischen Schule (vgl. 2.3.1) die Beschränkung auf bitonale Akzente durchbrochen. Dabei führt sie an den beiden Strukturstellen eines Tonakzentes weitere Substrukturen ein, durch die bis zu vier phonologische Töne zu einem Tonakzent zusammengeführt werden können. Es ist die beschriebene phonologische Hierarchie (insb. der lokalere Teil), die Ladd zu der Aussage führt, dass die konturbezogene Phonologie und die an Einzeltönen ausgerichtete autosegmentell-metrische Phonologie in ihrer Konzeptualisierung der Intonation prinzipiell vergleichbar sind und sich lediglich im „Zoomfaktor“ ihrer phonologischen Analyse voneinander unterscheiden: „By breaking down the contour into component parts, we do not, of course, preclude the possibility of referring to larger units. In particular, most of the nuclear tones of the British tradition can be readily translated into combinations of pitch accents and edge tones […]. we […] have simply been more explicit about its internal structure.” (Ladd 1996:45, siehe auch Ladd 1996:61). Ladd lässt dabei allerdings zwei wichtige Aspekte unberücksichtigt: Zum einen sind es gerade die F0- bzw. Tonhöhenbewegungen, die in Konturansätzen als phonologisch relevant aufgefasst werden (vgl. 2.3.1 und 2.3.2). Diese gelten in der autosegmentell-metrischen Phonologie als phonologisch irrelevante Transitionen zwischen Zielpunkten. Zum zweiten ist im AM-Ansatz jeder dieser Zielpunkte (Töne) ein phonologisch eigenständiges Ereignis. Das heißt, die Entscheidung ob ein bestimmter tonaler Zielpunkt als H oder L ausfällt, kann unabhängig von den vorangehenden oder nachfolgenden Zielpunkten getroffen werden. In der Einheit einer Kontur wäre dies nicht der Fall. In dieser Darstellung deutet sich bereits die diametrale Beziehung zwischen der intonatorischen Phonologie im AM-Rahmen und der Phonologie des Kieler Intonationsmodells KIM (vgl. 2.3.1) an. Diese beschränkt sich jedoch nicht auf den genannten Unterschied zwischen phonologischen Tönen einerseits und phonologischen Merkmalen ganzheitlicher
_____________ 8
Bezüglich der akzentsilbenexternen Position des ungesternten Tons gelten die gleichen Vorbehalte wie für die Ausprägung des gesternten Tons innerhalb der Akzentsilbe. Je nachdem, ob die ungesternten Töne dem gesternten vorangehen oder folgen, werden sie auch als leading tones und trailing tones bezeichnet. Diese Begriffe wurden Ladd (1996) zufolge nicht von Pierrehumbert selbst, sondern von Féry (1993) und Grice (1995) geprägt.
46 46
Einleitung Forschungsgegenstand
Konturen andererseits. Darüber hinaus spielt die Zeit auf der phonologischen Ebene im AM-Ansatz durch die Assoziation der Töne mit bestimmten Silben keine Rolle. Das heißt, die Töne sind immer mit einer Silbe als Ganzes verbunden. Zeitliche Eigenschaften tonaler Zielpunkte bleiben der phonetischen Ebene vorbehalten (siehe association vs. alignment in Ladd 1983), wobei zum Beispiel Variationen im alignment des assoziierten Tons irrelevant sind, solange sie sich innerhalb der metrisch starken Silbe bewegen. Entgegengesetzt verhält es sich in der Phonologie des KIM, wo die Zeit neben der Grundfrequenz das entscheidende phonologische Merkmal darstellt. Zusätzlich steht der akustischen und bedeutungsfreien phonologischen Analyse im AM-Ansatz die perzeptorische Herangehensweise mit engem funktionalem Bezug in der Phonologie des KIM gegenüber.
Abbildung 6: Darstellung der theoretischen Struktur der Intonationsphonologie im Rahmen des autosegmentell-metrischen (AM) Ansatzes gemäß den Erläuterungen des Textes. Die grauen Kästen beziehen sich auf die grundlegenden phonologischen Komponenten H und L, die schwarzen auf ein (unvollständiges) Beispiel ihrer hierarchischen Organisation.
Abschließend muss darauf hingewiesen werden, dass die AM-Phonologie von Pierrehumbert (1980) bzw. deren überarbeitete Fassung von Beckman und Pierrehumbert (1986) ursprünglich für das (amerikanische) Englisch entwickelt wurde. Zusammen mit weiten Teilen des Inventars phonologischer Oppositionen werden die theoretischen Grundpfeiler jedoch auch für das Deutsche angenommen. Sie sind in der Abbildung 6 in Form eines Strukturdiagramms zusammengefasst.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
47 47
2.4.2 Die Form des Forschungsgegenstandes in der AM-Phonologie Analog zur Beschreibung der Form des Forschungsgegenstandes in der Phonologie des Kieler Intonationsmodells KIM in 2.3.2 soll zunächst die Frage diskutiert werden, auf wie viele Zeichen die rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der autosegmentell-metrischen Phonologie abgebildet werden. Pierrehumbert (1980) vertritt die Auffassung, dass Tonakzente ebenso wie Grenztöne als bedeutungstragende Einheiten anzusehen sind. In dem späteren compositional approach to tune meaning von (Pierrehumbert und Hirschberg 1990) wurde diese Auffassung dahingehend relativiert und ausgebaut, dass der Einheit der Intonationsphrase eine kompositionale Gesamtbedeutung zugesprochen wird, zu der die jeweiligen Strukturstellen der Grenztöne, Tonakzente und Phrasentöne spezifische Beiträge leisten. Über Tonakzente bezieht der Sprecher Stellung zu den Gegenständen des Diskurses, während Phrasentönen (im Sinne von intermediären Grenztönen) eine strukturelle Bedeutung zugesprochen wird. Sie bringen die Beziehung (den Grad der Bedeutungsverbindung über den Grad der phonetischen Kohäsion) zwischen Unterabschnitten (Intermediärphrasen) einer Intonationsphrase zum Ausdruck. Grenztöne leisten einen Beitrag zu der Bedeutung der Intonationsphrase als Ganzes. Durch diese kompositionale Herangehensweise an die Bedeutung sprechmelodischer Muster können die einzelnen bedeutungstragenden Einheiten nicht unabhängig voneinander existieren (das gilt auch auf phonetischer Ebene). Die kleinste sinngebende Einheit ist daher immer die Intonationsphrase (bzw. die hier unberücksichtigte Intermediärphrase). Dennoch ist dieser Umstand nicht so interpretierbar, dass diese sinngebende Einheit als kleinstes sprechmelodisches Zeichen anzusehen ist, die drei Sprechmelodiegipfel also jeweils nur ein Zeichen repräsentieren. Grenzton, Phrasenton und Tonakzent sind vielmehr jeweils gebundene Zeichen, analog zu dem Konzept der gebundenen Morpheme des lautlichen Kanals (vgl. hierzu Yule 1993). Der Umstand ihrer Gebundenheit ändert nichts an ihrem bedeutungstragenden Status. Für die drei Sprechmelodien heißt das, dass sie aus jeweils vier (gebundenen) Zeichen bestehen. Die Genese zu dieser Aussage lässt sich wie folgt darstellen: Zunächst einmal weist jede der drei Sprechmelodien eine deutliche F0-Bewegung auf (siehe Abb. 3). Unter Berücksichtigung des lautlichen Kanals ist diese Bewegung im Bereich der Silbe „Ma-“ aus „Malerin“ lokalisiert, bei der es sich um die metrisch stärkste und zugleich perzeptorisch prominenteste Silbe der Äußerung handelt. Aus einer autosegmentell-metrischen Perspektive heraus ist daher davon auszugehen, dass jede der drei Sprechmelodien genau einen Tonakzent enthält, der im Falle der gegebenen Beispiele mit der Akzentsilbe „Ma-“ assoziiert ist.
48 48
Einleitung Forschungsgegenstand
Angesichts des Umstandes, dass jede Intonationsphrase mindestens einen Tonakzent beinhalten muss, bestehen alle drei Sprechmelodiegipfel nur aus einer Phrase. Da weitergehend jede Intonationsphrase obligatorisch durch Grenztöne eingerahmt wird, verfügen die drei Gipfel zudem automatisch über jeweils einen initialen und finalen Grenzton, ohne dass hierbei auf perzeptorische oder akustische Einschnitte in der phonetischen Realisierung Bezug genommen werden muss. In ähnlicher Weise ist für die Annahme genau eines Phrasentons pro Sprechmelodiegipfel zu argumentieren, da letzterer unter dem Dach des Ecktons lediglich an das Vorkommen eines finalen Grenztons gebunden ist (siehe 2.4.1). Insofern bedarf der Phrasenton keiner eigenständigen Rechtfertigung über phonetische Merkmale in den drei Sprechmelodiegipfeln. Im Folgenden soll die Form der einzelnen Zeichen weiter aufgeschlüsselt werden. Grundsätzlich fließen im Rahmen der autosegmentell-metrischen Phonologie zwei Aspekte in die Zeichenform ein: Erstens der phonologische Wert (H oder L) des Tons, ermittelt in einer akustischen Gegenüberstellung mit seinem Vorgänger, und zweitens dessen Integration in die hierarchische Organisation der Intonationsphrase. Im Falle von Tonakzenten ist als ein dritter, zusätzlicher Aspekt die interne Organisation phonologischer Töne zu berücksichtigen. Es soll zunächst auf den ersten Aspekt eingegangen werden. Werden die F0-Verläufe der drei Sprechmelodiegipfel, wie sie in Abbildung 3 dargestellt sind, unter autosegmentell-metrischen Gesichtspunkten betrachtet, dann sind der rechts- und der linksliegende Gipfel in jeweils fünf phonologische Töne (Zielpunkte) zu analysieren. Jeweils an der akustischen Repräsentation des vorangehenden Zielpunktes ausgerichtet, tragen vier dieser Töne den Wert L und einer den Wert H. Unterschieden sind die beiden phonologischen Syntagmen durch die Position des HTons innerhalb der L-Töne. Im Syntagma des linksliegenden Sprechmelodiegipfels steht der H-Ton gleich nach dem ersten L, während er im Syntagma des rechtsliegenden Gipfels in der Mitte zwischen jeweils zwei LTönen vorkommt. Beide Tonsequenzen lauten daher wie folgt: LHLLL für den linksliegenden und LLHLL für den rechtsliegenden Sprechmelodiegipfel. Der zentrale Sprechmelodiegipfel trägt ebenfalls nur einen HTon, der unmittelbar nach dem ersten L steht. Der zentrale Gipfel ist jedoch von dem rechtsliegenden und gleichermaßen von dem linksliegenden Gipfel phonologisch dadurch unterschieden, dass er einen L-Baustein weniger aufweist, also insgesamt nur vier Zieltöne umfasst. Das phonologische Syntagma des zentralen Sprechmelodiegipfels ist somit als LHLL darzustellen. Im Zusammenhang mit dem zweiten Aspekt der Integration des phonologischen Syntagmas in die (hierarchisch organisierten) Strukturstellen
Zum Begriff der Sprechmelodie Die AM-Phonolgie
49 49
der Intonationsphrase bildet der erste L-Ton jedes Sprechmelodiegipfels den initialen Grenzton. Auf Basis der für das Deutsche gültigen Konventionen in GToBI9 (siehe Grice und Baumann 2000) wird ein solcher Grenzton als default-Fall nicht gesondert gekennzeichnet. Im Hinblick auf den hohen initialen Grenzton, der durch die Symbolfolge %H angezeigt wird, ist jedoch anzunehmen, dass er als %L markiert werden würde. Die GToBI-Symbole sollen auch für die Transkription der folgenden Zeichen benutzt werden. Durch die letzten beiden L-Töne jedes Gipfels wird jeweils der Phrasenton (der in GToBI als Grenzton der Intermediärphrase aufgefasst wird, vgl. 2.4.1) und der finale Grenzton konstituiert (L- L%, in Kurzform auch L-%). Hieraus ergibt sich, dass drei der vier Zeichen für alle Sprechmelodiegipfel identisch sind und sich der rechtsliegende, zentrale und linksliegende Gipfel entsprechend nur in einem Zeichen voneinander unterscheiden. Dieses Zeichen bezieht sich auf den Tonakzent. Die Tonakzente in den drei Gipfeln sind, mit Bezug auf den zusätzlichen dritten Aspekt, in dreierlei Weise phonologisch differenziert, nämlich in der Anzahl der integrierten phonologischen Töne sowie in deren Sequenz und Gewichtung. So wird der Tonakzent des zentralen Gipfels nur durch einen phonologischen Ton H gebildet, der mit einer metrisch starken Silbe („Ma-“) assoziiert ist. Er wird dementsprechend als H* gekennzeichnet. Die Tonakzente der rechts- und linksliegenden Sprechmelodiegipfel setzen sich jeweils aus einem H und einem L zusammen, jedoch in unterschiedlicher Abfolge und Gewichtung. Für den linksliegenden Gipfel besteht der Tonakzent aus der Abfolge HL, wobei der Ton L mit der metrisch starken Silbe („Ma-“) verbunden ist und daher den Schwerpunkt des Tonakzentes repräsentiert (H+L*). Das Umgekehrte trifft auf den rechtsliegenden Gipfel zu. Hierin gilt für den Tonakzent die Sequenz LH. Der initiale Ton wird mit der metrisch starken Silbe („Ma-“) assoziiert, wodurch dieser Tonakzent als L*+H zu kennzeichnen ist. Da die AM-Phonologie anders als das KIM zuvor (siehe 2.3.2) keinen experimental-phonologischen Ansatz verfolgt, sondern der Laborphonologie angehört, kann sich die vorgenommene Zuordnung der phoneti-
_____________ 9
GToBI wird von seinen Autoren als ein Transkriptionssystem für die Intonation des Deutschen auf AM-Basis bezeichnet. Durch viele Modifikationen hat sich GToBI allerdings so weit von einigen Grundpfeilern der AM-Phonologie von Pierrehumbert (1980) bzw. Beckman und Pierrehumbert (1986) emanzipiert, dass es über ein bloßes Transkriptionssystem hinaus einen eigenen Modellcharakter bekommt. GToBI wird daher – analog zur Sichtweise der englischen ToBI-Version von Ladd (1996) – als polysemer Begriff aufgefasst, der sowohl Modellkomponenten als auch ein Transkriptionssystem abdeckt. In dieser Arbeit soll GToBI lediglich in seiner Funktion als Transkriptionssystem bei der Beschreibung und Symbolisierung der Zeichen angewandt werden.
50 50
Einleitung Forschungsgegenstand
schen F0-Gipfel in Abbildung 3 zu H+L*, H* und L*+H nicht auf empirisch fundierte akustische Definitionen berufen. Die Zuordnung erfolgte daher mit Blick auf phonetische Anforderungen, die aus der phonologischen Komposition selbst heraus ableitbar sind und die mit Beschreibungen konform gehen, die Grice und Baumann (2000) für die Tonakzente H+L*, H* und L*+H des Deutschen gegeben haben. Diese derivierten akustischen Definitionen, anhand derer die Grenzen der phonetischen Variabilität der drei Tonakzente abgesteckt werden können, erhalten im Rahmen der vorliegenden Arbeit den gleichen Status wie die empirisch determinierten Definitionen des frühen, mittleren und späten Gipfels im KIM. Durch die phonologische Assoziation eines hohen Zieltons mit der Akzentsilbe verlangt H* nach einer akustischen Ausprägung des F0Verlaufs, bei der das F0-Maximum dieses hohen Zieltons innerhalb der (akustischen Grenzen der) Akzentsilbe realisiert wird. Ferner verfügt dieser Tonakzent über keine weiteren (tiefen) Zieltöne, die sich als F0-Minima im unmittelbaren phonetischen Umfeld des Gipfels befinden. Hieraus ist zu schließen, dass die An- und Abstiegsflanke des Gipfels geringe Steigungen aufweisen. Aus der Phonologie des Tonakzentes H+L* ergibt sich weitergehend, dass der F0-Gipfel auf der Silbe unmittelbar vor dem Akzent sein Maximum (den H-Ton) erreicht und dann, vorgegeben durch L*, nach einem deutlichen Abstieg in der Akzentsilbe ein F0-Minimum ausprägt. Der Tonakzent L*+H fordert einen gegenteiligen F0-Verlauf, bei dem sich als Folge von L* der tiefe Bereich vor dem Anstieg des F0Gipfels bis weit in die Akzentsilbe hinein erstreckt und der Hochpunkt des Gipfels in einer besonders steilen Bewegung erst in der einer der nachfolgenden Silben erreicht wird. Die Tonakzente H*, H+L* und L*+H bilden neben dem frühen, mittleren und späten Gipfel des Kieler Intonationsmodells KIM (siehe 2.3.2) die zweite Formgebungsalternative für die in der vorliegenden Arbeit untersuchte Zeichentriade. Da sich die drei Tonakzente in mehreren phonologischen Merkmalen voneinander unterscheiden, bilden sie im Gegensatz zu den drei Gipfelkonturen des KIM kein minimal set. Zusammengefasst wird die Form der einzelnen sprachlichen Zeichen im autosegmentell-metrischen Ansatz zum einen geprägt durch die Extraktion der phonologischen Zieltöne aus dem akustischen F0-Verlauf in Verbindung mit ihrer regressiven Bestimmung als H oder L. Zum zweiten wird die Zeichenform durch die hierarchisch organisierten Strukturstellen der Intonationsphrase mitgestaltet, die festlegen, welcher phonologische Ton bzw. Tonkomplex welchem Zeichen zugewiesen wird. Als Besonderheit der Tonakzente, für die als einzige Tonkomposita zugelassen sind, ergibt sich die Zeichenform zusätzlich über die drei daraus re-
Zum Begriff der Sprechmelodie Zusammenfassung
51 51
sultierenden Merkmale der Anzahl, Reihenfolge und Gewichtung der hierin subsummierten Töne. Dabei entstehen aus den phonetischen Sprechmelodiegipfeln in 2.2 anhand ihrer akustischen Abbilder die Tonakzente H*, H+L* und L*+H. Die dargestellte Zusammenfassung wird in Abbildung 7 illustriert. Die drei relevanten Zeichen sind hierin ganz rechts angeordnet.
Abbildung 7: Herleitung der vier gebundenen Zeichen und ihrer Form aus dem rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der AM-Phonologie. Zur besseren Illustration wurden zwei Vereinfachungen vorgenommen: Die hierarchische Organisation der Intonationsphrase wird nur in Teilen wiedergegeben und die phonologischen Zielpunkte werden ohne den Weg über F0 als direkt aus den auditiv-impressionistischen Tonhöhen der Abbildung 2 extrahiert dargestellt. Die Zeichen und ihre phonologischen Komponenten sind nach GToBI (Grice und Baumann 2000) symbolisiert.
2.5 Zusammenfassung des Forschungsgegenstandes Der Forschungsgegenstand der vorliegenden Arbeit ist in Abbildung 8 zusammengefasst. Am Ausgangspunkt stehen der linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel, die hinsichtlich ihrer akustischen Ausprägung mit prävokalischen, innervokalischen und postvokalischen F0-Gipfeln korrespondieren. Gemäß den Erläuterungen zu ihrer Bedeutung in 1.3.1 stimmen die drei Sprechmelodiegipfel in bestimmten Be-
52 52
Einleitung Forschungsgegenstand
deutungen überein. Zum Beispiel kann das tiefe Ende jeder Melodie im gleichen (u.a. lautlichen und situativen) Kontext eine Aussage signalisieren. Daneben unterscheiden sich die drei Gipfel in attitudinalen Bedeutungen. Diesem attitudinalen Bedeutungsunterschied, der mit den Attributen GEGEBEN vs. NEU vs. UNERWARTET beschrieben werden kann, liegen drei sprechmelodische Zeichen zugrunde, die im Mittelpunkt des Forschungsinteresses stehen. Insbesondere die genannte akustische Ausprägung dient als Grundlage für die phonologische Komposition dieser Zeichen in Form von frühen, mittleren und späten Gipfeln im Kieler Intonationsmodell KIM oder alternativ dazu als Tonakzente H+L*, H* und L*+H in der autosegmentell-metrischen (AM) Phonologie.
Abbildung 8: Forschungsgegenstand der vorliegenden Arbeit in einer Übersicht: Drei sprechmelodische Zeichen, ihre Bedeutungen und charakteristischen phonetischen Eigenschaften in Perzeption und Akustik. Letztere bilden die Grundlage für zwei alternative Zeichenformen, komponiert nach der Phonologie des KIM und der AM-Phonologie.
Es ist zu beachten, dass die alternativen Formen der behandelten Zeichentriade, die anhand der Phonologie des KIM und der AM-Phonologie entwickelt wurden, jenseits der für diese Arbeit relevanten theoriebedingten Abweichungen, auch eine unterschiedliche Perspektive in der Phonetik und Bedeutung beinhalten. Was die phonetische Perspektive anlangt, so repräsentieren die Zeichenformen des frühen, mittleren und späten Gip-
Zum Begriff der Sprechmelodie Zusammenfassung
53 53
fels im KIM die drei Sprechmelodie- bzw. F0-Gipfel als Ganzes. In der AM-Phonologie hingegen entstehen aus den drei Sprechmelodie- bzw. F0Gipfeln jeweils vier gebundene Zeichen, von denen jedes einen Teil der Phonetik des Gipfels abdeckt. Nur eines dieser Zeichen variiert zwischen den Melodien und bildet die relevante Zeichentriade, deren Mitglieder in GToBI als H+L*, H* und L*+H symbolisiert werden. Der Unterschied im Bedeutungsbezug, der mit beiden alternativen Zeichenformen einhergeht, ist durch einen Vergleich mit römischen und arabischen Ziffern zu illustrieren: Die Mengenangaben ‚einhundert’ und ‚fünfhundert’ sollen hierbei stellvertretend für die Gesamtbedeutungen je eines Sprechmelodiegipfels stehen. Beide Mengenangaben enthalten, genauso wie die Sprechmelodiegipfel, unterschiedliche und identische Mengen- bzw. Bedeutungselemente (entweder ‚ein-’ oder ‚fünf-’, aber in beiden Fällen ‚-hundert’). Das arabische Zahlensystem verhält sich nun ähnlich wie die AM-Phonologie. Es gliedert die Mengenangaben in ihre Bedeutungselemente auf und repräsentiert jedes Bedeutungselement durch eine separate Ziffer bzw. durch ein separates gebundenes Zeichen. Die identischen Bedeutungselemente werden durch identische (Abfolgen von) Ziffern wiedergegeben (<00>, im dargestellten Vergleich können das z.B. die Grenztöne sein). Die abweichenden Bedeutungselemente erhalten unterschiedliche Ziffern (<1> vs. <5>, dies entspricht den Tonakzenten der Sprechmelodiegipfel). Das römische Zahlensystem verfolgt eine andere Strategie. Die gleichen und ungleichen Bedeutungselemente beider Mengenangaben werden in ein gemeinsames Symbol integriert. Die Mengenangabe ‚einhundert’ wird durch
54 54
Einleitung Forschungsgegenstand
richteten Bezugs der beiden Gruppen von Zeichenformen aus der Phonologie des KIM und der AM-Phonologie möglich, sie als alternative phonologische Konzepte dreier sprechmelodischer Zeichen mit den Bedeutungen GEGEBEN, NEU und UNERWARTET zu betrachten. Die Bedeutungen werden nachfolgend als Etiketten für die drei Zeichen verwendet.
3 Vorliegende Erkenntnisse und weiterführende Hypothesen zu den sprechmelodischen Zeichen In diesem Kapitel werden Beobachtungen und experimentelle Befunde aus der Akustik und Perzeption präsentiert, die sich für die behandelte sprechmelodische Zeichentriade ergeben haben. Die Untersuchungen, auf die dabei Bezug genommen wird, sind sowohl unter dem Dach der Phonologie des Kieler Intonationsmodells KIM als auch unter dem Dach der AM-Phonologie entstanden. Beide Phonologien haben eine andere Vorstellung über die Form der behandelten sprechmelodischen Zeichen entwickelt (vgl. 2.3 und 2.4), die sich auch in der Nomenklatur der Zeichenformen widerspiegelt. Im KIM werden die Begriffe des frühen, mittleren und späten Gipfels verwendet. Die AM-Phonologie gebraucht (nach GToBI) die Symbolfolgen H+L*, H* und L*+H. In der Literatur wird die Nomenklatur der Zeichenformen in der Regel auch als Etikett für die sprechmelodischen Zeichen selbst verwendet. Um vor diesem Hintergrund die Präsentation der phonologieübergreifenden Erkenntnisse einheitlich zu gestalten, werden bei dem Verweis auf die sprechmelodischen Zeichen nicht die in der jeweiligen Literatur angetroffenen Etiketten benutzt. Stattdessen werden die für diese Arbeit eingeführten bedeutungsbezogenen Etiketten GEGEBEN, NEU und UNERWARTET verwendet (vgl. Abb. 8 und 2.5). Die im Folgenden vorgestellten Einblicke in die Übertragung und Wahrnehmung der drei sprechmelodischen Zeichen konzentrieren sich auf drei Bereiche: Die Gipfelgestalt, die Ausprägung der F0-Gipfelverläufe, die mit Beobachtungen zur Dauer und Intensität in Verbindung gebracht werden kann und die Gipfelhöhe. In jedem der drei Bereiche werden neben den Beobachtungen und Befunden zu den behandelten sprechmelodischen Zeichen des Standarddeutschen auch Beobachtungen und Befunde zu sprechmelodischen Zeichen anderer Sprachen beschrieben, die vergleichbare phonetische Ausprägungen wie die standarddeutschen Zeichen besitzen und insofern auch phonologisch vergleichbar analysiert werden können, die aber in vielen Fällen eine andere Bedeutung haben. Auf dieser Grundlage wird erstens diskutiert werden, inwieweit die Beobachtungen und Befunde mit den alternativen phonologischen Kom-
56 56
Einleitung Erkenntnisse und Hypothesen
positionen der Zeichen im Einklang stehen. Zweitens werden im Rahmen der Präsentation der vorliegenden Erkenntnisse auch Erkenntnislücken sichtbar werden. Hieraus ergeben sich für jeden der drei Bereiche weiterführende Hypothesen, denen im nachfolgenden Kapitel 4 experimentell nachgegangen wird.
3.1 Einfluss der Gipfelgestalt auf die Wahrnehmung der sprechmelodischen Zeichen 3.1.1 Beobachtungen und Befunde zur Gipfelgestalt Ausgehend vom Kieler Intonationsmodell KIM hat Niebuhr (2003a, b) den Einfluss der Gipfelgestalt auf die Wahrnehmung der Zeichen GEGEBEN und NEU erforscht. Die Gipfelgestalt beschreibt die Neigung der Gipfelflanken als Folge der Entfernung des Gipfelmaximums vom Beginn des Anstiegs und Ende des Abstiegs (hiervon zu unterscheiden ist die Gipfelhöhe, die in 3.3.1 definiert wird). Die Methode seines Perzeptionsexperimentes hat sich an der von Kohler (1987, 1991c) orientiert, die im Abschnitt 2.3.2 dargelegt wurde. Es wurden auf der Grundlage der (vom Autor) natürlich produzierten und durchgängig stimmhaften Äußerung „Sie war mal Malerin“ durch PSOLA-Resynthese in praat vier identische Synchronisationsräume mit verschieden gestalteten F0-Gipfeln über der einzigen Akzentsilbe „Ma-“ aus „Malerin“ erzeugt (Informationen zu praat finden sich unter www.praat.org; weitere Details zum Resyntheseverfahren werden von Moulines und Charpentier 1990 beschrieben). Die F0-Gipfel wurden gebildet, indem zwei verschiedene Transitionsdauern mit der an- und absteigenden Flanke kombiniert wurden. Hierdurch entstanden vier unterschiedliche Gipfelgestalten, zwei symmetrische und zwei asymmetrische. Die symmetrischen waren entweder durch einen beidseitig steilen oder flachen F0-Verlauf gekennzeichnet, die beiden asymmetrischen besaßen jeweils eine steile und flache Flanke. Die steilen Gradienten wurden so gewählt, dass sie im Bereich der physiologischen Grenze der F0-Dynamik lagen, die von Xu und Sun (2000, 2002) anhand speziell dafür erhobener Sprachdaten abgeschätzt wurde. Die flachen Gradienten waren jeweils nur halb so stark geneigt. Nach ´t Hart et al. (1990) ist dadurch sichergestellt, dass sie perzeptorisch von den steilen Gradienten unterschieden werden konnten. Die vier verwendeten Gipfelgestalten steil-steil (s/s), flach-flach (f/f), steil-flach (s/f) und flach-steil (f/s) sowie Geschwindigkeit und Dauer ihrer An- und Abstiege sind in Abbildung 9 dargestellt. Der Anstieg erstreckte sich in allen Gipfelgestalten über etwa 6, der Abstieg über etwa fünf Halbtonschritte (semitones, st).
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
57 57
Abbildung 9: Gradienten und Transitionsdauern der vier F0-Gipfelgestalten über der Akzentsilbe „Ma-“ aus „Sie war mal Malerin” in den Experimenten von Niebuhr (2003a, b).
Der Synchronisationsraum zu jeder F0-Gipfelgestalt bestand aus 11 Gipfelpositionen, die (auf einer linearen Zeitskala) einen äquidistanten Abstand von 20ms zueinander hatten. Die Extrempositionen lagen jeweils 100ms vor und nach dem Beginn des Vokals der Akzentsilbe „Ma-“ (die Position eines Gipfels wird mit Bezug auf sein F0-Maximum angegeben). Auf dieser Grundlage entstanden für jede Gipfelgestalt 11 resynthetisierte Äußerungen, die sich in der Position des F0-Gipfels voneinander unterschieden. Sie gingen getrennt voneinander als Stimuli in Paardiskriminationstests und Identifikationstests ein (für letzteres siehe 2.3.2). Als Kontext des Identifikationstests wurde wie bei Kohler (1987, 1991c) die Äußerung „Jetzt versteh’ ich das erst“ gewählt, die mit den Zeichen NEU auf der einzigen Akzentsilbe „-steh“ produziert wurde. Der Kontext wurde, ebenso wie die Stimulusäußerungen „Sie war mal Malerin“, vom Autor gesprochen und letzteren ohne Manipulation vorangestellt. Die Ergebnisse der Experimente von Niebuhr (2003a, b) zeigen eine deutliche Beeinflussung der Wahrnehmung der beiden Zeichen GEGEBEN und NEU durch die vier Gipfelgestalten10. Zwar ist gestaltunabhängig ein Umkippen von GEGEBEN zu NEU über den Synchronisationsraum hinweg festzustellen, der Umkipppunkt kann jedoch mit unterschiedlichen Positionen des Raumes assoziiert werden. Als Umkipppunkt galt diejenige _____________ 10
Welches sprechmelodische Zeichen die Versuchspersonen in den Stimuli wahrgenommen haben, wurde aus der unterschiedlichen Beurteilung der Kontext-Stimulus-Paare als zusammenpassend oder nicht zusammenpassend bestimmt. Basierend auf der Annahme, dass der gewählte Kontext mit dem Zeichen GEGEBEN in den nachfolgenden Stimuli nicht kompatibel sein würde, indiziert ein Zusammenpassen beider Äußerungen z.B. die Wahrnehmung des Zeichens neu in den Stimuli. Siehe hierzu auch 2.3.2.
58 58
Einleitung Erkenntnisse und Hypothesen
Gipfelposition bzw. derjenige Stimulus, der durch das Paar mit dem Diskriminationsmaximum überspannt wurde und gleichzeitig die 50%Marke in der Identifikationsfunktion überschritt. So werden die flach-flachen und steil-flachen Gipfel (f/f und s/f) bereits von den Versuchspersonen als das Zeichen NEU wahrgenommen, wenn sich das F0-Maximum noch vor dem akzentuierten Vokal befindet. Die flach-steile und steilsteile Gipfelgestalt (f/s und s/s) führt hingegen erst dann zur Wahrnehmung des Zeichens NEU, wenn das F0-Maximum nach der Vokalgrenze liegt, F0 also noch in den Vokal hinein ansteigt. Ein ähnlicher Zeitpunkt für die Veränderung des Wahrnehmungseindrucks wurde auch von Kohler (1987, 1991c) angegeben, wobei die Gestalt des von ihm konstruierten Gipfels am ehesten mit steil-steilen Gipfelgestalt s/s in den Experimenten von Niebuhr (2003a, b) verglichen werden kann. Insofern werden die Befunde von Niebuhr teilweise durch vorangegangene Perzeptionsexperimente untermauert. Abbildung 10 fasst die Positionen der F0-Gipfel zusammen, die nach den Ergebnissen von Niebuhr die Grenze zwischen den beiden Zeichen GEGEBEN und NEU markiert haben.
Abbildung 10: Schematische Darstellung der F0-Gipfelpositionen zum Vokalbeginn der Akzentsilbe (Von), die nach den Ergebnissen von Niebuhr (2003a, b) als Grenze zwischen der Wahrnehmung der beiden Zeichen GEGEBEN und NEU betrachtet werden können. Es finden sich gestaltabhängige Grenzen.
Neben der gestaltbedingten Verschiebung des Zeitpunktes, bei dem die Wahrnehmung innerhalb des Synchronisationsraumes von GEGEBEN zu NEU überwechselt, finden sich auch in den beiden Bereichen des Synchronisationsraumes, in denen die Wahrnehmung eines der beiden sprechmelodischen Zeichen klar dominiert, Unterschiede, die als Effekt der Gipfel-
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
59 59
gestalt aufzufassen sind. So zeigen zum Beispiel Vergleiche zwischen den Gipfelgestalten s/f und f/f sowie s/s und f/s (vgl. Abb. 9), dass die beiden F0-Gipfel mit der steilen Anstiegsflanke s/f und s/s ein deutlicherer Indikator für das Zeichen NEU waren als die beiden F0-Gipfel mit der flachen Anstiegsflanke f/s und f/f. Die Neigung der Abstiegsflanke allein – das heißt ohne gleichzeitige Veränderung der Anstiegsneigung – hat in dem Bereich des Synchronisationsraumes, in dem die Wahrnehmung des Zeichens NEU dominiert (dieser Bereich umfasst primär die innervokalischen F0-Gipfel), keinen Effekt gehabt. Ein solcher Effekt der Abstiegsflanke zeigt sich hingegen für die flach ansteigenden F0-Gipfel f/f und f/s in dem Bereich des Synchronisationsraumes, in dem vor allem das Zeichen GEGEBEN perzipiert wird (dies betrifft in erster Linie prävokalische Gipfelpositionen). F0-Gipfel mit f/f-Gestalt werden hier seltener als GEGEBEN identifiziert als f/s-Gipfel. Dafür bleibt in diesem Synchronisationsbereich die Veränderung der Neigung der Anstiegsflanke allein ohne Wirkung auf die Wahrnehmung der Zeichen GEGEBEN und NEU.11 Letztlich hat die Gipfelgestalt auch Auswirkungen auf die Schärfe des Übergangs zwischen den Zeichen GEGEBEN und NEU. Dabei gilt, dass die Schärfe mit zunehmender Gipfelbreite nachlässt. Das heißt, der spitze Gipfel (s/s) ist durch ein sehr schnelles Umkippen von GEGEBEN zu NEU über die einzelnen Gipfelpositionen des Synchronisationsraumes gekennzeichnet. Im Falle des stumpfen Gipfels (f/f) geschieht das Umkippen von GEGEBEN zu NEU deutlich weniger abrupt. Für die asymmetrischen F0-Gipfel s/f und f/s ist die Dynamik im Überwechseln vom Zeichen GEGEBEN zum Zeichen NEU zwischen der von s/s und f/f anzusiedeln. Aus dem autosegmentell-metrischen Forschungsumfeld gibt es Belege dafür, dass die Gipfelgestalt die Wahrnehmung von sprechmelodischen _____________ 11
Es ist zu beachten, dass derartige Interpretationen von Ergebnissen eines Identifikationstests vor dem Hintergrund eines Inventars sprechmelodischer Zeichen grundsätzlich aus mehr als einer Perspektive möglich sind. Bezogen auf den beschriebenen Einfluss der Gipfelgestalt, kann z.B. statt der Interpretation, dass die steile Anstiegsflanke in einem bestimmten Synchronisationsbereich ein deutlicherer Indikator für die Wahrnehmung des Zeichens NEU war, auch die Interpretation gegeben werden, dass die flachere Anstiegsflanke in diesem Bereich ein deutlicherer Indikator für die Wahrnehmung des Zeichens GEGEBEN war. In der vorliegenden Arbeit werden in der Regel die einzelnen Ergebnisse aus jeweils nur einer Perspektive dargestellt. Die Wahl der Perspektive erfolgt entweder mit Blick auf Erkenntnisse zur akustischen Ausprägung der sprechmelodischen Zeichen (z.B. anhand der charakteristischen Synchronisationsbereiche der F0-Gipfel der Zeichen, vgl. 2.2), oder sie richtet sich nach dem Zeichen, das über die Versuchspersonengruppe betrachtet die Wahrnehmung dominiert (in vielen Fällen führen beide Kriterien zur gleichen Perspektive). Dieser perspektivische Hinweis ist auch deswegen relevant, da die gewählte Perspektive auch in die weiterführenden Hypothesen einfließt und damit ebenfalls die Präsentation und Diskussion der Perzeptionsergebnisse aus den eigenen Untersuchungen in Kapitel 4 prägt.
60 60
Einleitung Erkenntnisse und Hypothesen
Zeichen auch in anderen Sprachen beeinflusst. Die Erläuterungen aus 2.2 zugrundelegend, sind die betreffenden sprechmelodischen Zeichen durch eine ähnliche Phonetik wie die Zeichen GEGEBEN und NEU des Standarddeutschen gekennzeichnet, allerdings mit anderer Bedeutung. Im neapolitanischen Dialekt des Italienischen wird ein solches Zeichenpaar zur Differenzierung des Satzmodus verwendet, wobei das phonetische Pendant zu GEGEBEN eine (kontrastive) Aussage und das phonetische Pendant zu NEU eine Entscheidungsfrage signalisiert. D’Imperio und House (1997) führten Experimente zur Wahrnehmung des Satzmodus in der Äußerung „Mamma andava a ballare da Lalla“ (‚Mutter ging gewöhnlich bei Lalla zum Tanzen’) durch, in der „La-“ aus dem phrasenfinalen Wort „Lalla“ die relevante Akzentsilbe war. Sie wollten die Schärfe und die genaue Position des Übergangs zwischen Aussage und Frage untersuchen. Zu diesem Zweck gingen sie von zwei natürlichen Produktionen der genannten Äußerung aus, eine Frage und eine Aussage. Auf Basis der darin vorkommenden F0-Gipfel erzeugten sie in beiden Äußerungen identisch aufgebaute Synchronisationsräume über der Silbe „La-“. Dabei ignorierten sie, dass die verschobenen F0-Gipfel unterschiedlich lange und entsprechend unterschiedlich steile Anstiege aufwiesen. Im Rahmen der Identifikation der Stimuli beider Synchronisationsräume als Aussage oder Frage durch Muttersprachler der neapolitanischen Varietät des Italienischen finden D’Imperio und House ein deutliches und abruptes Umkippen. Darüber hinaus zeigen ihre Ergebnisdaten jedoch analog zu den Befunden von Niebuhr (2003a, b), dass der stumpfere (f/fähnliche) F0-Gipfel bei gleicher Position vor dem Beginn des akzentuierten Vokals weniger Aussage-Urteile erhält und bei der Verschiebung hin zu innervokalischen Positionen schneller zur Wahrnehmung von Frage überwechselt als der spitzere (s/f-ähnliche) F0-Gipfel. Zudem war der Übergang zwischen Aussage und Frage wie bei Niebuhr für den stumpferen Gipfel durch größere Variabilität zwischen den Urteilen der Probanden gekennzeichnet und somit insgesamt weniger scharf. Ein Einfluss der Gipfelgestalt wird auch von Gósy und Terken (1994) bei der Differenzierung von Frage und Aussage im Ungarischen gefunden, die mit ähnlichen sprechmelodischen Mitteln kodiert sind wie im neapolitanischen Dialekt des Italienischen. Im Gegensatz zu der Studie von D’Imperio und House (1997) wurde bei Gósy und Terken jedoch die F0-Gipfelgestalt gezielt manipuliert. Sie zeigen anhand von Identifikationsexperimenten, dass ein flach-steiler F0-Gipfel sowohl vor dem Vokal als auch im Vokal seltener als Frage identifiziert wurde als ein steil-flacher F0-Gipfel. Auch diese Effekte der Gipfelgestalt decken sich mit denjenigen, die im Rahmen der Identifikation der beiden Zeichen GEGEBEN und NEU bei Niebuhr (2003a, b) aufgetreten sind.
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
61 61
3.1.2 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Gipfelgestalt Für die drei sprechmelodischen Zeichen GEGEBEN, NEU und werden in der Phonologie des Kieler Intonationsmodells KIM die Zeichenformen des frühen, mittleren und späten Gipfels gebildet. Die Zeichenform des späten Gipfels kann an dieser Stelle nicht vor einem empirischen Hintergrund evaluiert werden, da zu dem zugrundeliegenden sprechmelodischen Zeichen bislang noch keine Erkenntnisse bezüglich der Gipfelgestalt vorliegen. Aus den Erkenntnissen zu den Zeichenformen GEGEBEN und NEU bzw. zu verwandten Zeichen aus anderen Sprachen lässt sich jedoch Grundsätzliches über die vorgeschlagenen Zeichenformen sagen. So ist nach der phonologischen Formgebung des KIM generell keine Beeinflussung der Wahrnehmung der Zeichen durch Veränderungen in der Gipfelgestalt zu erwarten, wie sie von Niebuhr (2003a, b) zum Beispiel für die Zeichen GEGEBEN und NEU gefunden wurde. Die Zeichenformen des KIM sehen als Differenzierungsmerkmale neben der Position der F0Kontur zwar die Verlaufsqualität vor. Die von Niebuhr unter dem Aspekt der Gipfelgestalt vorgenommenen Veränderungen an der Verlaufsqualität lassen jedoch die Zuordnung der F0-Verläufe zur phonologischen Formklasse der ‚Gipfel’ unberührt. Es bleiben immer steigend-fallende Verläufe. Darüber hinaus waren die F0-Gipfel unabhängig von ihrer Gestalt an einzelnen 11 Stellen des Verschiebungsrasters über die Synchronisationsräume hinweg betrachtet gleich positioniert. Das heißt, auch im Hinblick auf die Formkomponenten ‚früh’ und ‚mittel’, die an die Gipfelposition geknüpften sind, lagen für die vier Gipfelgestalten an jeder Stelle des Verschiebungsrasters die gleichen Voraussetzungen vor. Vor dem letztgenannten Hintergrund ist es ein besonderes Problem für die Zeichenformen des frühen und mittleren Gipfels, dass den Resultaten von Niebuhr zufolge die Grenze zwischen der Wahrnehmung der Zeichen GEGEBEN und NEU für F0-Gipfel mit der flach-flachen Gipfelgestalt f/f bereits in prävokalischer Position gezogen werden kann. Die Zeichenformen des frühen und mittleren Gipfels separieren beide Zeichen an der Grenze zum Akzentvokal. Prävokalisch liegende F0-Gipfel – determiniert durch der Lage des F0-Maxiums – gehören hiernach zum Zeichen GEGEBEN, während innervokalisch liegende F0-Gipfel dem Zeichen NEU zuzuordnen sind. Das Durchbrechen dieser Zuordnungskriterien durch die Befunde von Niebuhr schwächt das phonologisch-temporale Konzept des KIM, in dem signifikante Konturpunkte in Relation zu segmentellen Landmarken betrachtet werden. Für die im AM-Rahmen angenommene Zeichenform H* stellt es hingegen kein Problem dar, dass das zugrundeliegende sprechmelodische UNERWARTET
62 62
Einleitung Erkenntnisse und Hypothesen
Zeichen NEU bei der f/f-Gipfelgestalt bereits vor dem Beginn des Akzentvokals perzipiert wird. In der AM-Phonologie ist H* mit der Akzentsilbe als Ganzes assoziiert. Entsprechend ist die phonetische Positionierung (alignment) des F0-Maximums, das den H-Ton repräsentiert, irrelevant. Die phonologische Assoziation gibt lediglich vor, dass sich das F0-Maximum innerhalb der Akzentsilbe ausprägen muss (in diesem Fall „Ma-“ in „Malerin“). Im Rahmen der Domäne der Akzentsilbe ergibt sich jedoch ein anderes Problem, das für die Zeichenformen des KIM nicht besteht. Die Synchronisationsräume, innerhalb derer die verschieden gestalteten F0Gipfel in der Untersuchung von Niebuhr (2003a, b) verschoben wurden, erstrecken sich nicht über den Beginn der Akzentsilbe hinaus. Das heißt, das Maximum des F0-Gipfels befindet sich immer in der Akzentsilbe. Die Daten von Niebuhr zeigen unter diesen Voraussetzungen unabhängig von der Gipfelgestalt einen Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU und belegen somit, dass auch F0-Gipfel, deren Maxima sich innerhalb der Akzentsilbe ausprägen, als das sprechmelodische Zeichen GEGEBEN gehört werden können. Die Zeichenformen der AM-Phonologie sehen dies nicht vor, insbesondere dann nicht, wenn eine Vorakzentsilbe vorhanden ist, auf der sich das F0Maximum ausprägen kann. Es existieren noch weitere Unstimmigkeiten zwischen der Wahrnehmung der sprechmelodischen Zeichen bzw. der ihr zugrundeliegenden Phonetik und den in der AM-Phonologie erstellten Zeichenformen. Die Zeichenform H+L* des Zeichens GEGEBEN sieht zum Beispiel vor, dass der L-Ton, der durch das Ende des Abstiegs vom Gipfel repräsentiert wird, innerhalb der Akzentsilbe auftritt, während das H in einem konstanten Abstand zum L davor liegt. Die Gipfelgestalten mit flachem Abstieg s/f und f/f prägen sich aber in einem bestimmten Bereich des Synchronisationsraumes in den Experimenten von Niebuhr (2003a, b) so aus, dass das Ende des Abstiegs vom F0-Gipfel erst in der nächsten Silbe erreicht wird, während das F0-Gipfelmaximum wie erwähnt innerhalb der Akzentsilbe (genauer innerhalb des Akzentvokals) liegt. Diese phonetische Konfiguration ist der Zeichenform H* zuzuordnen. Dennoch dominiert für solche F0-Gipfel die Wahrnehmung des sprechmelodischen Zeichens GEGEBEN und nicht NEU. Ferner besagt die Zeichenform des eingliedrigen Tonakzentes H*, dass ausschließlich das F0-Maximum und dessen phonologische Assoziation bzw. phonetische Koinzidenz mit der Akzentsilbe entscheidend für die Wahrnehmung des sprechmelodischen Zeichens NEU ist. Die aufgezeigten Einflüsse der Gipfelgestalt stehen hierzu im Widerspruch. Anders als im Falle der Zeichenformen der KIM-Phonologie erscheint aber zumindest ein Teil der gefundenen Einflüsse der Gipfelgestalt
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
63 63
durch die Zeichenformen, wie sie in der AM-Phonologie konzipiert sind, abgedeckt bzw. erklärbar. Hierzu zählt, dass im Rahmen der Wahrnehmung des Zeichens GEGEBEN nur die Abstiegsflanke und im Rahmen der Wahrnehmung des Zeichens NEU nur die Aufstiegsflanke eine Auswirkung auf die Zeichenerkennung gehabt hat. Dass sich die Abstiegsflanke des F0-Gipfels für die Wahrnehmung des Zeichens GEGEBEN als relevant herausgestellt hat, kann auf das rigide Zeitintervall zurückzuführen sein, das für die Zeichenform H+L* zwischen dem mit der Akzentsilbe assoziierten tiefen tonalen Schwerpunkt und dem vorangehenden hohen Zielton postuliert wird. Möglicherweise hat die steilere der beiden ansteigenden Gipfelflanken dem erforderlichen Zeitintervall besser entsprochen als die flachere. In Verbindung mit dem Zeichen NEU hat die absteigende Gipfelflanke keinen relevanten perzeptorischen Effekt gehabt. Dies könnte in der AM-Phonologie erklärt werden, indem angenommen wird, dass es sich bei dem F0-Tiefpunkt am Abstiegsende, dessen Lage für die Ausprägung der Neigung der Abstiegsflanke ausschlaggebend ist, um den Phrasenton L- handelt. Da dieser in der AM-Phonologie als ein eigenständiges Bedeutungselement in der untersuchten Sprechmelodie und dementsprechend als eigenständiges Zeichen behandelt wird, wäre es plausibel, dass sich dessen phonetische Ausprägung nicht auf die Beurteilung der Zeichen GEGEBEN und NEU auswirkt. In der Gesamtbeurteilung beider Zeichenformalternativen vor dem Hintergrund der Erkenntnisse zur Gipfelgestalt ergibt sich somit ein leichter Vorteil für die im AM-Rahmen entwickelten Zeichenformen. Dieser Vorteil besagt jedoch nicht automatisch, dass das Tonsequenzkonzept dem Konturkonzept vorzuziehen ist (eine ausführliche Abwägung beider Konzepte wird unter Einbeziehung der eigenen Experimente und der daraus entwickelten Zeichenformen in 7.1 und 8.1 gegeben). Für beide Zeichenformalternativen verbleiben deutlich erkennbare Unstimmigkeiten zwischen den theoretischen Anforderungen der Zeichenformen an die phonetische Ausprägung der Zeichen und deren tatsächlichen phonetischen Ausprägungsmöglichkeiten. Dies gilt insbesondere mit Blick auf die Verknüpfung der Zeichen mit den lautlichen Domänen der Akzentsilbe und ihres Vokalbeginns. 3.1.3 Weiterführende Hypothesen zur Gipfelgestalt Die bisherigen Untersuchungen zum perzeptorischen Einfluss der Gipfelgestalt auf die Wahrnehmung der in dieser Arbeit behandelten Zeichentriade beschränken sich auf die beiden Zeichen GEGEBEN und NEU. Erkenntnisse zum Zeichen UNERWARTET liegen bislang nicht vor. Diese Erkenntnislücke soll in einer nachfolgenden eigenen Untersuchung geschlos-
64 64
Einleitung Erkenntnisse und Hypothesen
sen werden. Ausgehend von den Ergebnissen aus der Untersuchung von Niebuhr (2003a, b) und Kohler (1987, 1991c) zum Standarddeutschen und in Anlehnung an die hierbei verwendete Methode werden die folgenden Hypothesen aufgestellt: (A1)
(A2) (A3)
Unabhängig von Effekten der Gipfelgestalt kann durch die Verschiebung eines F0-Gipfels von einer innervokalischen zu einer postvokalischen Position ein Übergang von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET erreicht werden. Die Gipfelgestalt hat einen Effekt auf die Wahrnehmung beider Zeichen. F0-Gipfel mit steilem Anstieg der Art s/f und s/s unterstützen gegenüber F0-Gipfeln mit flachem Anstieg f/s und f/f die Wahrnehmung des Zeichens NEU.
Dass der Wahrnehmungsübergang zwischen NEU und UNERWARTET in Hypothese (A1) mit dem Übergang des F0-Gipfels aus einer innervokalischen zu einer postvokalischen Position erwartet wird, ergibt primär sich aus den Untersuchungen von Kohler (1987, 1991c), auf denen auch die Zeichenformen gegründet sind (vgl. 2.3.2). Neben den Befunden von Kohler (1987, 1991c) berücksichtigt Hypothese (A1) darüber hinaus, dass die Gipfelposition bei Niebuhr (2003a, b) ein bedeutsamerer Indikator für die sprechmelodischen Zeichen war als die Gipfelgestalt, da beide beteiligten Zeichen gestaltunabhängig perzipiert werden konnten. Was den in (A1) genannten Übergang von der Wahrnehmung des einen zur Wahrnehmung des anderen Zeichens anlangt (auch als Wahrnehmungsveränderung bezeichnet), soll für die vorliegende Arbeit die gleiche Definition gelten wie bei Niebuhr (2003a, b). Das heißt, ein solcher Übergang liegt dann vor, wenn die Identifikation über alle Versuchspersonen hinweg mehrheitlich und nachhaltig vom einen zum anderen Zeichen umschwenkt. Die übrigen Hypothesen (A2) und (A3) beruhen ausschließlich auf den Ergebnissen von Niebuhr (2003a, b). Während die Hypothese (A2) aus den Befunden insgesamt abgeleitet wurde, nimmt die Hypothese (A3) speziellen Bezug auf die Ergebnisse zum Zeichen NEU, dessen Wahrnehmung im Rahmen nicht-prävokalischer Gipfelpositionen nur durch die Neigung der ansteigenden Gipfelflanke beeinflusst wurde, wobei sich steilere Gipfelflanken als ein deutlicherer Indikator für dieses Zeichen herausgestellt haben. Im Gegensatz zum Experiment von Niebuhr (2003a, b) enthalten die weiterführenden Hypothesen keine Angaben zum Einfluss der Gipfelgestalt auf die Schärfe des Übergangs zwischen den sprechmelodischen Zeichen NEU und UNERWARTET. Um klare Aussagen hierüber treffen zu
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
65 65
können, wären neben den Identifikationstests auch Diskriminationstests erforderlich, auf deren Durchführung im Rahmen dieser Arbeit jedoch verzichtet wird, da sie für die primäre Fragestellung nicht relevant sind.
3.2 Die Ausprägung der F0-Gipfel der Zeichentriade und ihre Implikation für einen Einfluss von Dauer und Intensität 3.2.1 Beobachtungen und Befunde zur Ausprägung der F0-Gipfel Während die im vorangegangenen Abschnitt präsentierten Erkenntnisse zur Gipfelgestalt anhand von Wahrnehmungsexperimenten gewonnen wurden, wird dieser Abschnitt vor allem Untersuchungen zur akustischen Ausprägung der drei Zeichen GEGEBEN, NEU und UNERWARTET behandeln und sich dabei auf die Verlaufseigenschaften der F0-Gipfel, insbesondere der Anstiegsflanke, konzentrieren. Einen der wichtigsten Beiträge hierzu leistet die Studie von Gartenberg und Panzlaff-Reuter (1991). Gartenberg und Panzlaff-Reuter (1991) erforschen die Zeichentriade vor dem Hintergrund des Kieler Intonationsmodells KIM. In ihrer umfangreichen akustischen Analyse untersuchen sie die Verlaufseigenschaften der dazugehörigen F0-Gipfel in verschiedenen lautlich variierten Kontexten. Allen diesen Kontexten war gemeinsam, dass die Silbe, über der sich die Gipfel ausprägten, die einzige und somit nukleare12 Akzentsilbe war. Zur Elizitation der Sprachdaten wurden kurze Satzrahmen der Art „Sie ___“ und „Das ist eine ___“ verwendet. Die freien Strukturstellen gehören entweder zu einem Subjekt oder einem Prädikat. Bei den lautlichen Gebilden, die an den genannten Strukturstellen platziert wurden, handelte es sich entweder tatsächlich um entsprechende Wortformen des Deutschen oder um Kunstwörter. Sie waren jeweils ein- oder zweisilbig, wobei die Akzentsilbe immer die erste Silbe des (Kunst-)Wortes war. Auf diese Weise konnte die Ausprägung der F0Gipfel zu jedem der drei Zeichen unter völlig parallelen Bedingungen betrachtet werden. Diese Bedingungen umfassten die Struktur der Akzentsilbe (Anzahl und Eigenschaften der Segmente und Kopf, Kern und Koda, vgl. hierzu das Konstituentenmodell der Silbe bei Wiese 1988) und die Anzahl der Silben bis zum Satz- bzw. Phrasenende (0-1). Die Einbettung der Akzentsilbe in den beschriebenen grammatischen Rahmen _____________ 12
Die nukleare Akzentsilbe repräsentiert die letzte Akzentsilbe der Phrase. Die Differenzierung zwischen nuklearen und pränuklearen Akzenten stammt aus der Theorie der britischen Intonationsschule, in der die nuklearen Akzentsilben bzw. die an sie gekoppelten Sprechmelodien eine phonetische und funktionale Sonderstellung einnehmen, vgl. z.B. Kingdon (1958).
66 66
Einleitung Erkenntnisse und Hypothesen
sollte eine eindeutige und konsistente Akzentuierung bei der Produktion der Sätze gewährleisten (vgl. Kohler 1995). Gartenberg und Panzlaff-Reuter finden für die F0-Gipfel der Zeichentriade, dass sich ihre Verlaufseigenschaften unter den variierten Bedingungen deutlich verändern. Bezüglich des Zeichens NEU können die wesentlichen Aspekte dieser Veränderungen vom Einsatz des Akzentvokals aus betrachtet durch drei Punkte umrissen werden: Bei konstanter Silbenzahl bis zur Phrasengrenze verschoben kleinere Dauern des akzentuierten Vokals das Maximum des F0-Gipfels, das immer im Vokal gefunden wurde, zur initialen Vokalgrenze hin. Diese Linksverschiebung war unabhängig davon, ob die kleineren Dauern auf phonologische Quantität oder Unterschiede im Öffnungsgrad zurückgehen. Das Vorhandensein einer unakzentuierten Silbe nach der Akzentsilbe wirkte unter konstanten segmentellen Bedingungen in die entgegengesetzte Richtung. Das heißt, das F0-Maximum des Zeichens NEU folgte in größerem Abstand auf den Einsatz des Akzentvokals und verlagerte sich dabei gleichzeitig zum Vokalende hin. Die Frequenzwerte der drei Eckpunkte F0-Gipfels, Anstiegsbeginn, Gipfelmaximum und Abstiegsende, blieben dabei weitgehend unverändert. Letztlich deutet sich durch die bei Gartenberg und Panzlaff-Reuter skizzierten F0-Konturen an, dass der Beginn des Anstiegs zum F0-Gipfel immer eng mit dem Beginn der Akzentsilbe koordiniert war. Die zuvor beschriebenen Verschiebungen des F0-Maximums führten daher zu einer variablen Anstiegsdauer bzw. neigung. Die drei genannten Punkte sind in Abbildung 11 anhand zweier Darstellungen des F0-Verlaufs des sprechmelodischen Zeichens NEU in den Sätzen „Sie macht“ und „Sie machen“ illustriert. Die Darstellung wurde modifiziert von Gartenberg und Panzlaff-Reuter (1991) übernommen. Die beiden Äußerungen wurden vom männlichen Sprecher kk produziert. Den Angaben von Gartenberg und Panzlaff-Reuter zufolge liegt das F0-Maximum für die Äußerung „Sie macht“, gemittelt über mehrere Produktionen des Sprechers kk, durchschnittlich 63ms vom Vokalbeginn entfernt. Das heißt, der Anstieg endet nach 42% der durchschnittlichen Vokaldauer. Im Falle der Äußerung „Sie machen“ ist das F0-Maximum etwa um die Hälfte weiter vom Einsatz des Akzentvokals entfernt (89ms) und endet, da der Vokal zudem kürzer ist, erst nach 78% der durchschnittlichen Vokaldauer. Für andere Sprecher finden sich leicht andere, aber insgesamt ähnliche Werte.
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
67 67
Abbildung 11: Oszillogramm (oben) und F0-Verlauf (unten) der Äußerungen „Sie macht“ (links) und „Sie machen“ (rechts) mit dem F0-Verlauf eines mittleren Gipfels, produziert vom Sprecher kk. Vertikale Linien markieren die Grenzen des Vokals der Akzentsilbe „ma-“. Die Darstellungen wurden modifiziert entnommen aus Gartenberg und Panzlaff-Reuter (1991).
Was das Zeichen UNERWARTET anlangt, so zeigten die Realisierungen der dazugehörigen F0-Gipfel wie im Falle des Zeichens NEU eine sehr variable Positionierung des Gipfelmaximums. Auch die Wirkungsweise der untersuchten Einflussfaktoren auf die Position des F0-Maximums erwies sich als ähnlich. Entsprechend wurde das Gipfelmaximum, das in innervokalischer Position am dichtesten auf den Akzentvokalbeginn folgte, wie beim Zeichen NEU unter der Bedingung einer phrasenfinalen Akzentsilbe mit kurzer Vokaldauer gefunden. In diesen Fällen wurde das F0-Maximum im letzten Drittel des Vokals produziert. Folgte eine unakzentuierte Silbe zwischen der Akzentsilbe und der Phrasengrenze, entfernte sich das F0-Maximum vom Vokalbeginn und wurde über die Grenze der akzentuierten Silbe hinaus in die nächste Silbe geschoben (eine Abbildung hierzu findet sich bei Gartenberg und Panzlaff-Reuter 1991:37). Anders als im Falle des Zeichens NEU zeigt sich für die Ausprägung der F0-Gipfel des Zeichens UNERWARTET zudem ein Einfluss der Struktur der Akzentsilbe. So wurde das Gipfelmaximum für stimmhafte Segmente in der Silbenkoda in größerer Distanz zum Beginn des Akzentvokals produziert, zumeist in der stimmhaften Silbenkoda selbst. Als weiteren Unterschied zu den F0-Verläufen des Zeichens NEU haben Gartenberg und Panzlaff-Reuter in den F0-Verläufen des Zeichens UNERWARTET auch eine systematische Verschiebung des Anstiegs zum F0-Gipfel festgestellt. Dabei verschob sich der Beginn des Anstiegs parallel zur Lage des Gipfelmaximums, jedoch in geringerem zeitlichem Umfang. Im Rahmen dieser Verschiebung befand sich der Anstiegsbeginn zudem nicht wie im Falle des Zeichens NEU im Bereich des Beginns der Akzentsilbe. Vielmehr war der Anstiegsbeginn immer nach dem Einsatz des
68 68
Einleitung Erkenntnisse und Hypothesen
Akzentvokals (also in innervokalischer Position) zu finden. Bei einer Verschiebung des Anstiegsbeginns (und F0-Maximums) zu einem späteren Zeitpunkt relativ zum Einsatz des Akzentvokals blieb der F0-Wertebereich vor dem Anstieg auf einem gleichbleibend tiefem Niveau, wodurch ein verschieden langes „pre-peak plain“ in den Akzentvokal hinein gebildet wurde (Gartenberg und Panzlaff-Reuter 1991:38; vgl. auch den rechtsliegenden Sprechmelodiegipfel in Abb. 3). Die Frequenzwerte der Anstiegsflanke wurden durch die beschriebenen Verschiebungen nicht beeinflusst. Der Frequenzumfang des Anstiegs fiel insgesamt größer aus als in Verbindung mit dem Zeichen NEU (vgl. auch hierzu Abb. 3). Im Zusammenhang mit dem Zeichen GEGEBEN berichten Gartenberg und Panzlaff-Reuter, dass das F0-Maximum der diesem Zeichen zugeordneten Gipfel in seiner Positionierung deutlich variiert. Dabei wurde es zumeist erst kurz vor dem akzentuierten Vokal erreicht, in vielen Fällen erst im letzten stimmhaften Lautsegment vor dem Vokalbeginn. Aus einer eigenen visuellen Inspektion der dargestellten F0-Konturen (Gartenberg und Panzlaff-Reuter selbst machen zur Ausprägung des Zeichens GEGEBEN keine weiteren Angaben) wird nicht erkennbar, dass die skizzierte Variation des F0-Gipfelmaximums auf einem systematischen Einfluss der beiden Faktoren Vokaldauer und Vorhandensein einer unakzentuierten Silbe vor der Phrasengrenze beruht. Gleiches gilt für den Anstiegsbeginn. Für Letzteren zeigen die Daten von Gartenberg und Panzlaff-Reuter jedoch einen Einfluss der Silbenzahl vor der Akzentsilbe. So erfolgte nur dann ein F0-Anstieg, wenn der Akzentsilbe im Satzrahmen „Das ist eine ___“ mehrere unakzentuierte Silben vorangingen. Realisierungen des Zeichens GEGEBEN im Satzrahmen „Sie ___“ wiesen anstelle eines F0-Anstiegs ein Plateau auf der Höhe des F0-Maximums vor dem Einsetzen des prävokalischen F0-Abstiegs auf. Gegenüber dem F0-Maximum und dem Anstiegsbeginn prägte sich das Ende des Abstiegs vergleichsweise stabil positioniert am Ende des Vokals der Akzentsilbe aus. Die Erkenntnisse von Gartenberg und Panzlaff-Reuter (1991) zur Ausprägung der F0-Gipfel der drei sprechmelodischen Zeichen sind auch in die Modellierung des KIM eingegangen. Bezüglich des Zeichens NEU führt Kohler (1991c:331) zum Beispiel aus, dass der Anstiegsbeginn „at the beginning of the [accented] syllable“ platziert wird, während für das F0-Maximum gilt: „the exact timing after voiced vowel onset depending on vowel quantity, vowel height, number of following unstressed syllables and position in the utterance”. Niebuhr und Ambrazaitis (2006) haben die Positionierung des Anstiegsbeginns und Maximums in F0-Verläufen der beiden Zeichen NEU und UNERWARTET auf der Grundlage der Resultate zu sprechmelodischen Zeichen anderer Sprachen untersucht. Vor diesem Hintergrund beschränkten sie sich auf Zeichen, die in pränuklearen Akzentsilben produ-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
69 69
ziert wurden, auf die noch weitere Akzentsilben in der gleichen Phrase (mit einem Abstand von mindestens einer unakzentuierten Silbe) folgten und die ebenso wie die umliegenden Silben durchgehend stimmhaft waren. Unter dieser Bedingung beobachten Niebuhr und Ambrazaitis (2006) für die F0-Verläufe des Zeichens NEU ebenfalls, dass sich der Anstiegsbeginn in unmittelbarer Nähe des Akzentsilbenbeginns ausprägte und das F0-Maximum fast ausnahmslos im Vokal der Akzentsilbe positioniert wurde. Das Maximum in den F0-Verläufen des Zeichens UNERWARTET wurde überwiegend nach dem Ende der Akzentsilbe gefunden. In vielen dieser Fälle wurde es auch erst nach dem Vokaleinsatz der darauf folgenden unakzentuierten Silbe produziert, wo es auch bei Gartenberg und Panzlaff-Reuter (1991) lag, wenn eine unakzentuierte Silbe auf die Akzentsilbe folgte. Anders als bei Gartenberg und Panzlaff-Reuter (1991) zeigt sich bei Niebuhr und Ambrazaitis (2006) jedoch, dass der Anstiegsbeginn für das Zeichen UNERWARTET nicht innerhalb der Grenzen des Akzentvokals den Bewegungen des Gipfelmaximums folgte, sondern davon losgelöst an der gleichen silbeninitial-prävokalischen Position produziert wurde wie der Anstiegsbeginn des Zeichens NEU. Der wesentliche Unterschied zwischen den F0-Verläufen beider Zeichen bestand so in der Anstiegsdauer, die für das Zeichen UNERWARTET – bei vergleichbarem Anstiegsumfang – deutlich größer ausfiel als für das Zeichen NEU. Die Anstiegsdauer variierte für beide Zeichen zudem parallel zu den Dauerveränderungen in der darunterliegenden Lautsequenz, die zum Beispiel durch Unterschiede in der Vokalquantität oder in der Anzahl der Konsonanten in der Akzentund Nachakzentsilbe entstanden sind. In den Daten von Niebuhr und Ambrazaitis drückt sich dies aus in Form einer (positiven) Korrelation der Anstiegsdauer mit der Dauer der Akzentsilbe einerseits und mit dem Zeitintervall zwischen Akzentsilbenbeginn und dem Vokalbeginn der nachfolgenden unakzentuierten Silbe andererseits. Das weist darauf hin, dass nicht nur der Anstiegsbeginn, sondern auch das F0-Maximum eine stabile Position zu Segmentgrenzen eingenommen hat, wobei das Maximum für die Zeichen NEU und UNERWARTET an unterschiedlichen Stellen positioniert ist. Zu beachten ist, dass eine stabile Positionierung des F0-Maximums zu bestimmten Punkten in der Lautkette nicht ausschließt, dass es gleichzeitig in unterschiedlicher Entfernung vom Akzentvokalbeginn realisiert wurde. Im Gegenteil geht aus den Daten von Niebuhr und Ambrazaitis zu den beiden Zeichen NEU und UNERWARTET klar hervor, dass eine kleinere/größere Anstiegsdauer auch mit einer kleineren/größeren Distanz zwischen dem F0-Maximum und dem Einsatz des Akzentvokals einherging.
70 70
Einleitung Erkenntnisse und Hypothesen
Insofern sind die von Niebuhr und Ambrazaitis beschriebenen stabilen Positionierungen der F0-Maxima beider Zeichen mit den von Gartenberg und Panzlaff-Reuter (1991) gefundenen Verschiebungen des F0-Maximums nicht inkompatibel, sondern eine Frage der Perspektive. Unklar ist indes, zu welchen Segmentgrenzen die F0-Maxima der Zeichen NEU und UNERWARTET stabil positioniert sind und ob sie diese stabilen Positionen unter allen Bedingungen beibehalten, die von Gartenberg und PanzlaffReuter (1991) untersucht worden sind. Gerade im Überschneidungsbereich zwischen stabilen Positionierungen und kontextsensitiven Verschiebungen ist die Erkenntnisdecke aus verschiedenen Gründen noch sehr dünn. Zu diesen Gründen gehört, dass die Ergebnisse aus beiden Phänomenbereichen durch unterschiedliche segmentelle Referenzen in vielen Fällen nicht aufeinander beziehbar sind und dass stabile Positionierungen bislang kaum für sprechmelodische Kontraste innerhalb einer Sprache untersucht worden sind (Niebuhr und Ambrazaitis 2006 sprechen diesen Problemkreis an). Die akustische Ausprägung der standarddeutschen Zeichentriade GEGEBEN, NEU und UNERWARTET wurde nicht nur vor dem Hintergrund des KIM untersucht. Auch im Rahmen der AM-Phonologie sind hierzu einige Analysen durchgeführt worden. Die wichtigste Analyse stammt von Grabe (1998)13. Hierin ergibt sich für das Zeichen NEU14 in Verbindung _____________ 13
Grabe (1998) gibt die Form des Zeichens NEU in ihrer Arbeit nicht als H*, sondern als H*+L an. Aus ihren Ausführungen wird jedoch deutlich, dass sie den trailing tone L primär aufgrund rhythmischer Erwägungen, vermutlich aber auch in Symmetrie zur Form des Zeichens UNERWARTET, L*+H, in den Tonakzent integriert. Unter diesen Voraussetzungen stellt H*+L weniger ein Komplement, als vielmehr ein Substituent von H* im Inventar sprechmelodischer Zeichen des Standarddeutschen dar und wird hier auch als ein solches behandelt.
14
Wie zu Beginn des dritten Kapitels erläutert, geschieht die Projektion der Ergebnisse der hier vorgestellten akustischen Analysen auf die behandelten Zeichen bzw. auf deren bedeutungsbezogene Nomenklatur mit Hilfe der phonologischen Etiketten, die sich in den akustischen Analysen finden. So wird z.B. davon ausgegangen, dass Befunde, die sich im KIM-Zusammenhang für den ‚späten Gipfel’ ergeben haben, auf das Zeichen UNERWARTET projiziert werden können. Analog dazu werden z.B. auch die Ergebnisse von Grabe (1998), die mit dem Etikett ‚L*+H’ versehen sind, dem Zeichen UNERWARTET zugeordnet. Die Zuordnung bei der Projektion basiert auf der Herleitung der phonologischen Formen für die sprechmelodischen Zeichen. Letztere wurden zuvor unabhängig davon anhand ihrer Phonetik und Bedeutung umrissen (vgl. Kap. 2). Bei der beschriebenen Projektion wird angenommen, dass sich hinter einem phonologischen Etikett (a) das gesuchte Zeichen und (b) immer das gleiche Zeichen verbirgt. Beide Annahmen sind sicherlich nicht immer zutreffend, sodass zu einem geringen Teil auch fehlerhafte Projektionen in die Darstellung der Ergebnisse und die daraus abgeleitete Diskussion der Zeichenformen eingehen. In diesem Zusammenhang erscheint die Projektion der KIM-Etiketten auf die sprechmelodischen Zeichen grundsätzlich treffsicherer, da hier die Etikettierung –
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
71 71
mit Nuklearakzentsilben im Vergleich zu den nuklearen F0-Gipfeln bei Gartenberg und Panzlaff-Reuter (1991) ein überwiegend ähnliches Bild vom komplexen Einfluss des Kontextes auf die Positionierung des Anstiegsbeginns und F0-Gipfelmaximums. Der einzige markante Unterschied zu den Beobachtungen im KIM-Zusammenhang besteht darin, dass Grabe einen breiteren Rahmen angibt, in dem das F0-Maximum kontextbedingt variierte. Dieser erstreckte sich von einer Position vor dem Einsatz des Akzentvokals bis zum Beginn der nachfolgenden unakzentuierten Silbe, während sich zum Beispiel bei Gartenberg und PanzlaffReuter (1991) das F0-Maximum lediglich innerhalb der Grenzen des Akzentvokals verlagert hat. Was das Zeichen UNERWARTET (in Verbindung mit pränuklearen Akzentsilben) anlangt, so hat Grabe (1998) den Anstiegsbeginn anders als Gartenberg und Panzlaff-Reuter (1991) nicht im Akzentvokal ausgemacht, sondern ähnlich wie im Falle der pränuklearen F0-Gipfel bei Niebuhr und Ambrazaitis (2006) meist am Akzentsilbenbeginn gefunden (tendenziell sogar eher weiter davor). Allerdings bemerkt Grabe (1998) für die Realisierungen des Zeichens UNERWARTET gegenüber denen des Zeichens NEU eine deutlich größere Streuung der beiden F0-Gipfelpunkte. Niebuhr und Ambrazaitis (2006) haben dies bei einer Gegenüberstellung der F0Verläufe beider Zeichen ebenfalls festgestellt. Auch wenn die Perspektive über die standarddeutschen Zeichen NEU und UNERWARTET hinaus auf phonetisch ähnliche Zeichen anderer sprachlicher Varietäten des Deutschen oder gänzlich anderer Sprachen erweitert wird (die zum Teil aber vergleichbare Bedeutungen wie die standarddeutschen Zeichen haben), bleibt das entstandene Bild zur Ausprägung der F0-Gipfel ähnlich (vgl. Peters 1999 zu regionalen Varietäten des Deutschen; Steele 1986, Silverman 1987, Silverman und Pierrehumbert 1990 sowie van Santen und Hirschberg 1994 zum amerikanischen Englisch; Prieto et al. 1995 und Llisterri et al. 1995 für Varietäten des Spanischen; Gili Fivela und Savino 2003 zu Varietäten des Italienischen; House _____________ die Bedeutung im Auge behaltend – von geschulten Hörern auf Basis der Perzeption vorgenommen wurde und sich somit direkt am rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel orientiert hat. Im AM-Rahmen hingegen kommen für die Etikettierung unterschiedliche Kriterien zur Anwendung (vgl. hierzu die Kritik von Atterer und Ladd 2004). Im speziellen Fall von Grabe (1998) kam die Etikettierung jedoch in ähnlicher Weise wie im KIM-Rahmen zustande und ist daher ähnlich treffsicher auf die sprechmelodischen Zeichen projizierbar. Grabe hat ihre Etiketten ‚H*+L’ und ‚L*+H’ perzeptorisch interpretiert vergeben und falsche Fälle manuell aussortiert. Zudem wurden die Äußerungen zur besseren Kontrolle der Bedeutung in einen Kontext eingebettet produziert. Im übrigen ist die perzeptorische Etikettierung Voraussetzung dafür, dass die hiermit gewonnenen Ergebnisse anschließend zur Evaluierung der Zeichenformen herangezogen werden können, ohne zirkulär zu argumentieren.
72 72
Einleitung Erkenntnisse und Hypothesen
1989, Ladd et al. 1999 und Wichmann et al. 2000 zum britischen Englisch; Caspers und van Heuven 1993 sowie Ladd et al. 2000 zum Holländischen, Arvaniti et al. 1998 zum Griechischen, Bruce 1990 zum Schwedischen und Igarashi 2004 zum Russischen). Der Beginn des Anstiegs zu den entsprechenden F0-Gipfeln ist eng mit dem Beginn der Akzentsilbe koordiniert, während das F0-Maximum in seiner Position sehr viel stärker variiert. Dabei wirken sich die untersuchten Einflussfaktoren immer in gleicher Weise auf die Verschiebung des F0-Maximums aus. Auch wenn diese Verschiebungen zum Teil von unterschiedlichen Segmentgrenzen aus betrachtet worden sind, so sprechen die übereinstimmenden Befunde dennoch dafür, dass in den betreffenden Fällen die gleichen Phänomene beobachtet worden sind. Unter bestimmten Bedingungen kann bei der Variation des F0-Maximums eine stabile Positionierung zu Segmentgrenzen ausgemacht werden. Zu diesen Bedingungen zählt, dass keine Phrasengrenze oder weitere Akzentsilbe dicht auf die Akzentsilbe folgt, die mit dem untersuchten F0-Gipfel verbunden ist. In diesem Fall ist die Variabilität des F0-Maximums in sprachlichen Unterschieden zu suchen, zum Beispiel in welcher Entfernung es stabil zur Segmentgrenze positioniert ist oder an welcher Segmentgrenze es ausgerichtet ist Ladd et al. (1999:1544) gehen angesichts der skizzierten Parallelen davon aus „that similar principles govern the alignment of F0 movements with the segmental string in all languages“. 3.2.2 Implikation für einen Einfluss von Dauer und Intensität Das zuvor gegebene Zitat wirft zwei fundamentale Fragen auf. Erstens, welche Prinzipien sind es, die das alignment und damit die Ausprägung der F0-Verläufe sprechmelodischer Zeichen vorgeben? Und zweitens, wodurch sind diese Prinzipien motiviert? Die zweite Frage ist leichter zu beantworten als die erste. Die beobachteten akustischen Phänomene stehen in einem sprachlichen Zusammenhang. Insofern kann davon ausgegangen werden, dass in den Prinzipien die Signalisierung bzw. die Kodierung sprechmelodischer Zeichen (und damit indirekt auch die Zeichenform) zum Ausdruck kommt. Gestützt wird dies durch Untersuchungen von Gartenberg und Panzlaff-Reuter (1991) sowie von Rietveld und Gussenhoven (1995), die bislang allerdings nur punktuelle Einblicke in die Zusammenhänge zwischen Akustik und Perzeption liefern. Sie zeigen, dass sich die perzeptorische Grenze zweier sprechmelodischer Zeichen parallel zur produzierten Position des F0-Gipfels bzw. des Gipfelmaximums verschiebt. Die Schilderungen informeller Perzeptionsexperimente bei Prieto et al. (1995), die auf einem sprechmelodischen Zeichen in der mexikanischen Varietät des Spanischen basieren, das in seiner Phonetik dem standarddeutschen NEU ähnelt, lassen auf ähnliche Beobachtungen schlie-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
73 73
ßen. Kohler (1990:115) vertritt ebenfalls die Auffassung, dass „changes in the F0 contour [...] have to take place to guarantee the identity of a linguistic [...] intonation pattern across different segmental strings”. Bezüglich der ersten Frage entsteht aus der von Ladd et al. betriebenen autosegmentell-metrischen Forschung und einem Forschungsüberblick, den Ladd (2003) hierzu gibt, der Eindruck eines Standpunktes, der wie folgt umrissen werden kann: Sprechmelodische Zeichen (in erster Linie Tonakzente) sind dadurch gekennzeichnet, dass signifikante Punkte des F0-Verlaufs, wie zum Beispiel der Anstiegsbeginn zu einem F0-Maximum und das F0-Maximum selbst, eine feste Verbindung mit bestimmten signifikanten Punkten des lautlichen Kanals, insbesondere Segmentgrenzen, eingehen. Diese Verbindung wird als segmental anchoring bezeichnet. Ein segmental anchoring wird solange aufrechterhalten, wie keine time pressureEffekte auf die Zieltöne einwirken. Solche Effekte entstehen dadurch, dass weitere Zieltöne in unmittelbarer Nähe der untersuchten Töne realisiert werden müssen, sodass die damit einhergehenden phonetischen Anforderungen die Grenze der physiologischen F0-Dynamik erreichen bzw. überschreiten (vgl. Caspers und van Heuven 1993).15 Der umrissene Standpunkt hat zwei grundsätzliche Probleme: Erstens kann das Gesamtbild der Verschiebungen nicht durch time pressure-Effekte allein entstehen. Auf den ersten Blick erscheinen tatsächlich viele beobachtete Verschiebungseffekte auf time pressure zurückführbar, so zum Beispiel die in Abbildung 11 illustrierte Vorverlagerung des F0-Maximums in Richtung des Akzentvokalbeginns im Falle einer bevorstehenden Phrasengrenze (der F0-Verlauf vor der Phrasengrenze beherbergt im AM-Rahmen noch die Phrasen- und Grenztöne und ist auch im KIM-Rahmen phonologisch relevant). Andererseits ist im Hinblick auf Abbildung 11 auch die Frage zu stellen, warum die auf der linken Seite dargestellte F0-Kontur (d.h. die genannte Vorverlagerung des F0-Maximums) nicht auch bei einer weiter entfernten Phrasengrenze beibehalten wird, da sie doch zur Signali_____________ 15
Eine alternative Argumentationslinie wird von Xu (1998) verfolgt. Sie basiert darauf, dass die muskulären Aktivitäten im gesamten menschlichen Bewegungsapparat nicht beliebig koordiniert werden können (siehe auch coordination constraints bei Xu 2004b). So erklärt Xu z.B. eine stabile Lage von Punkten des F0-Verlaufs zu bestimmten Segmentgrenzen über Beschränkungen in der Koordination der laryngalen (melodischen) Muskulatur mit der supralaryngalen (lautlichen) Muskulatur. Die Schwachpunkte einer solchen artikulationsbezogenen Argumentation liegen unter anderem darin, dass die in der Lautkette verankerten F0-Punkte nicht immer mit Segmentgrenzen koinzidieren, sondern nur eine relative Position zu diesen Grenzen einhalten. Darüber hinaus gibt es über Untersuchungen sowie über Dialekte und Sprachen hinweg betrachtet deutliche Variationen in der Positionierung der betreffenden F0-Punkte, die mit Koordinationsbeschränkungen nicht beschreibbar sind. Dennoch können coordination constraints in dem Gesamtbild der alignment und anchoringPhänomene durchaus eine Rolle spielen.
74 74
Einleitung Erkenntnisse und Hypothesen
sierung des Zeichens NEU geeignet ist. Des weiteren bleibt vor dem Hintergrund von time pressure offen, warum die beobachteten Abweichungen von einer stabilen Verankerung vor allem das F0-Maximum betreffen, während zum Beispiel der Anstiegsbeginn zum Maximum weit weniger sensitiv auf benachbarte Töne oder andersartige phonologisch relevante Ereignisse zu reagieren scheint. Auch wenn time pressure durch eine Vorverlagerung des F0-Maximums an den Anstiegsbeginn weitergegeben wird, zieht dies oft keine parallele Verschiebung desselben nach sich. Ferner ist durch time pressure nicht immer begründbar, warum Veränderungen in der Silbenstruktur, zum Beispiel in Form des Austauschs stimmhafter und stimmloser Segmente in der Silbenkoda, bei der die Dauerstruktur im wesentlichen erhalten bleibt, einen deutlichen Einfluss auf die Position des F0-Maximums haben. Das zweite grundsätzliche Problem besteht darin, dass time pressure vor dem Hintergrund des segmental anchoring eigentlich irrelevant sein sollte. Wenn Verschiebungseffekte durch time pressure verursacht werden, würde dies nämlich bedeuten, dass die vermeintlich phonologisch relevante Eigenschaft – die Verankerungsposition – zugunsten einer anderen Eigenschaft aufgegeben wird. Ladd et al. (2000) ziehen beispielsweise in Betracht, dass in ihren holländischen Daten die Verankerungsposition des F0-Maximums zugunsten eines gleichbleibenden Anstiegsumfangs aufgegeben wurde. Somit ist die Frage der Prinzipien, nach denen sich die F0-Verläufe ausprägen, weiterhin nicht vollständig geklärt. Die Diskussion des zuvor präsentierten Standpunktes von Ladd et al. macht jedoch deutlich, dass hinter Phänomenen der Verankerung und Verschiebung von Punkten des F0-Verlaufs mehr steht als per Konvention determinierte segmentelle Anker und physiologisch bedingte Abweichungen von diesen Ankerpunkten. Von einem perzeptorischen Blickwinkel aus betrachtet, sollte bei der Beantwortung der aufgeworfenen Frage stärker berücksichtigt werden, dass sich in den Verankerungs- und Verschiebungsphänomenen die Signalisierung der sprechmelodischen Zeichen reflektiert. In diesem Zusammenhang fällt der Blick zunächst auf die Gipfelgestalt, die von den Verankerungs- und Verschiebungsphänomenen unmittelbar betroffen ist und von der bekannt ist, dass sie grundsätzlich in die Erkennung der behandelten standarddeutschen Zeichen involviert ist. Nolan und Farrar (1999) zum Beispiel stellen eine solche Verbindung zwischen kontextsensitivem alignment und der Gipfelgestalt für das britische Englisch her, indem sie erwägen, dass das spätere Erreichen des F0-Maximums eines hohen Zieltons unter der Bedingung einer vorangehenden Phrasengrenze dem Beibehalten eines flachen Anstiegs dient, der ihrer Ansicht nach wichtig für die Wahrnehmung des betreffenden sprechmelo-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
75 75
dischen Zeichens ist. Die für die Zeichentriade des Standarddeutschen gefundenen Ausprägungen des F0-Gipfels lassen allerdings nicht auf die Herstellung zeichenspezifischer Gipfelgestalten schließen. Vielmehr kristallisieren sich sehr variable Gipfelgestalten für jedes der drei sprechmelodischen Zeichen heraus. Insofern kann keine direkte Verbindung zwischen den Verankerungs- und Verschiebungsphänomenen und der Gipfelgestalt hergestellt werden. Die Tatsache, dass die Gipfelgestalt durch die Verankerungs- und Verschiebungsphänomene tangiert wird, erlaubt nicht den Umkehrschluss, dass sie auch für diese Phänomene verantwortlich ist. Wie vor diesem Hintergrund der Einfluss der Gipfelgestalt auf die Wahrnehmung der Zeichen verstanden werden kann und wie die Gipfelgestalt und die Verankerungs- und Verschiebungsphänomene dennoch indirekt zusammenhängen, wird in Abschnitt 6.6 im Teil B der Arbeit erläutert, nachdem durch die eigenen Untersuchungen ein umfassenderer empirischer Hintergrund geschaffen und der Ansatz einer Theorie zur Wahrnehmung der Sprechmelodie dargestellt wurde. Eine andere Möglichkeit, die Verankerungs- und Verschiebungsphänomene zu interpretieren, ist, dass der F0-Verlauf mit bestimmten Eigenschaften koordiniert wird, die den darunterliegenden Laut bzw. die darunterliegende Lautkette kennzeichnen und die für die Signalisierung der sprechmelodischen Zeichen erforderlich sind oder diese – im Sinne des Redundanzprinzips im Sprachkode – zumindest unterstützen. Naheliegend sind unter diesem Gesichtspunkt die Eigenschaften der Dauer und Intensität. Im Folgenden soll diese Vermutung untermauert werden, indem einerseits Berichte zur perzeptorischen Relevanz von Dauer und Intensität für die Wahrnehmung der sprechmelodischer Zeichen und andererseits Beobachtungen zur akustischen Interaktion des F0-Verlaufs mit Dauer und Intensität vorgestellt werden. Hinsichtlich der Intensität bemerkt Kohler (1991c, d) auf der Basis seines eigenen Wahrnehmungseindrucks, dass eine F0-Gipfelverschiebung in der Äußerung „Er ist ja geritten“ (mit „-rit-“ als einziger Akzentsilbe der Äußerung) zwar einen Wechsel vom Zeichen GEGEBEN zum Zeichen NEU zur Folge hatte, dass jedoch selbst bei einer Verschiebung des F0Maximums in den Nasal [n] der folgenden Silbe kein weiterer Wechsel von NEU zu UNERWARTET eintrat. Kohler knüpft den Ausgang dieser Gipfelverschiebung an die Beobachtung unterschiedlicher Intensitätsverläufe für die drei sprechmelodischen Zeichen: Im Vergleich zu natürlichen Produktionen von „Er ist ja geritten“ mit den Zeichen GEGEBEN und NEU (über der Akzentsilbe „rit-“) fand sich in Verbindung mit dem Zeichen UNERWARTET ein besonders hohes Intensitätsniveau im äußerungsfinalen silbischen Nasal [n], in dem auch das F0-Gipfelmaximum produziert wurde. Demgegenüber erfuhr die Intensität im vorangehenden akzentuierten
76 76
Einleitung Erkenntnisse und Hypothesen
Vokal, der größtenteils mit einem tief liegenden F0-Plateau realisiert wurde, eine Absenkung. Kohler schließt in diesem Zusammenhang auf einen perzeptorisch relevanten „natural parallelism“ (Kohler 1991c:144) zwischen der für das jeweilige sprechmelodische Zeichen gegebenen (typischen) F0-Gipfelposition (vgl. Abb. 3) und dem Intensitätsverlauf im akustischen Signal. Da die zuvor genannte F0-Gipfelverschiebung von einer Äußerung ausging, die mit den Zeichen NEU produziert wurde, waren die Intensitätsverhältnisse zwar angemessen für eine Wahrnehmungsveränderung von GEGEBEN zu NEU, jedoch nicht von NEU zu UNERWARTET. Silverman und Pierrehumbert (1990) zeigen auf der Grundlage ihrer akustischen Analyse eines sprechmelodischen Zeichens im amerikanischen Englisch, das dem Zeichen NEU des Standarddeutschen in seiner Phonetik und Bedeutung ähnlich ist, die Möglichkeit auf, dass die gefundenen Variationen im alignment des F0-Maximums an das Sonoritätsprofil der Akzentsilbe gebunden sein könnten. Dabei nimmt das F0-Maximum eine bestimmte Lage relativ zur Position des Sonoritätsmaximums innerhalb der Akzentsilbe ein. In diesem Zusammenhang muss der Begriff der Sonorität kurz erläutert werden: Ladefoged (1975:219) definiert die Sonorität eines Segmentes beispielsweise als „its loudness relative to that of other sounds with the same length, stress, and pitch”. Goldsmith (1990:100f) sieht in der Sonorität entweder ein „ranking on a scale that reflects the degree of openness of the vocal apparatus during speech production” oder – ähnlich wie bei Ladefoged zuvor – „the relative amount of energy produced during the sound”. Die genannten Definitionsansätze vermitteln einen Eindruck davon, dass es, im Gegensatz zur Signalintensität, sehr unterschiedliche Auslegungen des Sonoritätskonzeptes gibt. Vielen von ihnen ist im Kern gemeinsam, dass es sich um ein relatives Lautheitsmaß für Lautsegmente handelt, das jedoch nicht kontinuierlich, sondern durch seine Projekten auf phonetische Merkmale bestimmter Segmentklassen diskret skaliert ist. Entscheidend für die Beurteilung der Sonorität ist also nicht die im Einzelfall wahrgenommene Lautheit eines bestimmten Segmentes, sondern die Lautheit, die dieses Segment durch seine Zugehörigkeit zu einer Segmentklasse prinzipiell von den Segmenten anderer Klassen unterscheidet. An dieser Stelle dringen phonologische Aspekte in das Konzept der Sonorität ein (vgl. Laver 1994). Die Sonorität bei Silverman und Pierrehumbert (1990) weicht von diesem gemeinsamen Kern in verschiedenen Punkten ab. Erstens geht sowohl aus ihrer graphischen Darstellung als auch aus ihrer dazugehörigen Argumentation hervor, dass sie Sonorität nicht als diskret, sondern als kontinuierlich skaliert auffassen, wodurch sie den Bezug zu bestimmten Segmentklassen aufgeben. Zweitens betrachten sie Sonorität nicht als Eigenschaft eines ganzen Segmentes. Sie gehen vielmehr davon aus, dass sich die Sonorität auch innerhalb eines Segmentes verändern
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
77 77
kann. Die Sonorität bei Silverman und Pierrehumbert betont demnach den psychophonetischen Charakter des Konzeptes, ohne die phonologischen Aspekte mit einzubeziehen. Ihr Sonoritätsprofil kommt somit dem Lautheitsverlauf über einer Silbe sehr nahe und das Sonoritätsmaximum dem Lautheitsmaximum dieser Silbe. Da die Intensität die wichtigste akustische Bezugsgröße für die wahrgenommene Lautheit ist, nehmen Silverman und Pierrehumbert somit indirekt eine Verbindung zwischen dem Intensitätsverlauf – genauer dem Intensitätsmaximum – und dem F0Maximum an. Diese Annahme geht in die gleiche Richtung wie der von Kohler (1991c:144) postulierte „natural parallelism“ zwischen F0- und Intensitätsverlauf. Angesichts des möglichen Zusammenwirkens von F0 und Intensität fallen die unterschiedlichen Verläufe der Hüllkurve der Wellenformen (d.h. die Veränderungen über die Maximal- oder Minimalwerte des Signals) in den beiden Äußerungen aus Abbildung 11 auf. Die Hüllkurve gibt in etwa den Intensitätsverlauf des Signals wieder. Wie zu erkennen ist, prägt sich die Hüllkurve in beiden Äußerungen so aus, dass der Bereich der größten Signalamplituden innerhalb des Akzentvokals [a] jeweils im Bereich der (recht breit ausgeprägten) Gipfelspitze des F0-Gipfel (des Zeichens NEU) liegt. Dies passt in die Vorstellungen von Kohler (1991c) sowie von Silverman und Pierrehumbert (1990) zur Interaktion beider Größen. Im Zusammenhang mit der Dauer in lautlichen Elementen bemerkt Kohler (1991c) erneut auf der Grundlage seiner natürlichen Produktionen der Äußerung „Er ist ja geritten“, dass der äußerungsfinale Nasal in Verbindung mit dem Zeichen UNERWARTET eine deutlich größere Dauer aufweist als mit dem Zeichen NEU. Im Rahmen seiner eigenen Beurteilung misst Kohler auch diesem Phänomen eine perzeptorische Relevanz für die Wahrnehmung beider Zeichen bei. Gartenberg und Panzlaff-Reuter (1991) bemerken in ihren Untersuchungen zur akustischen Ausprägung der drei Zeichen GEGEBEN, NEU und UNERWARTET einen Zusammenhang zwischen der Lage des F0-Gipfels des Zeichens UNERWARTET und der Dauer des akzentuierten Vokals. Je dichter das F0-Maximum des Gipfels durch Einflüsse der Silbenstruktur und der äußerungsfinalen Phrasengrenze an den Beginn des Akzentvokals heranrückte, desto größer wurde die gemessene Dauer des akzentuierten Vokals. So war der Vokal unter der Bedingung einer phrasenfinalen Akzentsilbe mit stimmloser Koda, bei der das F0-Maximum des Zeichens UNERWARTET den geringsten Abstand zum Vokaleinsatz zeigte, um zirka 80% (bzw. 100ms) länger als ein Vokal, der unter gleichen Bedingungen in Verbindung mit dem Zeichen NEU produziert wurde. Folgte eine unakzentuierte Silbe vor der Phrasengrenze, war das F0-Maximum des Zeichens UNERWARTET im größerem
78 78
Einleitung Erkenntnisse und Hypothesen
Abstand vom Beginn des Akzentvokals positioniert und der Dauerunterschied zu einem Akzentvokal, der mit dem Zeichen NEU im ansonsten gleichen Kontext stand, sank auf zirka 30%. Die vorgegangenen Ausführungen sind deutliche Hinweise darauf, dass Dauer und Intensität in lautlichen Elementen in die Signalisierung sprechmelodischer Zeichen wie die im Rahmen dieser Arbeit behandelte standarddeutsche Zeichentriade involviert sind. Insofern macht es Sinn anzunehmen, dass die im Zusammenhang mit der Ausprägung der F0Gipfel gefundenen Verankerungs- und Verschiebungsphänomene unter anderem dadurch zustande kommen, dass der F0-Verlauf mit Dauerstrukturen und Intensitätsverläufen koordiniert wird, die zunächst einmal unabhängig vom melodischen Kanal im Lautsyntagma durch die phonetische Ausprägung der einzelnen Segmente angelegt sind. Darüber hinaus weisen die vorangegangenen Ausführungen aber auch darauf hin, dass nicht nur gegebene Strukturen und Verläufe ausgenutzt, sondern auch in Abhängigkeit von dem zu signalisierenden sprechmelodischen Zeichen modifiziert werden. Vorausgesetzt, letzteres trifft zu, dann sind – da Sprechmelodie in sprachlichen Äußerungen immer präsent ist – die Dauerstrukturen und Intensitätsverläufe im Lautsyntagma zu keiner Zeit allein durch den lautlichen Kanal bestimmt, sondern immer auch Gegenstand einer melodischen Steuerung (diese Perspektive geht über die einer punktuellen Beeinflussung der Dauer und Intensität von Lautsegmenten durch Akzent im Sinne des KIM hinaus, vgl. 1.2.3). Um dies zum Ausdruck zu bringen, wird nicht von der Dauer und Intensität der Lautsegmente, sondern von der Dauer und Intensität in Lautsegmenten gesprochen. 3.2.3 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Ausprägung der F0-Gipfel Die standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET zeigen ebenso wie phonetisch und formal verwandte Zeichen aus anderen Sprachen eine komplexe kontextsensitive Ausprägung ihrer F0-Gipfel. Dabei sind nicht alle Aspekte dieser Ausprägung durch die Zeichenformalternativen des frühen, mittleren und späten Gipfels bzw. H+L*, H* und L*+H abgedeckt. Um mit den Zeichenformen der AM-Phonologie zu beginnen, besagt die Form des Zeichens NEU, H*, beispielsweise, dass ein phonologisch hoher Ton mit der akzentuierten Silbe assoziiert ist. In der akustischen Ausprägung äußert sich das definitionsgemäß dadurch, dass ein F0-Maximum innerhalb dieser Silbe auftritt. Wenn dies für den Hörer ausschlaggebend zur Erkennung des Zeichens NEU bzw. zur Abgrenzung dieses Zeichens gegenüber GEGEBEN und UNERWARTET sein soll, dann dürfen
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
79 79
die beiden folgenden Dinge nicht auftreten: Das F0-Maximum befindet sich außerhalb der Akzentsilbe, und es liegt mit dem Anstiegsbeginn ein weiterer phonologischer Ton innerhalb dieser Silbe vor. In den Befunden zu dem standarddeutschen Zeichen NEU bzw. zu einem in seiner Phonetik und Bedeutung verwandten Zeichen des amerikanischen Englisch wurde jedoch Beides – oft sogar in Kombination – gefunden. In vielen der untersuchten Akzentsilben trat das Maximum in den F0-Gipfeln des Zeichens nach der Akzentsilbe auf. Gleichzeitig befand sich ein F0-Minimum am Beginn bzw. innerhalb der Akzentsilbe. Derartige F0-Ausprägungen sind eigentlich der Zeichenform L*+H vorbehalten, die im Standarddeutschen das Zeichen UNERWARTET kodieren soll. Des weiteren wurde für das Zeichen GEGEBEN gefunden, dass sich sowohl das Gipfelmaximum als auch das Ende des Abstiegs vom F0-Gipfel meist auf der Akzentsilbe ausprägen. Da diese beiden Punkte des F0Verlaufs die Komponenten H und L des Tonakzentes H+L* bilden, ist eine solche Ausprägung mit der Vorgabe durch die Zeichenform ebenfalls nicht vereinbar. Daneben sieht die AM-Phonologie vor, dass der leading tone H in der Zeichenform H+L* in einer fixen zeitlichen Distanz zum tonalen Schwerpunkt L* positioniert wird. Auch hiermit stimmen die akustischen Daten nicht überein. Vielmehr erwies sich die Position des zu H gehörigen F0-Maximums als recht variabel, während L* in Form des Abstiegsendes nahezu invariant am Ausgang des Akzentvokals lag. Ähnlich verhält es sich mit dem Zeichen UNERWARTET. Auch hierfür wird ein stabiles Intervall zwischen L* und dem trailing tone H in L*+H gefordert. Tatsächlich hat sich jedoch für dieses Zeichen herausgestellt, dass das F0Maximum, das H repräsentiert, in sehr variabler Entfernung zu dem meist dicht am Anfang der Akzentsilbe liegenden Anstiegsbeginn produziert wird, der die L*-Komponente darstellt. Daneben wurden auch Realisierungen beobachtet, in denen sowohl der Anstiegsbeginn als auch das anschließende F0-Gipfelmaximum außerhalb der Akzentsilbe positioniert waren. Eine solche F0-Konfiguration ist mit keiner der AM-basierten Zeichenformen vereinbar und sollte nach diesem phonologischen Modell gar nicht vorkommen, da jeder Tonakzent genau einen phonologischen Ton aufweisen muss, der mit der akzentuierten Silbe assoziiert und somit auch phonetisch darin lokalisiert ist (die Konsequenzen hieraus werden bei Arvaniti et al. 2000 und Ladd 2003 diskutiert). Ein beschrittener Weg, die zuvor beschriebenen Konflikte zwischen den durch die Zeichenform abgesteckten F0-Ausprägungen und den tatsächlich gefundenen Ausprägungen zu lösen, führt über das Konzept der secondary association (siehe Pierrehumbert und Beckman 1988 sowie Gussenhoven 2000). Dieses anhand des Japanischen entwickelte und in abgewan-
80 80
Einleitung Erkenntnisse und Hypothesen
delter Form auf Intonationssprachen wie das Standarddeutsche übertragene Konzept gestattet den gesternten Tönen aus Tonakzenten, neben ihrer primären Assoziation mit der metrisch stärksten Silbe auch sekundäre Assoziationen mit anderen Punkten des lautlichen Kanals auszubilden (z.B. mit Segmenten und Segmentgrenzen aus anderen Silben). In den phonetischen Abbildern sind dann nur diese sekundären Assoziationen beobachtbar. Die Einführung einer secondary association erscheint in zweierlei Hinsicht problematisch. Erstens birgt dieses Konzept die Gefahr, die Grenzen zwischen den Zeichenformen zu verwischen, unter anderem deswegen, weil die Zuweisung von sekundär assoziierten Tönen zu Tonakzenten arbiträr wird. Zweitens führt die secondary association dazu, dass die in der autosegmentell-metrischen Theorie wichtige primäre Assoziation nicht mehr falsifizierbar ist, da jeder empirische Widerspruch zum postulierten primären Assoziationsmuster über die Annahme einer entsprechenden sekundären Assoziation aufgelöst werden kann. Die konturbasierte Phonologie des KIM betrachtet die F0-Gipfel als Einheit, deren zeitliche Positionierung zum Vokalbeginn in der Akzentsilbe phonologisch relevant ist. Dieser Ansatz geht daher mit Details in der Ausprägung des F0-Verlaufs flexibler um als dies im Tonsequenzkonzept, das der AM-Phonologie zugrundeliegt, möglich ist. Entsprechend ist ein weitaus größeres Spektrum der empirischen Befunde mit den Zeichenformen des frühen, mittleren und späten Gipfels in Einklang zu bringen. Dies gilt zum Beispiel für die variablen Zeitintervalle zwischen Anstiegsbeginn und Gipfelmaximum sowie für Beobachtungen, nach denen zwei der drei Gipfelpunkte (Anstiegsbeginn, Maximum, Abstiegsende) innerhalb der Akzentsilbe liegen. Der einzig gravierende Befund aus Sicht des KIM ist der, wonach für F0-Gipfel des Zeichens NEU das Gipfelmaximum vor dem Vokalbeginn gelegen hat. Dass dies für die mittleren Gipfel nicht vorgesehen ist, wurde jedoch bereits vor dem Hintergrund der Erkenntnisse zu Gipfelgestalt kritisiert. Gegenüber der Evaluierung der Zeichenformalternativen im Rahmen der Gipfelgestalt, zeichnet sich somit im Falle der Ausprägung der F0-Gipfel ein leichter Vorteil für die Zeichenformen des KIM ab. Das heißt, die Grenze zum Beginn des Akzentvokals erscheint als eine adäquatere Domäne, um die Verankerungs- und Verschiebungsphänomene in Zeichenformen zu integrieren. Abgesehen von den Details bei der Platzierung der einzelnen Gipfelpunkte, sind es sowohl die Verankerung an sich als auch viele Verschiebungsphänomene, die nach beiden Zeichenformalternativen nicht zu erwarten wären, die hierzu allerdings auch nicht zwangsläufig im Widerspruch stehen. Insbesondere die Koordination und Kovariation mit der Dauer und Intensität in lautlichen Elementen, die hinter diesen Phänomenen vermutet wird, ist in den derzeitigen Zeichenformen nicht repräsen-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
81 81
tiert. Bevor dies jedoch kritisiert werden kann, muss zuvor erst experimentell überprüft werden, ob die Dauer und Intensität in lautlichen Elementen bei der Signalisierung der (behandelten) sprechmelodischen Zeichen tatsächlich eine Rolle spielt. Hypothesen hierzu werden nachfolgend formuliert. 3.2.4 Weiterführende Hypothesen zur Dauer und Intensität in lautlichen Elementen Es wurden Beobachtungen präsentiert, auf deren Grundlage anzunehmen ist, dass die Dauer- und Intensitätseigenschaften in Elementen des lautlichen Kanals und ihre perzeptorischen Effekte bei der Kodierung der drei Zeichen GEGEBEN, NEU und UNERWARTET eine Rolle spielen. Hinsichtlich der Intensität ist diese Annahme jedoch entweder auf zufällig gewonnenen auditiven Eindrücken basiert, oder sie leitet sich lediglich indirekt aus Befunden zum Verhalten von F0-Verläufen relativ zum lautlichen Kanal ab. In beiden Fällen ist die perzeptorische Relevanz dieser Phänomene experimentell unbelegt. Aus den vorliegenden Erkenntnissen zum Einfluss der internen Zeitstruktur des F0-Gipfels, der Gipfelgestalt, auf die Wahrnehmung der Zeichen (siehe 3.1.1) geht zweifelsfrei hervor, dass Merkmale der Dauer grundsätzlich an der Kodierung der behandelten sprechmelodischen Zeichen beteiligt sind. Doch möglicherweise ist diese Beteiligung weitreichender als bisher angenommen und betrifft neben dem F0-Verlauf auch Elemente des lautlichen Kanals (z.B. Segmente und Silben). Hierfür liegen neben bloßen Anhaltspunkten bereits Befunde aus akustischen Experimenten vor. Allerdings beschränken sich diese auf einzelne sprechmelodische Zeichen und lautliche Elemente. Zweitens steht eine systematische Untersuchung der Relevanz dieser rein akustischen Befunde für die Wahrnehmung der sprechmelodischen Zeichen noch aus. Bislang kann sich eine solche Relevanz nur auf informelle Hörerfahrungen stützen. Dementsprechend unspezifisch lauten die Hypothesen (C) und (D), die auf der Grundlage der lückenhaften und spekulativen Einblicke formuliert werden können: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
82 82
Einleitung Erkenntnisse und Hypothesen
Da die Hypothesen (C) und (D) in dieser Form keine konkreten Vorhersagen machen, die experimentell überprüft werden könnten, wird im Rahmen der eigenen Untersuchungen zu diesem Phänomenbereich zunächst eine akustische Analyse durchgeführt, aus der sich weitere Einzelheiten ableiten und in präzisere Hypothesen überführen lassen.
3.3 Einfluss der Gipfelhöhe auf die Wahrnehmung der sprechmelodischen Zeichen 3.3.1 Die Definition der Gipfelhöhe und ihre Abgrenzung zur Gipfelgestalt Im Abschnitt 2.2 wurde die phonetische Seite des Forschungsgegenstandes in Form dreier globaler Tonhöhen- und Lautheitsverläufe dargestellt, die als linksliegender, zentraler und rechtsliegender Sprechmelodiegipfel bezeichnet wurden. Im Licht dieser globalen Perspektive bezieht sich die Gipfelhöhe in dieser Arbeit nicht auf das lokale Tonhöhen- bzw. F0-Maximum des Gipfels, das zum Zweck der Interpretation zum Beispiel in Relation zu dem sprecherindividuellen Stimmumfang oder Durchschnittswerten männlicher und weiblicher Sprecher im allgemeinen betrachtet werden kann. Stattdessen beschreibt die Gipfelhöhe die Auslenkung des Gipfels in Form der Differenzen zwischen dem Gipfelmaximum und den beiden Minima am Anfang des Anstiegs sowie am Ende des Abstiegs. In dieser Definition ist die Gipfelhöhe eine Eigenschaft, die den Gipfel als Ganzes charakterisiert. Eine Variation in der Gipfelhöhe verändert ferner die Gradienten der An- und Abstiegsflanke des F0-Gipfels. Solche Veränderungen kommen auch durch unterschiedliche Gipfelgestalten zustande (vgl. 3.1.1 und Abb. 9). In diesem Parameter überschneiden sich die beiden phonetischen Eigenschaften der Gipfelhöhe und Gipfelgestalt. Abbildung 12 illustriert den Einfluss der Gipfelhöhe auf die Flankenneigungen des Gipfels. Dennoch sind Gipfelhöhe und Gipfelgestalt dadurch konzeptuell voneinander unterschieden, dass die Gipfelgestalt auf die Dauer des An- und Abstiegs ausgerichtet ist, ohne deren Umfang mit einzubeziehen. Im Falle der Gipfelhöhe ist es gerade umgekehrt. Vor diesem Hintergrund ist darauf hinzuweisen, dass die nachfolgend vorgestellten Beobachtungen und Erkenntnisse alle im Rahmen einer konstanten Gipfelbasis – also ohne Veränderungen der Transitionsdauern des An- und Abstiegs – gemacht wurden und damit definitionsgemäß als Einflüsse der Gipfelhöhe zu behandeln sind.
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
83 83
Abbildung 12: Einfluss der Gipfelhöhe auf die Gradienten des An- und Abstiegs eines symmetrischen F0-Gipfels. Die abweichenden Flankenneigungen der F0-Gipfel aus (a) und (b), die in (c) ersichtlich werden, entstehen bei gleich breiter Gipfelbasis (Dauer x) durch Verdoppelung der Gipfelhöhe von y (a) auf 2y (b).
3.3.2 Beobachtungen und Befunde zur Gipfelhöhe Experimentelle Untersuchungen zum Einfluss der Gipfelhöhe auf die Wahrnehmung der behandelten sprechmelodischen Zeichentriade des Standarddeutschen existieren meines Wissens bislang nicht. Es gibt jedoch Hinweise auf einen solchen Einfluss. Um die Auswirkung der Silbenstruktur auf die Positionen der Übergänge zwischen den Zeichen GEGEBEN, NEU und UNERWARTET zu untersuchen, hat Kohler (1991c) neben der (Ausgangs-)Äußerung „Sie hat ja gelogen“ (mit „-lo-“ als einziger Akzentsilbe, Näheres hierzu in 2.3.2) weitere Äußerungen mit einbezogen, in denen das Partizip variiert wurde, die aber ansonsten syntaktisch und morphologisch gleich aufgebaut waren. In allen Äußerungen wurde der F0-Gipfel in vergleichbar strukturierten Synchronisationsräumen von einer prävokalischen Position aus in äquidistanten Schritten (bezogen auf eine lineare Zeitskala in ms) über die initiale Grenze des Akzentvokals hinweg bis in eine postvokalische Position geschoben, wobei immer ein F0-Gipfel aus der Mitte des Synchronisationsraumes am Einsatz des Akzentvokals der jeweiligen Äußerung positioniert war. Für jede Gipfelposition wurde ein Stimulus generiert. Anschließend wurden die zu jeder Äußerung erzeugten Stimuli jeweils einer Versuchspersonengruppe in chronologischer Anordnung präsentiert (d.h., der F0-Gipfel bewegt sich in den dargebotenen Stimulusfolgen über den Eingang des Akzentvokals hinweg sukzessive in Richtung Äußerungsende). Die Versuchspersonen erhielten die Aufgabe, jeden Stimulus im Vergleich zum jeweils vorangehenden auf Veränderungen in der Melodie zu beurteilen. Kohler (1991c) fand im Rahmen dieses Diskriminationstests zum einen in jeder Serie eine deutliche Häufung perzipierter Melodieveränderungen für zwei benachbarte Stimuli, deren F0-Gipfel im Bereich des Ein-
84 84
Einleitung Erkenntnisse und Hypothesen
satzes zum Akzentvokal positioniert waren. Die melodisch stabilen Abschnitte zu beiden Seiten dieses perzeptorischen Einschnitts wurden auf die beiden Zeichen GEGEBEN und NEU projiziert. Zum anderen wich die Äußerung „Sie hat ja gejodelt“ (mit der Akzentsilbe „-jo-“) von den anderen dadurch ab, dass diese Häufung perzipierter Melodieveränderungen nicht nur Stimuli mit innervokalischen Gipfeln betraf, sondern bereits für Stimuli auftrat, deren Gipfel mit dem Vokalbeginn koinzidierten. Hieraus kann gefolgert werden, dass der Übergang in der Wahrnehmung beider Zeichen, der sich über die Gipfelverschiebung hinweg vollzieht, bezogen auf den Akzentvokalbeginn in „Sie hat ja gejodelt“ eher erfolgt als in den übrigen Äußerungen. Kohler (1991c) erklärt diese Abweichung durch die weniger scharfe Segmentgrenze zwischen dem Akzentvokal und dem vorangehenden Approximanten in der Sequenz [jo:]. Bedingt durch die kontinuierlichen Bewegungen der Artikulationsorgane weist die spektrale Struktur des akustischen Signals für diese Lautsequenz keine Bruchstelle auf, wie sie zum Beispiel zwischen Lateral und Vokal in [lo:] im Partizip „gelogen“ charakteristisch ist. Ausgehend davon, dass die Differenzierung zwischen den Zeichen GEGEBEN und NEU am Beginn des Akzentvokals hängt (siehe die Darstellung der Zeichenform in 2.3.2), argumentiert Kohler, dass die Versuchspersonen diese Segmentgrenze nicht genau detektieren konnten und so Diskrepanzen zwischen der wahrgenommenen Synchronisation und der akustisch messbaren Synchronisation des F0-Gipfels entstanden sind. Dieser Argumentation steht meines Erachtens entgegen, dass eine im Vergleich zu den übrigen Silbenstrukturen unschärfere Segmentgrenze auch dazu führen müsste, dass sich die von den Versuchspersonen perzipierten Melodieveränderungen über mehr Stimuli bzw. mehr F0-Gipfelpositionen im Synchronisationsraum verteilen. Das heißt, der Wahrnehmungsübergang zwischen den betreffenden Zeichen (in diesem Fall GEGEBEN und NEU) müsste ebenfalls unschärfer werden. Tatsächlich ist den tabellarischen Angaben bei Kohler (1991c) aber zu entnehmen, dass die Häufigkeitsverteilung der perzipierten Melodieveränderungen über die Stimuli des Synchronisationsraumes in allen Äußerungen und somit in allen Silbenstrukturen ähnlich ausfällt. Um eine alternative Erklärung dafür zu finden, dass die melodische Grenze zwischen GEGEBEN und NEU im Falle der Äußerung „Sie hat ja gejodelt“ näher am Akzentvokalbeginn liegt als in allen übrigen Äußerungen ohne dabei an Schärfe einzubüßen, muss nach weiteren Aspekten gesucht werden, in denen sich die von Kohler erzeugten Stimulusserien unterschieden haben. Hierbei ist zu beachten, dass am Ausgangspunkt jeder Stimulusserie eine natürlich produzierte Äußerung stand. Für die Erzeugung
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
85 85
der Synchronisationsräume wurde dann eine stilisierte Variante des natürlich produzierten F0-Gipfels verschoben. Dadurch wurde es möglich, dass die F0-Gipfel zwischen den einzelnen Synchronisationsräumen voneinander abweichen konnten. Hinsichtlich solcher Abweichungen fällt insbesondere die Gipfelhöhe als potentieller Verursacher des gefundenen Effekts auf. So ist den von Kohler (1991c) skizzierten F0-Verläufen der untersuchten Äußerungen zu entnehmen, dass der F0-Gipfel, der in der Äußerung „Sie hat ja gejodelt“ am Ausgangspunkt der Gipfelverschiebung stand, eine deutlich größere Gipfelhöhe aufwies als die F0-Gipfel der übrigen Äußerungen. Sein F0-Maximum lag mit annähernd 200Hz ungefähr 60Hz höher als das Maximum in der Äußerung „Sie hat ja gelogen“ und gut 30Hz höher als die Maxima der F0-Gipfel in den übrigen Äußerungen. Gleichzeitig lagen der Beginn des Anstiegs und das Ende des Abstiegs in allen Äußerungen auf einem ähnlichen F0-Niveau und in ähnlichen zeitlichen Abständen zum Gipfelmaximum. Wenn die im Falle der Äußerung „Sie hat ja gejodelt“ eingetretene Vorverlagerung der perzeptorischen Grenze zwischen den Zeichen GEGEBEN und NEU tatsächlich auf die Gipfelhöhe zurückgeht, dann würde dies bedeuten, dass eine größere Gipfelhöhe (im Rahmen der untersuchten Synchronisationsräume) die Wahrnehmung des sprechmelodischen Zeichens NEU unterstützt. Untermauert wird diese Vermutung durch experimentelle Untersuchungen von Gósy und Terken (1994) zur melodischen Signalisierung des Satzmodus im Ungarischen. Der Satzmodus wird in dieser Sprache über sprechmelodische Zeichen angezeigt, die seitens ihrer phonetischen Ausprägung mit den standarddeutschen Zeichen GEGEBEN und NEU vergleichbar sind. Die Annahme, dass es sich bei GEGEBEN und NEU im Standarddeutschen sowie AUSSAGE und FRAGE im Ungarischen um sprechmelodische Zeichen mit einer gemeinsamen phonetischen (und entsprechend auch formalen) Grundlage aber divergenter Bedeutung handelt, basiert vor allem auf parallelen Befunden im Rahmen einer F0-Gipfelverschiebung (darüber hinaus existieren ferner parallele Befunde zum Einfluss der Gipfelgestalt auf die Wahrnehmung der aufeinander bezogenen Zeichen, vgl. 3.1.1). So erzeugten Gósy und Terken (1994) einen Synchronisationsraum, in dem ein F0-Gipfel von einer prävokalischen über eine innervokalische bis zu einer postvokalischen Position über die Akzentsilbe verschoben wurde. Dieser Synchronisationsraum ist dem sehr ähnlich, den Kohler (1991c) in seinen Experimenten zu den Zeichen GEGEBEN, NEU und UNERWARTET verwendet hat (vgl. 2.3.2). Im Rahmen der Beurteilung der einzelnen Stimulusäußerungen dieses Synchronisationsraumes als Aussage oder Frage durch ungarische Muttersprachler kristallisiert sich eine ähnliche Strukturierung des sprechmelodischen Raumes heraus, wie Kohler sie für die
86 86
Einleitung Erkenntnisse und Hypothesen
standarddeutschen Zeichen gefunden hat. Das heißt, die Bedeutungsveränderung von Aussage zu Frage fand ebenso wie die attitudinale Bedeutungsveränderung, die durch die Zeichen GEGEBEN und NEU im Standarddeutschen verursacht wird, kurz nach dem Eintritt des F0-Gipfels in Akzentvokal statt. Darüber hinaus beobachten Gósy und Terken (1994) für F0-Gipfel, die kurz vor dem Ende des Akzentvokals und postvokalisch positioniert waren, einen erneuten Rückgang der Beurteilung der Stimuli als Frage, ebenso wie Kohler (1991c) für postvokalische F0-Gipfel des Standarddeutschen eine erneute attitudinale Bedeutungsverschiebung in Verbindung mit dem Wechsel von NEU zu UNERWARTET festgestellt hat. Die letztgenannte Parallele lässt darauf schließen, dass auch im Ungarischen neben den beiden sprechmelodischen Zeichen AUSSAGE und FRAGE noch ein drittes Zeichen existiert, das phonetisch ein Pendant zum Standarddeutschen UNERWARTET darstellt, dessen Bedeutung auf der Grundlage der Studie von Gósy und Terken (1994) aber nicht spezifiziert werden kann. Zurückkommend auf die Untersuchung der Gipfelhöhe, haben Gósy und Terken das Maximum eines symmetrischen F0-Gipfels in einem Umfang von insgesamt 100Hz (von 234Hz bis 334Hz) variiert. Die Manipulation der Gipfelhöhe erfolgte in fünf Stufen zu jeweils 20Hz. Der F0Gipfel wurde jeweils 20ms außerhalb der Grenzen des Akzentvokals und in der Vokalmitte mit 60ms Abstand zu jeder Grenze positioniert16. Gósy und Terken bezeichnen die drei Gipfelpositionen als ‚early’, ‚middle’ und ‚late’. Bei einer Beurteilung der Stimuli als Aussage oder Frage finden sie, dass eine Anhebung der Gipfelhöhe an allen drei Gipfelpositionen die Wahrnehmung der zugrundeliegenden Äußerung als Frage verstärkte. Dies ist in Abbildung 13 dargestellt. Der deutlichste Effekt zeigt sich hiernach für die F0-Gipfel in der Vokalmitte (60ms nach dem Vokalbeginn). Das heißt, in dieser Position reichte bereits eine sehr geringe Gipfelhöhe _____________ 16
Bei diesen Positionsangaben ist zu beachten, dass Gósy und Terken einen F0-Gipfel verwendet haben, in den ein kurzes Plateau von 30ms zwischen An- und Abstieg eingefügt wurde. In Übereinstimmung mit den Angaben bei Gósy und Terken beziehen sich die Positionsangaben auf das Ende des Anstiegs. Während der 20ms nach dem Vokalende liegende F0-Gipfel damit in jedem Fall postvokalisch ist, hängt die Positionsangabe des F0Gipfels am anderen Ende des Vokals davon ab, ob man das Ende des Anstiegs oder den Beginn des Abstiegs betrachtet. Unter perzeptorischen Gesichtspunkten bemerkt Kohler (1991c), dass F0-Gipfel mit einem prävokalisch endenden Anstieg und einem Plateau in den Akzentvokal hinein weiterhin als das Zeichen GEGEBEN erkannt werden, während sich die Wahrnehmung des Zeichens NEU in Richtung des Zeichens GEGEBEN verändert, wenn die dazugehörige absteigende Gipfelflanke an der gleichen Position belassen und nur der Anstieg zum F0-Gipfel in eine prävokalische Position vorverlegt wird. Auf dieser Grundlage soll auch die erste Gipfelposition bei Gósy und Terken (1994) als prävokalisch gelten und mit anderen prävokalischen F0-Gipfeln ohne Plateau verglichen werden.
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
87 87
aus, um die Stimuli als Frage wahrzunehmen. Doch auch für die 20ms vor und nach dem Vokalbeginn positionierten F0-Gipfel verlagerte sich der Satzmodus der Äußerung hin zur Frage, wenn die Gipfelhöhe entsprechend groß ausfiel. Im Falle der kleinsten Gipfelhöhe ging von keiner der drei F0-Gipfelpositionen ein deutliches Fragesignal aus.
Abbildung 13: Prozentsatz der Beurteilung der Stimulusäußerung als FRAGE in Abhängigkeit von der fünfstufig variierten Gipfelhöhe an den drei F0-Gipfelpositionen ‚early’ (20ms vor dem Akzentvokalbeginn), ‚middle’ (in der Vokalmitte) und ‚late’ (20ms nach dem Ende des Akzentvokals). Die Abbildung wurde aus Gósy und Terken (1994) entnommen.
Zusammenfassend zeigen die Ergebnisse von Gósy und Terken mit zunehmender Gipfelhöhe eine Expansion des Synchronisationsraumes, in dem die F0-Gipfel eine Frage signalisieren. Ein Teil dieser Expansion findet dadurch statt, dass bei einer umfangreichen Gipfelhöhe auch Äußerungen mit prävokalisch liegenden F0-Gipfeln als Frage perzipiert werden. Übertragen auf die sprechmelodischen Pendants des Standarddeutschen bedeutet dies, dass bei einer entsprechend umfangreichen Gipfelhöhe auch prävokalisch positionierte F0-Gipfel zur Wahrnehmung des Zeichens NEU führen können. Da der von Kohler (1991c) in der Äußerung „Sie hat ja gejodelt“ verschobene F0-Gipfel durch eine deutliche größere Gipfelhöhe gekennzeichnet war als die F0-Gipfel in den übrigen Äußerungen, erhärten die Befunde von Gósy und Terken (1994) den Verdacht, dass die sich im Rahmen der Äußerung „Sie hat ja gejodelt“ andeutende Vorverlagerung der Grenze zwischen den Zeichen GEGEBEN und NEU einen Effekt der Gipfelhöhe darstellt.
88 88
Einleitung Erkenntnisse und Hypothesen
3.3.3 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Gipfelhöhe Ein Einfluss der Gipfelhöhe auf die Wahrnehmung der Zeichentriade, wie er auf Basis der Erkenntnisse aus dem Ungarischen für das Deutsche vermutet wird, wäre – unabhängig davon, wie er sich im Detail ausprägt – weder anhand der KIM- noch der AM-Zeichenformen nachzuvollziehen, da er die Position der relevanten Konturpunkte bzw. die der lokalen Zieltöne relativ zur jeweiligen lautlichen Domäne unverändert lässt. Sollte sich ein Einfluss der Gipfelhöhe experimentell tatsächlich nachweisen lassen (die Hypothesen hierzu werden nachfolgend in 3.3.4 vorgestellt), dann ergeben sich vergleichbare Kritikpunkte an den Zeichenformen, wie sie bereits im Zusammenhang mit der Gipfelgestalt in 3.1.2 benannt wurden. Anders als im Rahmen der Gipfelgestalt oder der Verschiebung und Verankerung der F0-Gipfelpunkte (vgl. 3.2.3) ist jedoch bei einem Einfluss der Gipfelhöhe auf die Wahrnehmung der Zeichen keine der beiden Zeichenformalternativen vorzuziehen. 3.3.4 Weiterführende Hypothesen zur Gipfelhöhe Werden die Erkenntnisse von Gósy und Terken (1994) auf die in dieser Arbeit behandelte sprechmelodische Zeichentriade des Standarddeutschen übertragen, so ist zu erwarten, dass eine Erweiterung der Gipfelhöhe die Wahrnehmung des Zeichens NEU unterstützt. Diese Unterstützung manifestiert sich zum Beispiel darin, dass sich der Synchronisationsraum vergrößert, in dem F0-Gipfel als das sprechmelodische Zeichen NEU wahrgenommen werden. Aufgabe nachfolgender eigener Untersuchungen wird es sein, sich der Erkenntnislücken zur standarddeutschen Zeichentriade anzunehmen, die in diesen Spekulationen sichtbar werden. Dabei werden die folgenden vier Hypothesen (F1)-(F3) und (G) überprüft: (F1) (F2) (F3) (G)
Für prävokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für innervokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für postvokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Die Gipfelhöhe ist bedeutsamer für die Wahrnehmung Zeichentriade als die Gipfelposition.
der der der der
Eine Unterstützung der Wahrnehmung des Zeichens NEU, wie sie für eine erweiterte Gipfelhöhe in den Hypothesen (F1)-(F3) angenommen wird, liegt auch dann vor, wenn sich die Beurteilung der betreffenden Stimuli
Zum Begriff der Sprechmelodie Zusammenfassung
89 89
erkennbar dahingehend verlagert. Es muss nicht bedeuten, dass in den Stimuli die Wahrnehmung des sprechmelodischen Zeichens NEU dominiert. Die Befunde von Gósy und Terken (1994) zeigen jedoch, dass die Gipfelhöhe unabhängig von einer prä-, inner- oder postvokalischen Position des F0-Gipfels die Wahrnehmung des sprechmelodischen Zeichens FRAGE fast vollständig unterdrücken konnte. Insofern hat sich die Gipfelhöhe in der Untersuchung von Gósy und Terken als bedeutsamer für die Wahrnehmung herausgestellt als die Gipfelposition. Hypothese (G) überträgt diesen weitergehenden Befund auf das Standarddeutsche und stellt insofern eine Ergänzung der Hypothesen (F1)-(F3) dar. Sie formuliert darüber hinaus eine Erwartung zum perzeptorischen Status der Gipfelposition, die der im Zusammenhang mit der Gipfelgestalt aufgestellten Hypothese (A1) entgegenläuft (vgl. 3.1.3).
3.4 Zusammenfassung der vorliegenden Erkenntnisse Unterschiedliche Ausprägungen der F0-Gipfelgestalt – in Form von Veränderungen in der Dauer des An- und Abstiegs – beeinflussen im gleichen segmentellen Kontext die Wahrnehmung der standarddeutschen Zeichen GEGEBEN und NEU. Der Einfluss der Gestalt führt nicht nur über einen Bereich von Gipfelpositionen zu einer unterschiedlich deutlichen Identifikation der F0-Gipfel als GEGEBEN und NEU. Die gefundenen perzeptorischen Effekte betreffen auch den Zeitpunkt und die Schärfe des Übergangs zwischen den sprechmelodischen Zeichen. Sie sind in gleicher Weise auch in phonetisch verwandten sprechmelodischen Zeichen anderer Sprachen erkennbar. Daneben zeigen akustische Analysen eine komplexe kontextsensitive Ausprägung der F0-Gipfel der drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET, die vor allem auf das Gipfelmaximum zurückgeht. Es ist denkbar, dass ein Teil der vom Einsatz des Akzentvokals aus beobachteten Verschiebungen des Gipfelmaximums der beiden Zeichen NEU und UNERWARTET mit einer stabilen zeichenspezifischen Positionierung zu einer bestimmten Segmentgrenze einhergeht. Informelle Beobachtungen und erste experimentelle Befunde weisen darauf hin, dass solche kontextsensitiven Anpassungen des F0-Gipfels notwendig sind, um die Identifikation des Zeichens aufrecht zu erhalten und dass die Dauer und Intensität in lautlichen Elementen bei diesen Anpassungen und der Identifikation der Zeichen involviert sind. Letztlich weist eine Reinterpretation experimenteller Ergebnisse von Kohler (1991c), gestützt durch Befunde zu sprechmelodischen Zeichen
90 90
Einleitung Erkenntnisse und Hypothesen
des Ungarischen, darauf hin, dass auch die Gipfelhöhe bei der Wahrnehmung der standarddeutschen Zeichentriade eine Rolle spielt. Die meisten der perzeptorischen und akustischen Befunde sind durch die zurzeit gültigen Zeichenformalternativen des frühen, mittleren und späten Gipfels einerseits sowie von H+L*, H* und L*+H andererseits nicht abgedeckt. Einige Befunde zu sprechmelodischen Zeichen stehen sogar im Widerspruch zu den für sie vorgeschlagenen Formen. Hieraus ergibt sich die Forderung nach einer grundlegenden Revision der Zeichenformen, bei der drei Aspekte berücksichtigt werden müssen: Erstens muss F0 in den Zeichenformen differenzierter und umfassender repräsentiert werden. Die Konzentration auf Punkte des F0-Verlaufs, für die ein mehr oder weniger genauer phonetischer Variationsbereich abgesteckt wird, ist nicht ausreichend. Zweitens ist anzunehmen, dass die Zeichenformen neben F0 weitere Größen wie die Intensität und Dauer in lautlichen Elementen mit einbeziehen müssen. Das heißt, die Zeichenform muss – der Definition in 1.2.1 entsprechend – die Sprechmelodie als Ganzes ins Auge fassen. Drittens sollten die Zeichenformen einen stärkeren Bezug zur Perzeption haben. Die nachfolgend präsentierten eigenen Untersuchungen werden das Gesamtbild der Erkenntnisse zur Wahrnehmung der sprechmelodischen Zeichentriade ergänzen und so dazu beitragen, die skizzierten Änderungen an den Zeichenformen weiter zu konkretisieren. Eigene Vorschläge für die Formen der drei Zeichen GEGEBEN, NEU und UNERWARTET werden auf dieser Grundlage dann im Zusammenhang mit generellen Überlegungen zur Perzeption der Sprechmelodie im Teil (B) dieser Arbeit entwickelt (siehe 6.6).
4 Eigene Untersuchungen zur sprechmelodischen Zeichentriade GEGEBEN, NEU und UNERWARTET Der Schwerpunkt der eigenen Untersuchungen liegt in Perzeptionsexperimenten, in denen die sprechmelodischen Zeichen in den Stimuli über einen Abgleich ihrer Bedeutung mit einem vorangehenden Kontext zugänglich gemacht werden (vgl. Kohler 1991c in 2.3.2 und Niebuhr 2003a, b in 3.1.1). Die Experimente greifen die weiterführenden Hypothesen auf, die aus den vorliegenden Erkenntnissen des vorangegangenen Kapitels hervorgegangen sind. Folglich beziehen sie sich auf die Variablen Gipfelgestalt (4.1), Dauer und Intensität17 in lautlichen Elementen (4.2) sowie die Gipfelhöhe (4.3) in den sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET. Alle im Rahmen der Experimente generierten Stimuli sind ebenso wie die daraus zusammengestellten Hörtests und die Ergebnisrohdaten in den Anhängen A-J auf der beiliegenden CD zu finden. Die vorliegenden Erkenntnisse lassen an mehreren Stellen erkennbar werden, dass die genannten Variablen untereinander und mit der Gipfelposition bei der Signalisierung der drei Zeichen komplex interagieren. In den präsentierten Perzeptionsexperimenten wird diese Interaktion aufgebrochen. Das heißt, die einzelnen Variablen werden herausgetrennt und vor dem (konstanten) Hintergrund der übrigen Variablen systematisch manipuliert. Diese Manipulationen werden mit einer F0-Gipfelverschiebung gekoppelt, die in Synchronisationsräumen von einer prä- zu einer innervokalischen und von einer inner- zu einer postvokalischen Gipfelposition stattfindet. Es ist anzunehmen, dass die meisten der dabei erzeugten Stimuli in natürlich gesprochener Sprache so nicht auftreten. Dies gilt zum einen hinsichtlich der Wertekonfigurationen in den untersuchten Variablen und der Synchronisationsräume, die Gipfelpositionen enthalten, die für die untersuchten sprechmelodischen Zeichen akustischen Analysen zufolge nicht charakteristisch sind (vgl. 3.2). Zum anderen gilt dies auch für die Kombination von Wertekonfigurationen und Gipfelpositionen. Die Isolation einzelner Variablen ist notwendig, um deren Relevanz für die Wahrnehmung der sprechmelodischen Zeichen beurteilen zu kön_____________ 17
Unter Intensität ist eine Kurzzeitenergie(-messung) zu verstehen. Der Begriff der Intensität wird verwendet, da er im Bereich der phonetischen Forschung vielfach im genannten Sinne anzutreffen ist, unter anderem im weit verbreiteten Sprachverarbeitungsprogramm praat.
92 92
Eigene Einleitung Untersuchungen
nen. Bei der Generierung der Stimuli wird zudem darauf geachtet, dass ein natürlichsprachlicher Eindruck der Stimuli weitgehend gewahrt bleibt. Es kann daher davon ausgegangen werden, dass die in den Stimuli enthaltenen bedeutungstragenden Einheiten nicht anders als in natürlichsprachlichen Stimuli im Rahmen der auditiven Verarbeitung dekodiert werden. Der skizzierte methodische Rahmen, der für alle Perzeptionsexperimente gilt, stellt daher kein grundsätzliches Problem für die Validität der Ergebnisdaten dar. Er ist vielmehr als ein erster und nicht unüblicher Forschungsschritt zu sehen. Auch in der Psychoakustik und der visuellen Wahrnehmung werden nicht natürlich vorkommende Stimuli eingesetzt, um Grundsätzliches über die dahinterstehenden Verarbeitungsmechanismen zu erfahren. Erst der anschließende Forschungsschritt besteht dann in der gleichzeitigen Variation der untersuchten Variablen. Zu den perzeptorischen Auswirkungen einer solchen Variation können auf Grundlage der durchgeführten Experimente nur Vermutungen angestellt werden. Diese schrittweise Einbeziehung der interaktiven Komponente und die damit verbundene Annäherung an natürlichsprachliche Stimuli bleiben weiterführenden Forschungsarbeiten vorbehalten.
4.1 Die Rolle der Gipfelgestalt Im Rahmen des unter 3.1.1 geschilderten Perzeptionsexperimentes von Niebuhr (2003a, b) wurde der Einfluss der F0-Gipfelgestalt auf die Wahrnehmung der sprechmelodischen Zeichen GEGEBEN und NEU erforscht. Das nachfolgend beschriebene Experiment setzt diese Forschung mit einer analogen Methode für das sprechmelodische Zeichen UNERWARTET fort. Ausgangspunkt hierbei sind die Hypothesen (A1)-(A3), die aus den Ergebnissen von Niebuhr (2003a, b) abgeleitet wurden. (A1)
(A2) (A3)
Unabhängig von Effekten der Gipfelgestalt kann durch die Verschiebung eines F0-Gipfels von einer innervokalischen zu einer postvokalischen Position ein Übergang von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET erreicht werden. Die Gipfelgestalt hat einen Effekt auf die Wahrnehmung beider Zeichen. F0-Gipfel mit steilem Anstieg der Art s/f und s/s unterstützen gegenüber F0-Gipfeln mit flachem Anstieg f/s und f/f die Wahrnehmung des Zeichens NEU.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
93 93
4.1.1 Die Methode des Perzeptionsexperimentes zur Gipfelgestalt Die vier Gipfelgestalten Wie in Niebuhr (2003a, b) standen vier F0-Gipfelgestalten im Zentrum des Experimentes. Die Gipfelgestalten kamen durch die Kreuzung zweier unterschiedlicher Transitionsdauern zustande, die jeweils mit der an- und absteigenden Gipfelflanke verbunden wurden. Die Variation der An- und Abstiegsdauer erfolgte bei konstantem Transitionsumfang (von 7 Halbtonschritten). Insofern wurde die Gipfelgestalt abgekoppelt von der Gipfelhöhe variiert und untersucht (vgl. 3.3.1). Die Werte für die Transitionsdauern in den F0-Gipfeln lagen geringfügig unter denen aus Niebuhr (2003a, b, vgl. Abb. 9 in 3.1.1). Dies erhöhte nach Meinung des Versuchsleiters (des Autors, on) in Verbindung mit der zugrundeliegenden Äußerung den Natürlichkeitseindruck der Stimuli. Das Variationsprinzip hingegen, bei dem sich die beiden Transitionsdauern (und infolgedessen auch die Neigungen der Gipfelflanken) um den Faktor 2 bzw. 0,5 unterscheiden, wurde aus dem Experiment von Niebuhr beibehalten. Dies sollte gemäß den Angaben von ´t Hart et al. (1990) dazu führen, dass die konstruierten Gipfelgestalten nicht nur akustisch, sondern auch perzeptorisch diskriminierbar ausfielen. Es entstanden zwei symmetrische F0-Gipfel mit spitzer oder stumpfer Gestalt sowie zwei asymmetrische Gipfel. Die beiden symmetrischen sind als steil-steil (s/s) und flach-flach (f/f) zu bezeichnen. Die beiden asymmetrischen weisen einen flach-steilen (f/s) und steil-flachen (s/f) Verlauf auf. Die verwendeten Gipfelgestalten sind in Abbildung 14 dargestellt. Die Gradienten in allen vier Gipfelgestalten liegen unterhalb der von Xu und Sun (2000, 2002) abgeschätzten physiologischen Grenzen der F0-Variation.
Abbildung 14: Gradienten und Transitionsdauern der vier im Perzeptionsexperiment verwendeten Gipfelgestalten. Jede Gipfelgestalt bildete die Grundlage für eine Stimulusserie. Den Gipfelgestalten lag das Konstruktionsprinzip aus Niebuhr (2003a, b) zugrunde (vgl. 3.1.1), nur die Werte der Transitionsdauern wurden verändert.
94 94
Eigene Einleitung Untersuchungen
Die Stimulusäußerung Alle F0-Manipulationen gingen von derselben Äußerung aus, die zuvor von einem männlichen Sprecher (bp) mit intendiert monotoner Sprechmelodie produziert wurde. Abweichend zu Niebuhr (2003a, b) wurde nicht die Äußerung „Sie war mal Malerin“ verwendet. In dieser Äußerung befinden sich lediglich zwei unakzentuierte Silben zwischen der (einzigen) Akzentsilbe „Ma-“ und dem Äußerungsende. Bei der Verschiebung des F0-Gipfels über die hintere Grenze des Akzentvokals [a:] hinaus bieten diese beiden Silben kein ausreichend großes stimmhaftes Intervall, um den F0-Gipfel vollständig darin zu realisieren. In der Folge wäre ein mit jedem Verschiebungsschritt sukzessive größeres Stück am Ende des Abstiegs abgeschnitten worden, insbesondere in Verbindung mit den flach absteigenden Gipfelgestalten s/f und f/f. Da sich dadurch nicht nur die phonetischen Eigenschaften des F0-Gipfels ändern, sondern auch das F0- bzw. Tonhöhenniveau am Äußerungsende (das im KIM und im AM-Modell phonologisch relevant ist, vgl. 2.5), wäre eine solche Vorgehensweise unter experimentellen Gesichtspunkten problematisch gewesen. Vor diesem Hintergrund wurde die Äußerung „Sie’s mal Malerin gewesen“ als Grundlage für die Stimuli verwendet. Sie enthält fünf unakzentuierte Silben zwischen der Akzentsilbe „Ma-“ aus „Malerin“ und dem Äußerungsende. Dadurch stand genügend Platz für die vollständige Umsetzung der F0-Gipfel zur Verfügung. Zugleich sind die Akzentsilbe und ihre umliegenden Silben („mal Malerin“), über denen sich die F0-Gipfel hauptsächlich ausprägen, in der neuen Äußerung segmentell genauso aufgebaut wie in der Äußerung aus Niebuhr (2003a, b). Etwaige Einflüsse der Silbenstruktur auf die Wahrnehmung sprechmelodischer Zeichen (wie sie in 3.2.2 und 3.3.2 präsentiert wurden) können so bei einem Vergleich der Ergebnisse beider Experimente vernachlässigt werden. Eine weitere Gemeinsamkeit zwischen der Äußerung aus Niebuhr (2003a, b) und der Äußerung aus diesem Experiment besteht darin, dass sie ab der Vorakzentsilbe (hier „mal“) bis zum Äußerungsende (phonologisch und phonetisch) durchgehend stimmhaft waren. Dadurch konnte die Variable F0 in diesem relevanten Bereich vollständig experimentell kontrolliert werden. Dies gilt sowohl seitens der Manipulation des F0, da nur stimmhafte Signalabschnitte über eine veränderbare Grundfrequenz verfügen, als auch seitens der Perzeption, da nur vermutet werden kann, welche Tonhöhen (-verläufe) Hörer in interferierenden stimmlosen Signalabschnitten perzipieren und wie sie zu diesen Perzepten gelangen.18 _____________ 18
Dass Hörer auch in stimmlosen Abschnitten des Sprachsignals ein Tonhöhenperzept haben, erscheint sicher. Jones (1969:275) beschreibt die perzeptorischen Eindrücke sprach
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
95 95
Die eingangs genannte Produktion der Äußerung „Sie’s mal Malerin gewesen“ mit einem intendiert ebenen Melodieverlauf, der physikalisch tatsächlich weitgehend eben war, sollte erstens dafür sorgen, dass die anschließende F0-Manipulation im Rahmen des PSOLA-Verfahrens in praat nicht zu hörbaren Artefakten führt, da die zu konstruierenden F0-Konturen insgesamt weniger stark von einem ebenen Verlauf abweichen als von einem Verlauf, der bereits einen F0-Gipfel enthält. Neben diesem Aspekt der Stimulusqualität sollte durch einen intendiert ebenen Melodieverlauf eine phonologische Neutralität der Ausgangsäußerung hergestellt werden, aus der nachfolgend alle Stimuli des Experimentes abgeleitet wurden. Im Gegensatz zur Produktion der Ausgangsäußerung mit einem der drei sprechmelodischen Zeichen GEGEBEN, NEU oder UNERWARTET kann so unterbunden werden, dass die Stimuli in experimentell nicht kontrollierten Signalparametern, die von potentieller Relevanz für die Erkennung der behandelten sprechmelodischen Zeichen sind (einige hiervon werden unter 4.2 und 4.3 noch erforscht), auf ein bestimmtes Zeichen weisen und so die Untersuchungsergebnisse zugunsten dieses Zeichens beeinflussen. Letztlich hat der intendiert flache F0-Verlauf auch dazu geführt, dass die Akzentsilbe „Ma-“ mit besonders großer Dauer realisiert wurde (233ms, 164ms davon entfielen auf den Akzentvokal). Diese markante Dauerstruktur gewährleistete, dass der Akzent für jede Position des F0-Gipfels (nach dem Eindruck des Versuchsleiters) perzeptorisch unzweifelhaft auf der Silbe „Ma-“ verblieb (vgl. 1.2.3). Die F0-Manipulation Die F0-Manipulationen wurden mit der PSOLA-Resynthese in praat durchgeführt. Dabei wurde das annähernd ebene F0 durch einen neuen _____________ licher Tonhöhenverläufe z.B. als „certainly subjectively continuous“. Solche Impressionen werden durch psychoakustische Experimente untermauert, die zeigen, dass Hörer Sinustonbewegungen, die von Rauschen unterbrochen werden, unter bestimmten Bedingungen kontinuierlich wahrnehmen können, also offenkundig die fehlenden Fragmente des Tonhöhenverlaufs ergänzen (vgl. z.B. Bregman 1990; siehe auch 5.4). Auf der anderen Seite ist aus dem Bereich der Sprachwahrnehmung ebenfalls bekannt, dass Hörer in geflüsterter Sprache, in der F0 durchgängig fehlt, auch zur Perzeption von Tonhöhen(-verläufen) gelangen (vgl. hierzu z.B. Traunmüller 1987). Hierbei handelt es sich nicht um eine Tonhöhenwahrnehmung durch Ergänzung, sondern um eine Tonhöhenwahrnehmung, die vermutlich unter anderem durch die Modulation der spektralen Zusammensetzung und Dauerstruktur des Rauschens zustande kommt. In normalen sprachlichen Äußerungen liegen nun primär stimmlose Signalabschnitte vor, in denen der Hörer sowohl über die Ergänzungsstrategie als auch über die Auswertung der zeitlichen und spektralen Eigenschaften des Rauschens zu einem Tonhöhenperzept gelangen kann. Wie diese beiden Strategien in solchen Fällen interagieren und welche Rolle es spielt, dass Sprachschall anders als psychoakustische Stimuli Informationen transportiert, ist bislang nur unzureichend erforscht.
96 96
Eigene Einleitung Untersuchungen
Verlauf ersetzt, der an 8 Konturpunkten stilisiert wurde (Konturpunkte repräsentieren Richtungswechsel im F0-Verlauf). Drei dieser 8 Konturpunkte gehörten zum F0-Gipfel (Beginn des Anstiegs, Gipfelmaximum, Ende des Abstiegs) und wurden je nach Gipfelgestalt und -position an unterschiedlichen Zeitpunkten im Signal platziert. Durch die übrigen fünf Konturpunkte wurde der F0-Gipfel in einen Vor- und Nachlauf eingebettet. Sie waren fest im Signal platziert. Abbildung 15 zeigt den stilisierten F0-Verlauf am Beispiel eines innervokalisch liegenden steil-steilen F0Gipfels (s/s). Die drei zeitlich variablen Konturpunkte des Gipfels sind schwarz, die fünf zeitlich fixierten Konturpunkte des Vor- und Nachlaufs grau dargestellt. Die Werte oberhalb der Konturpunkte geben deren Frequenzwerte in Hertz (rechts) bzw. in Halbtonschritten relativ zu 100Hz (links) an. Die Frequenzwerte aller Konturpunkte blieben unabhängig von der Gestalt und Position des F0-Gipfels unverändert.
Abbildung 15: Oszillogramm (oben) und der an 8 Konturpunkten stilisierte F0-Verlauf (unten) in der Stimulusäußerung „Sie’s mal Malerin gewesen“. Die grauen Konturpunkte repräsentieren den in Zeit (und Frequenz) konstant gehaltenen leicht fallenden Vor- und Nachlauf. Die drei schwarzen Konturpunkte in der Mitte des F0-Verlaufs zeigen die zeitlich variablen F0-Gipfelpunkte an. Exemplarisch ist ein innervokalisch liegender F0-Gipfel der s/s-Gestalt dargestellt. Oberhalb der Konturpunkte sind die dazugehörigen F0-Werte in Hertz (rechts) und in Halbtonschritten (relativ zu 100Hz, links) angegeben. Die senkrechten Linien im Oszillogramm zeigen die Grenzen der als stimmhaft klassifizierten Signalperioden an.
Wie aus Abbildung 15 zu erkennen ist, wurde der (von links nach rechts betrachtet) erste Konturpunkt des Vorlaufs zum F0-Gipfel an der ersten stimmhaften Signalperiode (diese Klassifikation geht auf die Analyse in praat zurück) bei einem F0-Wert von 100Hz platziert. Die erste stimmhafte Signalperiode entsprach dem Beginn des Vokals [K] in „Sie’s“. Der zweite Konturpunkt des Vorlaufs lag am Ende dieses Vokals bei 95Hz.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
97 97
Der Nachlauf des F0-Gipfels fiel über drei Konturpunkte, die jeweils in der Vokalmitte der Silben „ge-“ und „-we-“ aus „gewesen“ sowie an der letzten stimmhaften Signalperiode der Äußerung platziert waren, bis auf einen als terminal wahrgenommenen F0-Wert von 66Hz ab. Der F0-Gipfel selbst überspannte sowohl im Anstieg als auch im Abstieg ein Frequenzintervall von 7 Halbtonschritten bzw. 45Hz. Das Gipfelmaximum lag dabei bei 134Hz, der F0-Wert am Beginn des Anstiegs sowie am Ende des Abstiegs betrug jeweils 89Hz. Dadurch, dass der Vorlauf über dem Beginn des Anstiegs zum F0Gipfel einsetzt und der Nachlauf unter dem Ende des Abstiegs vom F0Gipfel liegt, erhält die F0-Kontur der Äußerung insgesamt gesehen eine leichte Deklination19, die den Natürlichkeitseindruck beim Hörer erhöhen sollte. In diesem Sinne ist es auch zu sehen, dass die F0-Werte aller Konturpunkte des konstruierten F0-Verlaufs am ursprünglich vom Sprecher (bp) produzierten F0-Niveau ausgerichtet waren. Letzteres wird in Abbildung 15 als grau gepunktete Linie angezeigt. Die drei Konturpunkte des F0-Gipfels wurden parallel in der Zeit verschoben, sodass die Gipfelgestalt nach jedem Verschiebungsschritt identisch blieb. Das Zeitfenster und -intervall der Verschiebung wurde durch den Synchronisationsraum vorgegeben. Der für dieses Experiment gewählte Synchronisationsraum sah fünf Verschiebungen in äquidistanten Schritten von jeweils 20ms vor. Das Zeitfenster der Verschiebung betrug somit 100ms. Die Verschiebung ging von einem F0-Gipfel aus, der – gemessen am F0-Maximum – an der hinteren Grenze des Akzentvokals [a:] positioniert wurde. Von hier aus fanden zwei Gipfelverschiebungen nach links in Richtung Vokalanfang und drei Gipfelverschiebungen nach rechts über das Ende des Akzentvokals hinaus statt. Phonetisch wird damit ein Bereich von inner- zu postvokalischen Gipfelpositionen abgedeckt, von dem anzunehmen ist, dass hierin befindliche F0-Gipfel (für den lautlichen Kontext der gegebenen Äußerung, vgl. hierzu 3.2.1) prinzipiell die Wahrnehmung der Zeichen NEU und UNERWARTET evozieren können. Die beschriebene Verschiebung von inner- zu postvokalisch wurde mit jeder der vier F0-Gipfelgestalten aus Abbildung 14 durchgeführt. Auf _____________ 19
Bei der Deklination handelt es sich um ein sukzessives Abfallen des F0-Niveaus vom Beginn bis zum Ende einer Äußerung bzw. Phrase, das annähernd linear modelliert werden kann (vgl. Cohen und ´t Hart 1967; Pierrehumbert 1980; Grønnum 1992). Nach Liberman und Pierrehumbert (1984:161) zum Beispiel liegt Deklination vor, wenn „the range of F0 values employed is narrower and lower at the end of the phrase than at the beginning“. Aufgrund der großen Verbreitung dieses Phänomens über die Sprachen der Welt wird kontrovers diskutiert, ob es auf physiologische Eigenschaften des Sprechapparates zurückzuführen ist (siehe hierzu z.B. Maeda 1974; Ohala 2004).
98 98
Eigene Einleitung Untersuchungen
diese Weise entstanden vier Stimulusserien mit jeweils 6 Stimuli. In jeder Serie fällt das Maximum des F0-Gipfels in Stimulus 3 mit dem Ende des Akzentvokals zusammen. Abbildung 16 zeigt die 6 Gipfelverschiebungen (und damit gleichzeitig die F0-Verläufe der 6 Stimuli) für die beiden symmetrischen Gipfelgestalten s/s und f/f über dem Oszillogramm und Sonagramm der Stimulusäußerung „Sie’s mal Malerin gewesen“. Wie der Abbildung zu entnehmen ist, liegt der am weitesten über das Ende des Akzentvokals hinausgeschobene F0-Gipfel (also der F0-Gipfel in Stimulus 6 jeder Serie) kurz nach dem Vokalbeginn der nachfolgenden unakzentuierten Silbe „-le-“ (letzterer ist in Abb. 16 durch die ganz rechte gepunktete Linie gekennzeichnet). Darüber hinaus ist in Abbildung 16 zu erkennen, dass der Beginn des Anstiegs zum Gipfel unter der Bedingung einer kurzen Transitionsdauer bzw. einer steilen Gipfelflanke (s/s und s/f) unabhängig von der Gipfelposition im Akzentvokal lag. Für die beiden F0-Gipfel mit großer Anstiegsdauer und dementsprechend flacher Gipfelflanke (f/f und f/s) lag der Beginn des Anstiegs hingegen immer vor dem Akzentvokal (Der Beginn des Akzentvokals ist in Abb. 16 durch die ganz linke gepunktete Linie gekennzeichnet).
Abbildung 16: Die sechs F0-Gipfelpositionen im Synchronisationsraum von inner- zu postvokalisch. Jeweils ausgehend von einem an der hinteren Grenze des Akzentvokals positionierten F0-Gipfel wurden zwei Verschiebungsschritte nach links und drei nach rechts vorgenommen. Die Gipfelverschiebung wurde analog für alle vier Gipfelgestalten durchgeführt. Exemplarisch sind die Gipfelgestalten s/s (links) und f/f (rechts) wiedergegeben. Über der Gipfelverschiebung ist das Oszillogramm (oben) und das Sonagramm (Mitte) der Äußerung „Sie’s mal Malerin gewesen“ dargestellt. Die gepunkteten Linien kennzeichnen (von links nach rechts) den Beginn des Akzentvokals, das Ende des Akzentvokals und den Beginn des Vokals der nachfolgenden Silbe in „Malerin“.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
99 99
Die Manipulation der Intensität Durch die Produktion der Stimulusäußerung mit einem intendiert flachen F0-Verlauf ist der äußerungsfinale Intensitätsrückgang nahezu vollständig ausgeblieben (vgl. hierzu zum Beispiel die Schilderungen bei Kohler 1991a). Er musste durch eine Intensitätsmanipulation nachträglich hergestellt werden. Dafür wurde das Intensitätsniveau über „gewesen“ silbenweise von knapp 80% über 60% bis zuletzt auf 28% heruntergesetzt. Die Manipulation fand in cool edit (siehe www.cooledit.com) statt. Die genannten Werte wurden auf einer perzeptorischen Basis gewählt. Die beschriebene Manipulation wurde in identischer Weise für die 6 Stimuli aller 4 Stimulusserien durchgeführt. Abbildung 17 zeigt das hierfür verwendete Intensitätsmuster (die prozentuale Veränderung der Signalelongationen über einen gewählten Zeitraum) neben dem markierten Signalbereich ab dem initialen velaren Plosiv [g] von „gewesen“ bis zum Äußerungsende. Auf Basis der in F0 und Intensität bearbeiteten Stimuli konnten nun Hörtests entstehen, deren Konstruktion nachfolgend geschildert wird.
Abbildung 17: Intensitätsmuster (im Fenster oben links) für die Erzeugung des äußerungsfinalen Intensitätsabstiegs über dem zur Wortform „gewesen“ gehörigen weiß unterlegten Signalabschnitt (großes Fenster) in allen Stimuli mit Hilfe von cool edit.
100 100
Eigene Einleitung Untersuchungen
Zur Konstruktion der Hörtests des Experimentes Aus jeder der zuvor generierten Stimulusserien wurde ein eigenständiger Hörtest konstruiert. Die einzelnen Hörtests waren in einen gemeinsamen Experimentrahmen eingebettet, der das experimentelle Paradigma und damit das Konstruktionsprinzip für alle Tests gleichermaßen vorgab. Bei dem Paradigma handelte es sich um den Identifikationstest wie er unter anderem von Kohler (1987, 1991c) und Niebuhr (2003a, b) verwendet wurde (siehe 2.3.2). Dieser Test nutzt aus, dass sich die Gesamtbedeutung der Stimulusäußerung bei einem Wechsel des sprechmelodischen Zeichens verändert, wodurch nur Stimuli mit einem der beiden untersuchten Zeichen (in diesem Fall NEU oder UNERWARTET) mit dem vorangestellten Kontext inhaltlich kompatibel sind. Die Beurteilung der Kompatibilität durch Hörer entspricht insofern einer indirekten Identifikation der untersuchten Zeichen. Als Kontext wurde die Äußerung „Ganz bestimmt“ gewählt, die mit dem sprechmelodischen Zeichen NEU in der Akzentsilbe „-stimmt“ realisiert wurde. Der Sprecher des Kontextes (bp) war derselbe wie in der Stimulusäußerung „Sie’s mal Malerin gewesen“. Der Kontext wurde so produziert, dass er in F0-Niveau, Sprechgeschwindigkeit und Stimmqualität mit den Stimuli vergleichbar war. Alles zusammen sollte es ermöglichen, dass die Kontext-Stimulus-Paare von den Versuchspersonen prinzipiell als zusammenhängend geäußert wahrgenommen werden konnten, was für die gemeinsame inhaltliche Bewertung in einem Identifikationstest wesentlich ist. Um andererseits Kontext und Stimulus aufeinander beziehen zu können, müssen sie als eigenständige Äußerungen wahrgenommen werden können. Um dies zu erreichen, wurde mit Blick auf empirische Befunde (vgl. hierzu Peters 2006; Koiso et al. 1998) eine Pausendauer von 100ms zwischen Kontext und Stimulus eingefügt. Der verwendete Kontext signalisiert seitens des Sprechers das Anliegen, dass der Hörer die zuvor vom Sprecher schon genannte Information – nämlich „Sie’s mal Malerin gewesen“ – als zutreffende neue Information anerkennt. In der anschließenden (und im Rahmen der skizzierten Dialogsituation erneuten) Verbalisierung dieser Information in der Stimulusäußerung muss sich die Signalisierung dieses Anliegens des Sprechers fortsetzen, damit Kontext und Stimulus eine inhaltlich stimmige Einheit bilden. Dies geschieht durch das sprechmelodische Zeichen NEU in der Akzentsilbe „Ma-“ aus „Malerin“. Die Wortfolge des Kontextes „Ganz bestimmt“ macht es hingegen sehr unwahrscheinlich, dass hierauf (in der Stimulusäußerung) ein Widerspruch zu einer Erwartungshaltung zum Ausdruck gebracht wird, weder zu der des Sprechers, der sich der mitzuteilenden Information ganz sicher ist, noch zu der des Hörers, da die betreffende Information zuvor bereits mindestens einmal mitgeteilt wurde. Die Stimu-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
101 101
lusäußerung „Sie’s mal Malerin gewesen“ in Verbindung mit dem sprechmelodischen Zeichen UNERWARTET ist daher im gegebenen Kontext abwegig. Die 6 Kontext-Stimulus-Paare, die für jede der vier Serien entstanden, wurden verachtfacht und automatisch in eine serienindividuell randomisierte Reihenfolge gebracht. Die 48 Paare (für jeden der vier Identifikationstests) wurden durch einen Signalton eingeleitet. Nach jedem zehnten Paar wurden zwei Signaltöne eingefügt. Auf jedes Paar folgte eine Pause von vier Sekunden, in der die Versuchspersonen in der vorgesehenen Weise auf das Paar reagieren konnten (dies wird im nachfolgenden Abschnitt zur Durchführung des Experimentes weiter ausgeführt). Die einzelnen Elemente summierten sich zu einer Dauer von 6 Minuten auf, die für alle vier Hörtests (in diesem Fall Identifikationstests) identisch war. Zur Durchführung des Perzeptionsexperimentes Die vier Hörtests zu jeder Gipfelgestalt wurden alle mit derselben Versuchspersonengruppe durchgeführt, die aus insgesamt 20 Personen, zumeist Studierenden, bestand. Davon waren 12 weiblich und 8 männlich. Nach eigenen Angaben waren alle Personen deutsche Muttersprachler mit normalem Hörvermögen. Einige Versuchspersonen haben schon einmal an anderen, ähnlich aufgebauten Hörtests teilgenommen. Dies lag allerdings bereits mehrere Monate zurück. Die Versuchspersonengruppe wurde in vier Untergruppen aufgeteilt. Zwischen den einzelnen Untergruppen wurde die Reihenfolge gewechselt, in der die vier Hörtests präsentiert wurden. Da die Versuchspersonen viermal mit analog aufgebauten Tests konfrontiert wurden, musste berücksichtigt werden, dass Erfahrungs- und Lerneffekte das Antwortverhalten der Probanden verändern konnten. Der Entstehung dieser Effekte kann nicht vorgebeugt werden. Durch die Permutation der Hörtests sollte aber vermieden werden, dass sich Erfahrungs- und Lerneffekte auf bestimmte Tests konzentrierten. Gleichzeitig sollte auf diese Weise verhindert werden, dass die Präsentationsreihenfolge der vier Gipfelgestalten zu Artefakten in den Ergebnisdaten führt. Zu Beginn jeder Sitzung erhielten die Versuchspersonen schriftliche Instruktionen. Sie sind dieser Arbeit auf der CD im Anhang A beigefügt. Hierin wurde ihnen erklärt, dass sie die Äußerungspaare (bestehend aus Kontext- und Stimulusäußerung) dahingehend beurteilen sollten, ob sie eher gut oder eher schlecht zusammenpassen. Es musste immer eine dieser beiden Antwortmöglichkeiten gegeben werden. In diesem Sinne handelt es sich um Tests, die in der Literatur unter dem Begriff des 2AFCTest (two-alternative forced-choice test) bekannt sind. Die Versuchspersonen sollten ihre Entscheidung möglichst spontan treffen.
102 102
Eigene Einleitung Untersuchungen
Im Unterschied zu der bislang gebräuchlichen Formulierung (siehe z.B. Kohler 1987, 1991c in 2.3.2 oder Niebuhr 2003a, b) wurden die Wörter eher gut bzw. eher schlecht in die Instruktion eingefügt. Dies basiert auf der Überlegung, dass besonders im Hinblick auf die relationalen Bedeutungen der untersuchten sprechmelodischen Zeichen (vgl. 1.3.1) immer ein Szenario erdacht werden könnte, in der auch die zuvor als inkompatibel klassifizierten Kombinationen sprechmelodischer Zeichen zusammenpassen und die kompatiblen nicht zusammenpassen würden. In den Hörtests sollte es jedoch darum gehen, den Regelfall zu beurteilen. Die eingefügten Wörter sollten den Versuchspersonen dies andeuten und ihnen so die Entscheidung erleichtern. Auf diese Weise könnte für einige Probanden ein profilierteres Bewertungsverhalten erreicht werden. Ferner wurde den Versuchspersonen im Rahmen der schriftlichen Instruktionen mitgeteilt, dass die erste Äußerung in einem Paar natürlich produziert wurde und immer gleich blieb. Die zweite wurde künstlich bearbeitet und variiert. Die Probanden wurden angewiesen, klangliche Eigenschaften der zweiten Äußerung, die sie für Effekte der künstlichen Bearbeitung hielten, bei ihrer Bewertung als eher gut oder eher schlecht zusammenpassend zu ignorieren. Diese Anweisung sollte verhindern, dass die Versuchspersonen allein aufgrund des leicht unterschiedlichen Natürlichkeitseindrucks zwischen Kontext und Stimulus die Äußerungspaare immer als eher schlecht zusammenpassend beurteilten (der genannte Eindruck ist im Rahmen einer vorherigen Überprüfung aller Hörtests beim Versuchsleiter und einem weiteren trainierten Hörer, ga, entstanden). Auch in dieser Hinsicht erschienen die Formulierungen mit eher gut und eher schlecht hilfreich. Abschließend wurden die Versuchspersonen darüber in Kenntnis gesetzt, wieviele Hörtests sie in der beschriebenen Weise zu beurteilen hatten und dass sie vorweg einen Test zur Übung erhalten würden. Diese Übung wurde durch die Kontext-Stimulus-Paare mit den beiden extremen F0-Gipfelpositionen aus allen vier Hörtests gebildet. Die Übung bestand folglich aus 8 Kontext-Stimulus-Paaren. Sie sollte dazu dienen, die Versuchspersonen mit der nachfolgend zu beurteilenden Reizbandbreite und dem Testablauf an sich vertraut zu machen. Hierdurch sollten die Versuchspersonen in die Lage versetzt werden, schnellere und reliablere Urteile in den darauf präsentierten eigentlichen Hörtests zu treffen. Die Hörtests selbst wurden in Form von wav-Dateien von einem Laptop aus in einem schallberuhigten Raum über Lautsprecher abgespielt. Die Lautstärke wurde vor Beginn des ersten Hörtests auf ein komfortables Niveau eingestellt und blieb danach für alle Hörtests unverändert. Die Probanden haben ihre Antworten durch das Drücken zweier Tasten auf einem vor ihnen platzierten kleinen Kästchen abgegeben. Alle diese Käst-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
103 103
chen waren mit einer zentralen Einheit, dem am IPdS entwickelten RMG 3, verbunden, das die Antwort registriert und gleichzeitig die Reaktionszeit für die jeweilige Antwort auf die präsentierten Stimuli gemessen hat, beginnend ab einem zuvor festgelegten Punkt. 4.1.2 Die Ergebnisse des Perzeptionsexperimentes zur Gipfelgestalt Jede Versuchsperson hat alle Kontext-Stimulus-Paare innerhalb des eingestellten Reaktionszeitfensters von vier Sekunden als eher gut oder eher schlecht zusammenpassend beurteilt. Im Rahmen der vier Hörtests, die jeweils 48 solcher Paare enthielten, hat sie somit insgesamt 192 Urteile abgegeben (die in der Übung abgegebenen Urteile nicht mitgerechnet). Für jedes Kontext-Stimulus-Paar liegt entsprechend – über die 20 Versuchspersonen betrachtet – die maximale Zahl von 160 Urteilen vor. Die gewonnenen Daten wurden graphisch aufbereitet und prüfstatistisch ausgewertet. Im Rahmen der graphischen Aufbereitung wurden Polygone relativer Häufigkeiten gezeichnet, die als Identifikationsfunktionen bezeichnet werden sollen. Hierzu wurde für jedes Kontext-Stimulus-Paar berechnet, in wieviel Prozent der pro Paar insgesamt abgegebenen 160 Urteile es als eher schlecht zusammenpassend bewertet wurde. Diese Einzelwerte wurden über den aufsteigend sortierten Stimulusnummern (1-6) linear zu einem Polygon verbunden. Diese (lineare) Interpolation betont die Richtung von Veränderungen im Urteilsverhalten und trägt so zur Klarheit in der Ergebnisdarstellung bei. Die aufsteigende Sortierung der Stimuli entspricht der vorgenommenen zeitlichen Verschiebung des F0-Gipfels von einer innervokalischen Position im hinteren Drittel des Akzentvokals zu einer postvokalischen Position in der nachfolgenden unakzentuierten Silbe. Paarweise Vergleiche für die Identifikationsfunktionen zu den vier Stimulusserien mit den F0-Gipfelgestalten s/s, s/f, f/s und f/f sind in der Abbildung 18(a)-(f) dargestellt. Zusätzlich zu der graphischen Aufbereitung der Ergebnisdaten wurde eine inferenzstatistische Auswertung vorgenommen. Hierbei sollte überprüft werden, ob die vier unterschiedlichen Gipfelgestalten die Wahrnehmung der Zeichen NEU und UNERWARTET im Sinne der Hypothesen (A2) und (A3) beeinflusst haben. Ein solcher Einfluss würde sich im Rahmen des Identifikationstests in einer unterschiedlichen Kompatibilitätsbewertung der Kontext-Stimulus-Paare (mit jeweils gleichen F0-Gipfelpositionen im Stimulus und entsprechend gleichen Stimulusnummern) niederschlagen. Auf dieser Grundlage wurden – parallel zu den 6 Paarvergleichen in Abbildung 18(a)-(f) – 12 statistische Tests durchgeführt. Die Zahl der
104 104
Eigene Einleitung Untersuchungen
statistischen Tests fällt doppelt so groß aus wie die Zahl der Paarvergleiche, da für jeden Paarvergleich zwei Tests durchgeführt wurden, einer für die Stimulusgruppe 1-3 mit innervokalisch positionierten F0-Gipfeln und einer für die Stimulusgruppe 4-6 mit postvokalisch positionierten F0Gipfeln. Eine solche Bipartitionierung des Synchronisationsraumes wurde bereits in der Untersuchung zum Einfluss der Gipfelgestalt bei Niebuhr (2003a, b) vorgenommen. So konnten diejenigen Bereiche, die Erkenntnissen aus der Akustik zufolge die charakteristischen Gipfelpositionen für beide beteiligten sprechmelodischen Zeichen abdecken (vgl. hierzu Abb. 3 und 3.2.1), prüfstatistisch getrennt voneinander analysiert werden. Hierbei ist zu beachten, dass dies nicht gleichbedeutend damit ist, dass die beiden Zeichen selbst separat analysiert wurden. Bereits aufgrund der Erkenntnisse aus früheren Identifikationstests, nach denen ein gradueller Übergang zwischen den untersuchten sprechmelodischen Zeichen zu erwarten war (vgl. u.a. 2.3.2 und 3.1.1), erschien dies nicht möglich. Darüber hinaus ist der potentielle Einfluss der Gipfelgestalt auf die Position des Übergangs zwischen den sprechmelodischen Zeichen zu berücksichtigen. Es wurde jedoch in der Tat damit gerechnet, dass eine gewisse Korrespondenz zwischen der Trennung der Stimuli mit inner- und postvokalischen F0-Gipfeln und der Wahrnehmung der Zeichen NEU und UNERWARTET bestehen würde, die groß genug ist, damit der Einfluss der Gipfelgestalt getrennt für beide Zeichen sichtbar gemacht werden kann (vorausgesetzt, es kommt in Verbindung mit der jeweiligen Gipfelgestalt überhaupt zur Wahrnehmung beider Zeichen). Die Unterteilung der Stimulusserien ist in Abbildung 18(a)-(f) durch vertikale Linien in den paarweisen Vergleichen der Identifikationsfunktionen dargestellt. Die 12 statistischen Tests sollten nun zeigen, ob sich die pro Versuchsperson aufsummierten ‚passt eher gut’-Urteile, die sich für zwei Stimulusgruppen aus unterschiedlichen Serien (z.B. für die aus den Stimuli 1-3 bestehenden Gruppen der Serien s/s und f/f) ergeben haben, statistisch signifikant voneinander unterscheiden. In einem solchen Test ist die Gipfelgestalt der jeweiligen Stimulusserie die unabhängige Variable und die Summe der ‚passt eher gut’-Urteile über die drei Stimuli einer Gruppe die abhängige Variable. Die Stichprobengröße entspricht der Anzahl der Versuchspersonen (n=20). Da es sich um dieselben Versuchspersonen handelte, die die Stimuli aller vier Serien hinsichtlich ihres Zusammenpassens mit der Kontextäußerung bewertet haben, liegen abhängige Stichproben vor. Ferner ist hervorzuheben, dass die Summen der ‚passt eher gut’-Urteile Werte zwischen 0-24 annehmen können. Dabei zeigt zum Beispiel ein Wert von 20 an, dass die Stimuli genau doppelt so häufig mit dem gegebenen Kontext als eher gut zusammenpassend beurteilt wurden wie bei einem Wert von 10. Für die Daten, die den statistischen Tests zugrunde-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
105 105
liegen, kann somit ein metrisches Niveau angenommen werden. Letzteres erlaubt es grundsätzlich, t-Tests für abhängige Stichproben in den 12 Paarvergleichen durchzuführen. Bevor dies jedoch geschehen konnte, wurde mit dem bei Sachs (1972) geschilderten Verfahren von David et al. (1954) kontrolliert, ob die Verteilung der 20 Differenzen zwischen den abhängigen Summen in jedem der 12 Paarvergleiche annähernd einer Normalverteilung entsprach (die genannten 20 Differenzen entstehen, wenn die Werte der aufsummierten ‚passt eher gut’-Urteile zweier der miteinander verglichenen Stimulusgruppen pro Versuchsperson subtrahiert werden). Die Verteilung der Differenzen galt dann als annähernd normal, wenn die Irrtumswahrscheinlichkeit für die Ablehnung der Normalitätshypothese mindestens 10% betrug. Die Resultate der erläuterten Prüfung auf Normalität sind im Anhang C der beigefügten CD einzusehen. Die Ergebnisrohdaten befinden sich im Anhang B. Es hat sich ergeben, dass in 9 der Vergleiche die Differenzen auf Basis des genannten Kriteriums als annähernd normalverteilt gelten konnten. Hier wurden t-Tests gerechnet. Die anderen drei Vergleiche weisen nicht normalverteilte Differenzen der abhängigen Summen auf. In diesen Fällen wurde mit dem Wilcoxon-Test für Paardifferenzen (Wilcoxon matched pairs signed rank test) ein verteilungsfreies Verfahren zur Prüfung der abhängigen Summen auf signifikante Unterschiede herangezogen. Die Ergebnisse der 12 statistischen Tests sind in Tabelle 1 zusammengefasst. Abbildung 18 zeigt, dass die Stimuli 1, 2 und 3 mit innervokalischen F0-Gipfelpositionen unabhängig von der Gipfelgestalt für die Versuchspersonen in 70-80% der Fälle eher gut mit dem vorangehenden Kontext „Ganz bestimmt“ zusammengepasst haben. Zwischen den Identifikationsfunktionen sind in diesem Synchronisationsbereich nur geringe Unterschiede zu erkennen. Die prüfstatistische Analyse geht mit diesem Bild konform. So finden sich keine signifikanten Unterschiede zwischen den ‚passt eher gut’-Urteilen, die über die Stimuli 1-3 mit den jeweiligen Gipfelgestalten aufsummiert wurden (siehe Tabelle 1). Mit der Verschiebung des F0-Gipfels in den postvokalischen Bereich im Rahmen der Stimuli 4-6 spalten sich die bis dahin gebündelt verlaufenden Identifikationsfunktionen in zwei Gruppen auf. Für die Stimuli mit den beiden steil ansteigenden Gipfelgestalten s/s und s/f zeigt Abbildung 18(a) eine deutliche Änderung des Beurteilungsverhaltens. Je weiter der F0-Gipfel über den Ausgang des Akzentvokals hinaus geschoben wurde, desto häufiger wurden die Stimuli als eher schlecht mit dem Kontext zusammenpassend empfunden. Der sechste Stimulus, in dem sich der F0Gipfel bzw. dessen Maximum 60ms nach dem Akzentvokal befand, passte in deutlich über der Hälfte der Fälle (knapp 70%) eher schlecht mit dem vorangehenden Kontext zusammen.
106 106
Eigene Einleitung Untersuchungen
(a)
(b)
(c)
(d)
(e)
(f)
Abbildung 18: Paarvergleiche zwischen den vier Identifikationsfunktionen zu den Hörtests der vier Stimulusserien mit den Gipfelgestalten f/f, f/s, s/f und s/s im Synchronisationsraum von inner- zu postvokalisch. Vertikale Linien verweisen auf eine getrennte prüfstatistische Auswertung der Stimuli 1-3 und 4-6. Jeder Wert gibt 160 Urteile wieder. Datentabellen befinden sich im Anhang B auf der beiliegenden CD.
107 107
Zum Begriff der Sprechmelodie Zur Gipfelgestalt Stim. s/s vs. s/f f/f vs. f/s s/s vs. f/s f/f vs. s/f f/s vs. s/f s/s vs. f/f
t|R
df
p
1-3
0,661 | -
19
n.s.
4-6
-1,322 | -
19
n.s.
1-3
0,987 | -
19
n.s.
4-6
- | 43,5
16
n.s.
1-3
0,043 | -
19
n.s.
4-6
-3,955 | -
19
>0,001***
1-3
- | 33,5
16
n.s.
4-6
-3,366 | -
19
>0,01**
1-3
- | 36
15
n.s.
4-6
-4,642 | -
19
>0,001***
1-3
0,507 | -
19
n.s.
4-6
-2,601 | -
19
>0,05*
Tabelle 1: Werte der Prüfgrößen (t) oder (R), Freiheitsgrade (df) und Wahrscheinlichkeit eines Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) für die 12 Tests abhängiger Stichproben über die Teilsummen der ‚passt eher gut’-Urteile zu den Kontext-Stimulus-Paaren mit den Stimulusnummern 1-3 bzw. 4-6 ( Stim.) aus den Serien mit den vier F0-Gipfelgestalten f/f, f/s, s/f und s/s des Synchronisationsraumes von inner- zu postvokalisch. Die dargestellten Vergleiche beziehen sich auf Abbildung 18(a)-(f). Rohdaten befinden sich im Anhang B (CD).
Anders verhält es sich bei den Stimuli mit den flach ansteigenden F0Gipfeln f/f und f/s. Die dazugehörigen Identifikationsfunktionen sind in Abbildung 18(b) dargestellt. Wie hieraus zu entnehmen ist, werden die Stimuli 4-6 mit diesen Gipfelgestalten im gegebenen Kontext kaum anders bewertet als die Stimuli 1-3, auch wenn eine schwache Veränderung des Urteilsverhaltens hin zu ‚passt eher schlecht’ insbesondere in Verbindung mit den f/f-Gipfeln durchaus sichtbar ist. Dennoch war auch Stimulus 6 mit dem am weitesten postvokalisch positionierten F0-Gipfel in der f/f- und f/s-Bedingung noch klar in über der Hälfte der Fälle mit dem Kontext zusammen vereinbar. Die beschriebene Divergenz zwischen den Identifikationsfunktionen von s/s und s/f auf der einen und f/f und f/s auf der anderen Seite, die in den Abbildungen 18(c)-(f) deutlich zu erkennen ist, wird in den prüfstatistischen Befunden reflektiert. Tabelle 1 zeigt in allen vier Vergleichen, dass die Stimuli 4-6, in denen der F0-Gipfel nach dem Akzentvokal lag, in der Summe signifikant mehr ‚passt eher gut’-Urteile erhalten haben, wenn sie die steil ansteigenden F0-Gipfel enthielten als wenn sie mit den flach ansteigenden F0-Gipfeln kombiniert dargeboten wurden.
108 108
Eigene Einleitung Untersuchungen
4.1.3 Die Diskussion der Ergebnisse des Perzeptionsexperimentes zur Gipfelgestalt Die Wortfolgen der beiden Äußerungen „Ganz bestimmt“ und „Sie’s mal Malerin gewesen“ sind prinzipiell kombinierbar. Durch das sprechmelodische Zeichen NEU, das über der Akzentsilbe „-stimmt“ in der Kontextäußerung realisiert wurde, erhält diese Äußerung jedoch in Verbindung mit ihrer Wortfolge eine bestimmte Sprecherattitüde. Diese schränkt die Kombinierbarkeit mit der nachfolgenden Stimulusäußerung „Sie’s mal Malerin gewesen“ ein. Die Stimulusäußerung bleibt vor allem dann weiterhin gut mit der Kontextäußerung kombinierbar, wenn in ihr ebenfalls das sprechmelodische Zeichen NEU (in „Ma-“ aus „Malerin“) vorkommt. Zusammen mit dem sprechmelodischen Zeichen UNERWARTET kann die Stimulusäußerung hingegen keine inhaltlich naheliegende Verbindung mit dem vorangehenden Kontext eingehen. Angesichts dessen werden die Ergebnisdaten so interpretiert, dass in der Beurteilung der Kontext-StimulusPaare als eher gut zusammenpassend die Identifikation des Zeichens NEU im Stimulus zum Ausdruck kommt, während das Urteil ‚passt eher schlecht’ die Identifikation des Zeichens UNERWARTET im Stimulus wiedergibt.20 Zur Hypothese (A1) Lediglich für die Stimuli mit den steil ansteigenden F0-Gipfeln der Art s/s und s/f hat sich eine Verlagerung der Urteile von mehrheitlich ‚passt eher gut’ zu mehrheitlich ‚passt eher schlecht’ ergeben. Wie in Niebuhr (2003a, b) soll auch im Rahmen der vorliegenden Arbeit das nachhaltige Überqueren der 50%-Marke im Urteilsverhalten über alle Versuchspersonen als Kriterium dafür verwendet werden, dass ein Übergang von der Wahrnehmung des einen sprechmelodischen Zeichens zur Wahrnehmung des anderen sprechmelodischen Zeichens stattgefunden hat (siehe 3.1.3). Während für _____________ 20
Es muss klar sein, dass diese Interpretation eine gewisse Vereinfachung darstellt. Streng genommen kann z.B. an der Beurteilung der Kontext-Stimulus-Paare als eher schlecht zusammenpassend nicht direkt abgelesen werden, dass in diesen Paaren das Zeichen UNERWARTET im Stimulus erkannt wurde. Es kann lediglich mit gewisser Sicherheit die negative Schlussfolgerung gezogen werden, dass nicht das Zeichen NEU erkannt wurde. Dass das ‚passt eher schlecht’-Urteil dennoch als Indikator für die Wahrnehmung des Zeichens UNERWARTET aufgefasst wird, basiert auf den vorliegenden Erkenntnissen zur phonetischen Ausprägung dieses Zeichens und auf der Annahme, dass kein weiteres Zeichen existiert, das in seinen phonetischen Eigenschaften „zwischen“ NEU und UNERWARTET einzuordnen ist. Insofern liegt der Interpretation der Ergebnisse der aktuelle phonetische und phonologische Forschungsstand zugrunde. Weitere Vereinfachungen und ihre Konsequenzen für die Schlussfolgerungen aus den Ergebnisdaten werden im Rahmen einer allgemeinen Diskussion des Identifikationstest-Paradigmas im Anschluss an die Darstellung der eigenen Untersuchungen in 4.4.3 angesprochen.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
109 109
die Stimuli mit den beiden steil ansteigenden F0-Gipfeln s/s und s/f somit ein Wahrnehmungsübergang von NEU zu UNERWARTET eingetreten ist, ist er bei den Stimuli mit den beiden flach ansteigenden F0-Gipfeln f/f und f/s ausgeblieben. Folglich hat sich die Hypothese (A1) für die verwendeten Kontext-Stimulus-Paare nicht bestätigt. Die F0-Gipfel f/f und f/s waren zur Signalisierung des Zeichens UNERWARTET nicht geeignet. Die Gründe hierfür werden im weiteren Verlauf der Diskussion noch eruiert. In den Identifikationsfunktionen von f/f und f/s ist allerdings der Beginn einer solchen Wahrnehmungsveränderung vom einen zum anderen sprechmelodischen Zeichen zu erkennen (vgl. Abb. 18b). Aufgrund dessen ist nicht auszuschließen, dass im Falle einer weiteren Verschiebung des F0-Gipfels nach rechts über das Ende des Akzentvokals hinaus auch die flach ansteigenden F0-Gipfel mehrheitlich als das Zeichen UNERWARTET identifiziert worden wären. Insofern gilt die Ablehnung der Hypothese (A1) nicht grundsätzlich, sondern nur im Rahmen des präsentierten und beurteilten Synchronisationsraumes. Hierbei ist jedoch zu berücksichtigen, dass einer derartigen Verschiebung Grenzen gesetzt sind. Untersuchungen von Kohler (1991c) sowie von Landgraf (2003) beispielsweise haben sowohl für steigend-fallende F0-Gipfel als auch für (fallend-)steigende F0-Täler eindeutig gezeigt, dass durch eine Rechtsverschiebung des lokalen F0-Gipfels bzw. -Tals eine Verlagerung des Akzents auf die nachfolgende Silbe hervorgerufen wird (hier „-le-“ in „Malerin“). Das heißt, die Äußerung ist phonologisch und auch inhaltlich nicht länger dieselbe. Beim Entwurf des Synchronisationsraumes, der für das vorliegende Experiment zur Gipfelgestalt verwendet wurde, war nach Ansicht des Versuchsleiters diese Grenze nahezu erreicht. Obwohl die Grenze der Akzentverschiebung über entsprechende Veränderungen in der Dauer- und Intensitätsstruktur weiter nach hinten verlagert werden kann (auch dies wird durch die Entstehung rhythmischer Unebenheiten limitiert), wäre es daher ebenso unangemessen, a priori davon auszugehen, dass nur eine weitere Rechtsverschiebung erforderlich gewesen wäre, damit auch für die Gipfelgestalten f/f und f/s eine Wahrnehmungsveränderung von NEU zu UNERWARTET eintritt. Eine weitere Aufhellung dieser Frage ist nur durch zusätzliche Perzeptionsexperimente möglich. Im Zusammenhang mit Hypothese (A1) ist ferner darauf hinzuweisen, dass es in der vorliegenden Untersuchung erstmalig gelungen ist, über alle Versuchspersonen einen mehrheitlichen Wechsel in der Beurteilung der Kontext-Stimulus-Paare zu dokumentieren und in diesem Sinne eine Wahrnehmungsveränderung von NEU zu UNERWARTET nachzuweisen. Kohler (1991c) hat in seinem leicht abgewandelten Identifikationstest für
110 110
Eigene Einleitung Untersuchungen
Stimuli mit inner- und postvokalischen F0-Gipfeln lediglich einen leichten Rückgang im Zusammenpassen mit dem vorangehenden Kontext registriert. Er hat sich daher neben dem Identifikationstest auch auf die Resultate eines Diskriminationstests berufen, um die Existenz des Zeichens UNERWARTET neben dem Zeichen NEU im Standarddeutschen zu untermauern. Angesichts dessen belegen die Ergebnisse der vorliegenden Untersuchung zum ersten Mal unzweifelhaft, dass das Zeichen UNERWARTET neben dem Zeichen NEU im Standarddeutschen existiert. Für die deutliche Veränderung im Urteils- und dem daraus abgeleiteten Identifikationsverhalten der Versuchspersonen, das in der vorliegenden Untersuchung erzielt werden konnte, kommen mehrere Gründe in Betracht. Einer hiervon ist die Modifikation der Instruktion von ‚passt’ und ‚passt nicht’ bei Kohler (1987, 1991c) zu ‚passt eher gut’ und ‚passt eher schlecht’. Letzteres verlangt von den Versuchspersonen nicht, einige Kombinationen von Kontext und Stimulus kategorisch abzulehnen oder zu akzeptieren, sondern nur, einige Kombinationen für naheliegender als andere zu befinden. So erhalten die Versuchspersonen mehr Freiheiten bei der inhaltlichen und situativen Interpretation der Kontext-StimulusPaare. Insbesondere im Hinblick auf den im Vergleich zu den Zeichen GEGEBEN und NEU relativ kleinen Bedeutungsunterschied zwischen NEU und UNERWARTET dürfte dies zu einem differenzierten Urteilsverhalten beigetragen haben. Ein weiterer hiermit zusammenhängender Grund ist, dass bei Kohler (1991c) alle drei Zeichen (GEGEBEN, NEU und UNERWARTET) in einem Hörtest zusammen vorkamen. Der markante Unterschied in Melodie und Bedeutung zwischen den beiden Zeichen GEGEBEN und NEU könnte den weniger prägnanten weiteren Unterschied zwischen NEU und UNERWARTET teilweise überdeckt haben. Dies konnte durch die Konzentration auf die beiden Zeichen NEU und UNERWARTET im vorliegenden Experiment nicht geschehen. Andererseits ist aber auch festzustellen, dass die Veränderungen im Urteils- bzw. Identifikationsverhalten in der vorliegenden Untersuchung insgesamt nicht so prononciert ausgefallen sind, wie sie zuvor mehrfach für den Übergang zwischen den beiden Zeichen GEGEBEN und NEU gefunden wurden (z.B. Niebuhr 2003a, b und Kohler 1987, 1991c). Dieser Aspekt wird später in der Diskussion noch weiter behandelt werden. Im Hinblick auf die vermuteten Einflüsse der Instruktion der Versuchspersonen und der im Hörtests berücksichtigten sprechmelodischen Zeichen auf das Urteils- bzw. Identifikationsverhalten ist letztlich auch das Experiment von Kleber (2005, 2006) interessant. Sie hat die Wahrnehmung der Pendants zu den sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET im britischen Englisch untersucht. Ausgehend von den Experimenten von Kohler (1987, 1991c), wurde dafür eine F0-Gipfelver-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
111 111
schiebung von prävokalischen, über innervokalische bis hin zu postvokalischen Positionen durchgeführt. Die dabei entstandenen Stimuli wurden in einen Identifikationstest eingebettet, in dem die Versuchspersonen die Stimuli des gesamten Synchronisationsraumes als gut oder schlecht zusammenpassend mit dem vorangehenden Kontext bewertet haben, der auf das Pendant zu NEU in den Stimuli abgestimmt war. Ebenso wie Kohler findet Kleber (2005, 2006) unter diesen Voraussetzungen im Anschluss an den Übergang vom Pendant des Zeichens GEGEBEN zum Pendant des Zeichens NEU nur einen leichten erneuten Rückgang des Zusammenpassens der Kontext-Stimulus-Paare, der auf den Übergang zum Pendant von UNERWARTET hindeutet. Es wäre lohnenswert zu überprüfen, ob es auch diesem im Fall zu einer deutlicheren erneuten Änderung des Urteilsbzw. Identifikationsverhaltens und damit zu einem klareren Nachweis des britischen Pendants zu UNERWARTET kommt, wenn sich der Hörtest auf die beiden Pendants der Zeichen NEU und UNERWARTET konzentriert und/oder in die Instruktion Entsprechungen zu ‚eher gut’ und ‚eher schlecht’ eingefügt werden. Zu den Hypothesen (A2) und (A3) Die Hypothese (A2) hat sich im Rahmen dieses Experimentes bestätigt. Das heißt, die Gipfelgestalt hatte einen Effekt auf die Wahrnehmung beider Zeichen. Dieser konzentriert sich im Einklang mit der Hypothese (A3) auf nur einen Teil der Gipfelgestalt, nämlich die Anstiegsflanke. Die Variation der Abstiegsflanke hat sich als irrelevant herausgestellt. Der für die Variation der Anstiegsflanke gefundene Effekt fällt jedoch weder im Bereich der innervokalischen, noch im Bereich der postvokalischen Gipfelpositionen so aus, wie er in Hypothese (A3) vorhergesagt wurde. Danach hätten die steil ansteigenden F0-Gipfel s/s und s/f die Wahrnehmung des Zeichens NEU in beiden Positionsbereichen unterstützen sollen. Für die innervokalischen F0-Gipfel in dieser Untersuchung hat sich hingegen kein statistisch relevanter Einfluss der Gipfelgestalt ergeben. In allen Stimuli wurde gleichermaßen deutlich das Zeichen NEU erkannt. Das heißt, die Ergebnisse aus Niebuhr (2003a, b), die als Ausgangspunkt für die Hypothesen dienten, konnten unter den gegebenen experimentellen Bedingungen (hierzu zählen u.a. der Synchronisationsraum, der natürlich produzierte Kontext und die lautlichen Eigenschaften der Stimulusäußerung) nicht repliziert werden. Bei dieser Feststellung sollte allerdings nicht außer Acht gelassen werden, dass sich in einigen Paarvergleichen ein Unterschied zwischen den Identifikationsfunktionen abzeichnet, wie er bei Niebuhr gefunden wurde und wie er dementsprechend in den Hypothesen formuliert ist. Dies trifft besonders auf den Vergleich zwischen f/f und s/f zu, der in Abbildung 18(d) dargestellt ist. Hieraus wird klar ersichtlich,
112 112
Eigene Einleitung Untersuchungen
dass die Identifikationsfunktion zu den Stimuli mit s/f-Gipfeln im Bereich der ersten drei innervokalischen Gipfelpositionen unter der Funktion zu den Stimuli mit f/f-Gipfeln liegt. Dies zeigt an, dass die drei innervokalischen Gipfel mit s/f-Gestalten häufiger als das Zeichen NEU perzipiert wurden als mit f/f-Gestalten. Seitens der Prüfstatistik ist dieser Unterschied jedoch als zufällig zu klassifizieren. Im Hinblick auf die Parallelen zu den Ergebnissen von Niebuhr (wo der beschriebene Unterschied auch statistisch signifikant hervorgetreten ist) und die geringe Wahrscheinlichkeit eines -Fehlers, die mit p=0,052 die auf 5% (p>0,05) angesetzte Signifikanzschranke nur knapp überschreitet, sollte diese Klassifikation jedoch nicht überbewertet werden. Angesichts dessen ist das Bild, das durch die Ergebnisse der vorliegenden Untersuchung für den Bereich innervokalischer F0-Gipfel gezeichnet wird, mit dem von Niebuhr und den daraus abgeleiteten Hypothesen nicht völlig unvereinbar. Anders verhält es sich für den Bereich der postvokalisch positionierten F0-Gipfel. Die Ergebnisse dieser Untersuchung zeigen eindeutig, dass die beiden steil ansteigenden F0-Gipfel s/s und s/f gegenüber den beiden flach ansteigenden f/f und f/s die Wahrnehmung des Zeichens UNERWARTET in den Stimuli unterstützt haben. Es ist somit das Gegenteil von dem eingetreten, was nach Hypothese (A3) erwartet wurde. In diesem Zusammenhang ist es wichtig zu sehen, dass die Hypothese (A3), in der die erwarteten Gestalteffekte beschrieben werden, auf die Erkenntnisse von Niebuhr (2003a, b) zu den innervokalischen F0-Gipfeln zurückgeht, die hauptsächlich zur Wahrnehmung des Zeichens NEU geführt haben. Es wurde angenommen, dass diese Gestalteffekte auch für den Bereich postvokalischer F0-Gipfel gelten würden. Die Ergebnisse des vorliegenden Experimentes zeigen nun aber, dass die Gipfelgestalt in beiden Synchronisationsbereichen differenziert gewirkt hat. Die genannte Annahme hat sich also als unzutreffend erwiesen. Infolgedessen wird die Hypothese (A3) im Rahmen der innervokalisch positionierten Gipfel, die ebenfalls vornehmlich das Zeichen NEU hervorgerufen haben, zumindest andeutungsweise unterstützt, während die postvokalischen F0-Gipfel der Hypothese klar zuwiderlaufen. Dies weist auf die Interaktion von Gipfelgestalt und -position in der Signalisierung der beiden sprechmelodischen Zeichen NEU und UNERWARTET hin. Das heißt, die Gipfelgestalten werden vom Hörer nicht für sich genommen als Signal für eines der sprechmelodischen Zeichen interpretiert, sondern in Verbindung mit der Position des Gipfels, mit dem zusammen sie vorkommen. So ist zu verstehen, dass die beiden Gestalten s/s und s/f bei Niebuhr (2003a, b) in innervokalischer Position signifikant die Wahrnehmung des Zeichens NEU unterstützten können (andeutungsweise hat sich dies auch in dieser Untersuchung gezeigt) und in post-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
113 113
vokalischer Position – wie in der vorliegenden Untersuchung gefunden – gleichzeitig als Signal für die Wahrnehmung des Zeichens UNERWARTET fungieren. Diese Interpretation korrespondiert ferner mit den Ergebnissen der Produktionsuntersuchungen, in denen auch keine zeichenspezifischen, sondern vielmehr kontext- bzw. positionsspezifische Gipfelgestalten gefunden wurden (vgl. 3.2.1). Im Folgenden werden Aspekte der Interaktion zwischen Gipfelposition und -gestalt für das Zeichen UNERWARTET weiter vertieft. Mögliche Ursachen für die gefundenen Effekte der Gipfelgestalt Wie die Ergebnisse des Experimentes gezeigt haben, konnten nur die steil ansteigenden F0-Gipfel ein Überwechseln von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET in den Stimuli bewirken. Im Falle der flach ansteigenden F0-Gipfel f/f und f/s ist eine solche Wahrnehmungsveränderung trotz postvokalischer Gipfelpositionen ausgeblieben. Das heißt, die postvokalische Gipfelposition, bei der sich das Gipfelmaximum nach dem Akzentvokal befindet, reicht allein zur Wahrnehmung des Zeichens UNERWARTET nicht aus. Es ist jedoch fraglich, ob die Dauer bzw. die Neigung der Anstiegsflanke selbst als weiterer phonetischer Indikator für das Zeichen UNERWARTET betrachtet werden kann. In den Ausführungen zum Synchronisationsraum wurde darauf hingewiesen, dass aufgrund der gewählten Anstiegsdauer zum F0-Gipfelmaximum und der segmentellen Dauerstruktur der zugrundeliegenden Stimulusäußerung der Beginn der steil ansteigenden Gipfel immer nach dem Beginn des Akzentvokals lag, während der Beginn der flach ansteigenden Gipfel ausschließlich prävokalische Positionen einnahm. Dies ist in der Gegenüberstellung der Verschiebung des steil-steilen und flach-flachen F0-Gipfels in Abbildung 16 illustriert. Es ist gut möglich, dass diese innervokalische Position des Anstiegsbeginns, die durch die kurze Anstiegsdauer und die daran gekoppelte steile Anstiegsneigung entstanden ist, vom Hörer als Signal für das Zeichen UNERWARTET aufgefasst wird. Unterstützt wird diese Möglichkeit durch Erkenntnisse aus der Produktion. Gartenberg und Panzlaff-Reuter (1991) beobachten beispielsweise, dass der Anstiegsbeginn des Zeichens UNERWARTET nach dem Akzentvokalbeginn realisiert wurde, unabhängig von den unterschiedlichen Ausprägungen des F0-Gipfels in Abhängigkeit von der Silbenstruktur und der Anzahl unakzentuierter Silben zwischen der Akzentsilbe und dem Äußerungsende (vgl. 3.2.1). Dass nicht in allen akustischen Analysen eine solche konsistent innervokalische Positionierung des Anstiegsbeginns gefunden wurde (vgl. Niebuhr und Ambrazaitis 2006; Grabe 1998 in 3.2.1), mag auf weitere Signalisierungsstrategien neben Gipfelposition und -ge-
114 114
Eigene Einleitung Untersuchungen
stalt hindeuten. Es kann aber auch darauf zurückzuführen sein, dass der F0-Gipfel (bzw. dessen Maximum) in diesen Analysen zum Teil in Entfernungen nach dem Ende des Akzentvokals gefunden wurde, die deutlich über den hier erzeugten Synchronisationsraum hinausgehen. Dadurch könnte ein früh einsetzender Anstiegsbeginn kompensiert werden. Abgesehen von den abweichenden Positionsangaben für den Beginn des Anstiegs, entsteht über die verschiedenen akustischen Analysen aber der generelle Eindruck, dass die Positionierung des Anstiegsbeginns stabiler ist als die Dauer und Neigung des Anstiegs. Bei diesen Überlegungen ist zu berücksichtigen, dass die innervokalische Position des Anstiegsbeginns – sofern sie tatsächlich als Signal für das Zeichen UNERWARTET verstanden wird – vor allem bei gleichzeitiger postvokalischer Position des F0-Gipfels perzeptorisch relevant wird. Im Rahmen der innervokalisch liegenden F0-Gipfel der Stimuli 1-3 war es für die Identifikation der Zeichen NEU und UNERWARTET weit weniger bedeutsam (prüfstatisch war es streng genommen völlig ohne Belang), wo der Anstieg begann, bzw. durch welche Dauer und Neigung er gekennzeichnet war. Zusammengefasst zeigen die Ergebnisdaten, dass es für die (mehrheitliche) Wahrnehmung des sprechmelodischen Zeichens UNERWARTET unter den gegebenen Bedingungen erforderlich war, dass das Gipfelmaximum nach dem Ende des Akzentvokals lag und gleichzeitig der Anstieg zum Maximum erst nach dem Einsatz des Akzentvokals begann. Andere Konstellationen führten im erzeugten Synchronisationsraum überwiegend zur Wahrnehmung des Zeichens NEU. Weitere Perzeptionsexperimente sind nötig, um zu ergründen, ob Hörer – wie vermutet – die Position des Anstiegsbeginns als Signal für die Wahrnehmung des Zeichens UNERWARTET verwenden oder ob die simultan variierte Dauer und Neigung des Anstiegs den relevanten perzeptorischen Indikator darstellen. Unterschiede zu den Ergebnissen aus dem Experiment von Niebuhr (2003a, b) Im Vergleich zwischen den Resultaten, die sich für das vorliegende Experiment und das Experiment von Niebuhr (2003a, b) ergeben haben, fallen einige Unterschiede auf. Erstens war für die Gipfelverschiebung von einer prä- zu einer innervokalischen Position im Perzeptionsexperiment von Niebuhr unabhängig von der Gipfelgestalt ein Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU eingetreten. Das heißt, die Gipfelposition hatte sich als bedeutsamer für die Signalisierung beider Zeichen erwiesen als die Gipfelgestalt. Im vorliegenden Experiment hingegen konnte der Wahrnehmungsübergang von NEU zu UNERWARTET durch die flach ansteigenden Gipfelgestalten
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
115 115
f/f und f/s bei der durchgeführten Gipfelverschiebung von inner- zu postvokalisch unterdrückt werden. Angesichts einer F0-bedingten Verlagerung des Akzentes auf die nachfolgende Silbe wurde es als fraglich angesehen, dass eine weitere Verschiebung des F0-Gipfels in den postvokalischen Bereich zu einer mehrheitlichen Identifikation des Zeichens UNERWARTET in den Stimuli und damit zu einem Wahrnehmungsübergang von NEU zu UNERWARTET führen wird. Sollte dies jedoch erreicht werden können (weitere Perzeptionsexperimente müssen dies zeigen), dann ergibt sich voraussichtlich ein Einfluss der Gipfelgestalt auf die Lage der Grenze zwischen der Perzeption beider sprechmelodischen Zeichen, der größer ist als der in Niebuhr (2003a, b) gefundene Einfluss. Hier konnte das Überwechseln von der mehrheitlichen Wahrnehmung des Zeichens GEGEBEN zur mehrheitlichen Wahrnehmung des Zeichens NEU durch die Variation der Gipfelgestalt um bis zu 40ms (zwei Verschiebungsschritte des F0-Gipfels) hinausgezögert bzw. beschleunigt werden. Letztlich fällt auf, dass das Urteilsverhalten über alle Versuchspersonen für die 6 Stimuli, die aus dem Synchronisationsraum hervorgegangen sind, weniger differenziert ausfällt, als dies im Experiment von Niebuhr (2003a, b), aber auch in Experimenten von Kohler (1987, 1991c) der Fall gewesen ist. Das heißt, selbst die Stimuli mit den F0-Gipfeln von den Endpunkten des Synchronisationsraumes wurden im vorliegenden Experiment mit dem vorangehenden Kontext nicht eindeutig als eher gut oder eher schlecht zusammenpassend beurteilt. Hierfür kommen unterschiedliche Ursachen in Frage, von denen mehrere gleichzeitig zutreffen können. Zum einen ist zu berücksichtigen, dass die Synchronisationsräume, die in den Experimenten von Niebuhr (2003a, b) und Kohler (1987, 1991c) verwendet wurden, weitaus größer ausfielen als der Synchronisationsraum, der dem vorliegenden Experiment zugrundelag. Da sich die Gipfelverschiebung über ein größeres Zeitintervall erstreckte, könnten die Stimuli bei Niebuhr und bei Kohler klarere Exemplare der beteiligten sprechmelodischen Zeichen enthalten haben, was in einer entsprechend differenzierteren Bewertung derselben zusammen mit dem vorangehenden Kontext zum Ausdruck kommen würde. Des weiteren ist zu bedenken, dass die Bedeutungen der Zeichen GEGEBEN und NEU, auf denen die Beurteilung der Kontext-Stimulus-Paare in den Untersuchungen von Niebuhr und von Kohler basiert, weiter voneinander entfernt sind als die Bedeutungen der Zeichen NEU und UNERWARTET, die in der vorliegenden Untersuchung die Beurteilung gesteuert haben. Auch dies kann für die beschriebenen Unterschiede im Urteilsverhalten verantwortlich sein. Es muss aber auch die Möglichkeit mit einbezogen werden, dass die in dieser Untersuchung verwendete Kontextäußerung „Ganz bestimmt“, die mit dem
116 116
Eigene Einleitung Untersuchungen
Zeichen NEU auf „-stimmt“ produziert wurde, keinen inhaltlich und situativ ausreichend begrenzten Rahmen vorgegeben hat, sodass sich der Bedeutungsunterschied zwischen den sprechmelodischen Zeichen NEU und UNERWARTET im Stimulus nicht in vollem Umfang auf die Kombinierbarkeit von Kontext und Stimulus auswirken konnte. Letzteres wird aufgrund der eigenen Einschätzung der Kontext-Stimulus-Paare als eine der wahrscheinlichsten Erklärungen für die vergleichsweise geringe Urteilsverlagerung über die Stimuli des Synchronisationsraumes betrachtet. In den noch folgenden eigenen Experimenten, in denen die Zeichen NEU und UNERWARTET zusammen untersucht werden, wird daher ein anderer Kontext verwendet, der die Bedeutungsunterschiede zwischen beiden Zeichen besser herausarbeitet.
4.2 Die Rolle der Dauer und Intensität in lautlichen Elementen Im Anschluss an die Präsentation der vorliegenden Erkenntnisse zur Ausprägung der F0-Gipfel der Zeichentriade und der Implikationen, die sich daraus für einen Einfluss der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der drei Zeichen ergeben haben, wurden die folgenden Hypothesen formuliert: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
Diese fundamentalen Hypothesen bilden den Ausgangspunkt für eine eigene Untersuchung, die sich aus zwei Bausteinen zusammensetzt. Der zweite Baustein stellt das eigentliche Perzeptionsexperiment dar, das aus einem Set von 14 Hörtests besteht. Diesem Baustein ist als weiterer Baustein eine akustische Analyse vorgeschaltet. Hierin werden anhand eines einfachen Modells Dauer- und Intensitätsmessungen durchgeführt. Sie dienen dazu, die Hypothesen (C) und (D) durch konkrete Hypothesen über den Zusammenhang zwischen sprechmelodischen Zeichen sowie Dauer- und Intensitätsmustern in lautlichen Elementen zu ergänzen, die dann im Perzeptionsexperiment experimentell prüfbar sind. Auf diese Weise geben die konkreten Hypothesen auch den Weg für die Manipulation und Resynthese der Stimuli im Perzeptionsexperiment vor. Hauptanliegen dieser bikomponentialen Untersuchung ist es, Gewissheit in den beiden fundamentalen Hypothesen (C) und (D) zu schaffen.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
117 117
Sollten sich die beiden Hypothesen bestätigen, ist es ein sekundäres Ziel der Untersuchung, einen ersten Einblick darin zu vermitteln, welche Ausprägungen von Dauer und Intensität in lautlichen Elementen der Kodierung des jeweiligen Zeichens zuzuordnen sind. Ferner ist hervorzuheben, dass es diese Untersuchung erstmalig gestattet, Aussagen zur Rolle von Dauer und Intensität in lautlichen Elementen bei der Kodierung sprechmelodischer Zeichen aufgrund von experimentell gewonnenen, zeichenübergreifend vergleichbaren Ergebnissen zu treffen. 4.2.1 Die Methode der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Die Auswahl und Vermessung der lautlichen Elemente Es war davon auszugehen, dass das Auffinden von systematischen Zusammenhängen zwischen den auszuwertenden sprechmelodischen Zeichen auf der einen Seite und Veränderungen der Dauer und Intensität in lautlichen Elementen auf der anderen Seite von zwei Entscheidungen abhängt, nämlich welche Elemente für die Messung selektiert und welche Messwerte hieraus entnommen werden. Aufgrund dessen sollten diese Entscheidungen dadurch geleitet werden, welche Elemente und Messpunkte sich in den hauptsächlich informellen Beobachtungen bereits als auffällig erwiesen hatten. Die getroffene Auswahl hat sich dabei vorrangig an den Beobachtungen von Kohler (1991c, d) orientiert, die unter Abschnitt 3.2.2 bereits detailliert vorgestellt wurden. Kohler fand für die Zeichen NEU und UNERWARTET, dass der Bereich um den Hochpunkt des F0-Gipfels durch ein erhöhtes, der periphere Gipfelbereich hingegen durch ein herabgesetztes Intensitätsniveau gekennzeichnet war. Ein Durchbrechen dieses „natural parallelism“ (Kohler 1991c:144) zwischen dem F0-Verlauf und dem Intensitätsverlauf konnte die Identifikation beider sprechmelodischen Zeichen negativ beeinflussen, denn „their coupled time courses are expected by listeners“ (Kohler 1991d:188). Er bemerkte ferner, dass das Zeichen UNERWARTET auch eine größere Dauer des äußerungsfinalen silbischen Nasals [n] bewirkte, über dem sich der F0-Gipfel ausprägte. Für das Zeichen NEU war dieser silbische Nasal kürzer ausgefallen. Auch diesem akustischen Unterschied misst Kohler eine Bedeutung für die Erkennung beider Zeichen bei. In Kohler (1991d) sowie in Gartenberg und PanzlaffReuter (1991) wird im Zusammenhang mit dem Zeichen UNERWARTET zudem auf eine größere Dauer des akzentuierten Vokals hingewiesen. Das Ausmaß dieser Dauervergrößerung hing dabei von Eigenschaften des Vokals sowie von der Anzahl und Struktur der Nachakzentsilben ab.
118 118
Eigene Einleitung Untersuchungen
Für die Auswahl zu messender Elemente zeigten die Beobachtungen von Kohler (1991c, d) vor allem, dass sich mögliche sprechmelodische Effekte nicht auf Dauer- und Intensitätsveränderungen in einzelnen lautlichen Elementen konzentrieren. Entsprechend musste die Suche nach solchen Effekten den gesamten Bereich abdecken, über dem sich der F0Gipfel hauptsächlich ausbreitet. Doch welche lautlichen Elemente in diesem Bereich sind für eine Vermessung geeignet? Kohler (1991c, d) bezieht sich bei seinen Beobachtungen von Intensitäts- und Dauerveränderungen vorrangig auf die Silbennuklei. Dies ist vermutlich auf zwei Ursachen zurückzuführen: Erstens stammen die Beobachtungen von Kohler aus einer Äußerung, die durch stimmlose Plosive im Ausgang (der Koda) der Akzentsilbe und im Eingang (dem Kopf) der Nachakzentsilbe gekennzeichnet war. Solche Laute sind während der Verschlussphase durch eine vollständige Stille gekennzeichnet und können daher keine an melodische Zeichen gebundenen Intensitätsvariationen aufweisen. Kohler konnte demzufolge nur Intensitätsveränderungen in den daran angrenzenden stimmhaften Silbennuklei beobachten und für eine perzeptorische Evaluierung manipulieren. Zweitens ist davon auszugehen, dass diese Perspektive vor dem Hintergrund des Kieler Intonationsmodells (Kohler 1991a, b) zu sehen ist, in dem den Vokalen (insbesondere dem Beginn des Akzentvokals) eine zentrale Rolle bei der Modellierung der sprechmelodischen Zeichen zukommt (vgl. 2.3). In Anbetracht der phonetischen Variation in der Positionierung der F0-Gipfel sprechmelodischer Zeichen über den Lautsegmenten einer Äußerung (vgl. 3.2.1) und unter gleichzeitiger Berücksichtigung der von Kohler (1991c, d) postulierten Verbindung des F0-Verlaufs mit dem Intensitätsverlauf, die aussagt, dass sich die gesuchten sprechmelodischen Effekte gerade nicht nur in bestimmten Lautsegmenten manifestieren, wirkt die sich bei Kohler herauskristallisierende Perspektive zu restriktiv. Ungeachtet der zu wählenden Messwerte erscheint es unangemessen, die akustische Analyse auf lautlichen Elementen zu basieren, bei denen Lücken in der Lautsequenz (wie etwa die Konsonanten in der Silbenperipherie) zurückbleiben. Die in Betracht kommenden lautlichen Elemente sollten ferner eine sinnvolle Beschreibungseinheit für die zu messenden Dauerund Intensitätswerte darstellen und folglich weder zu atomistisch, noch zu global ausfallen. Vor dem Hintergrund dieser Anforderungen wurde die Silbe als das lautliche Element gewählt, in dem die Intensitäts- und Dauermessungen durchgeführt wurden. Welche Silben dabei zu berücksichtigen waren, wurde daran festgemacht, über welchen Silben sich die F0-Gipfel der Zeichen GEGEBEN, NEU und UNERWARTET im Wesentlichen ausbreiten (vgl.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
119 119
hierzu 2.2 und Abb. 3). Es wurden Messwerte aus der Vorakzentsilbe, der Akzentsilbe und der Nachakzentsilbe entnommen. Was die Auswahl der Messwerte anlangt, so legte die silbenbezogene Perspektive nahe, die Dauern der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe zu bestimmen. Um mehr Informationen über mögliche Dauereffekte sprechmelodischer Zeichen zu erhalten und dabei gleichzeitig eine Beziehung zu den Beobachtungen von Kohler (1991c, d) zu wahren, wurden zusätzlich die Dauern der Silbennuklei aller drei Silben gemessen. Unter der Voraussetzung, dass sich die Konsonantendauern in der Silbenperipherie nicht kompensatorisch zu den von Kohler beobachteten Dauerveränderungen der Silbennuklei verhalten, sollte die Messung der Silbenund Vokaldauern annähernd äquivalente Effekte sichtbar werden lassen. Im Rahmen der Intensitätsmessungen wurde der Wert für das Intensitätsmaximum in jeder der genannten drei Silben bestimmt. Die Entscheidung für diesen Messpunkt wurde aus den folgenden Gründen getroffen: Der Intensitätsverlauf in der sprachlichen Einheit der Silbe zeichnet sich – grob schematisiert – in vielen Fällen durch einen gipfelförmigen Verlauf aus, ein Umstand, der auf die eine oder andere Art und Weise in viele Definitionsversuche der Silbe eingegangen ist (vgl. z.B. Sievers 1901; Selkirk 1984; siehe auch Abb. 3). Das Maximum des Intensitätsverlaufs liegt dabei in der Regel im vokalischen Silbennukleus (im Rahmen der eigenen Untersuchungen werden die Silben so aufgebaut sein, dass dies immer zutrifft). Das Intensitätsmaximum erschien daher ein geeigneter Messpunkt zu sein, um die Intensität der betreffenden Silbe bzw. ihres Silbennukleus zu repräsentieren, auf die Kohler (1991a, c) in seinen informellen Beobachtungen mehrfach hingewiesen hat. Silverman und Pierrehumbert (1990) ziehen ferner die Möglichkeit in Betracht, dass die gemessene Variation im alignment des F0-Maximums beim Pendant des standarddeutschen Zeichens NEU im amerikanischen Englisch durch die Position des Sonoritätsmaximums in der betreffenden Silbe determiniert sein könnte (vgl. 3.2.2). Sie deuten damit an, dass nicht (nur) das Intensitätsniveau der Silbe bzw. ihres Nukleus, sondern das Intensitätsmaximum selbst perzeptorisch relevant sein könnte. Hinzu kommt, dass das Intensitätsmaximum durch den gipfelförmigen Intensitätsverlauf vieler Silben ein klar zugänglicher und somit reliabler Messpunkt sein dürfte. Bei der Messung der Intensität mit dem Ziel, mögliche systematische Unterschiede zwischen sprechmelodischen Zeichen zu entdecken, muss ein weiterer Umstand bedacht werden. Dieser betrifft die mathematische Bindung des gemessenen dB-Wertes an die damit zusammenfallenden F0Werte. Eine solche Bindung besteht, da ein berechneter Intensitätswert auf der Summe der quadrierten Signalelongationen in einem bestimmten Zeitintervall basiert (vgl. RMS-Amplitude bei Reetz 1999). Eine Erhöhung
120 120
Eigene Einleitung Untersuchungen
des F0 führt zu einer höheren Anzahl betragsmäßig größerer Elongationswerte im betreffenden Zeitintervall und damit zu einem größeren Intensitätswert. Ein Herabsetzen des F0 bewirkt entsprechend das Gegenteil. In konkreten Zahlen bedeutet zum Beispiel eine Verdoppelung bzw. eine Halbierung des F0 eine Intensitätsveränderung um 3dB21. Da die untersuchten sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET in der Regel beträchtliche Unterschiede in den F0-Gipfelpositionen aufweisen (vgl. Abb. 3 in 2.2), liegen den gemessenen Intensitätsmaxima der Silben zumeist sehr verschiedene F0-Wertebereiche zugrunde. Es ist daher zu erwarten, dass unter ansonsten identischen Bedingungen allein durch die unterschiedlichen F0-Gipfelpositionen systematische dB-Unterschiede zwischen den Zeichen gefunden werden. Von Interesse für die Frage einer zeichenspezifischen Intensitätsausprägung müssen jedoch gerade diejenigen Intensitätsvariationen sein, die jenseits des F0-bedingten Einflusses liegen, auch weil eine perzeptorische Relevanz F0-bedingter Intensitätsschwankungen im Hinblick auf die vergleichsweise geringen F0-Schwankungen sprachlicher Signale fragwürdig ist (vgl. Moore 1997). Es sollte daher ein Ziel der Intensitätsmessung sein, die F0-bedingten Anteile am gemessenen Intensitätsmaximum in einer Silbe nachträglich herauszurechnen. Zu diesem Zweck wurde zu jedem Intensitätsmaximum ebenfalls der dazugehörige F0-Wert, dass heißt, der F0-Wert desselben Analysefensters, erfasst. Zusammenfassend ergaben sich die folgenden Messungen in jeder dafür relevanten Äußerung: • Die Dauern der Vorakzentsilbe (VAS), der Akzentsilbe (AS) und der Nachakzentsilbe (NAS) • Die Dauern der Silbennuklei (in diesem Fall der Vokale) der drei genannten Silben • Das Intensitätsmaximum in jeder der drei genannten Silben • Die F0-Werte an den Zeitstellen der drei Intensitätsmaxima Die Zusammenstellung verdeutlicht, dass es sich nur um ein sehr simples silbenorientiertes Modell handelt, das an die Sprachdaten herangetragen wurde. Unberücksichtigt blieben beispielsweise Verlaufseigenschaften der Intensitätskontur, wie etwa die Breite und Lage der Intensitätsmaxima zu den Segmenten der Silbe, der Umfang des Intensitätsanstiegs, der die Er_____________ 21
Auf digitalisierte Signale trifft dies nur approximativ zu, da die Erhöhung bzw. die Absenkung der Frequenz aufgrund der begrenzten Anzahl an Abtastpunkten nicht vollständig abgebildet werden kann. Der Wert für die durchschnittliche Elongation fällt somit in der Regel etwas zu niedrig aus. Entsprechend liegt die Intensitätsveränderung für ein verdoppeltes und halbiertes F0 etwas unterhalb von 3dB.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
121 121
fassung der umliegenden Intensitätsminima erforderlich gemacht hätte und Informationen zum F0-Verlauf, um Parallelen zur Intensitätskontur sichtbar machen zu können. Es ist daher unwahrscheinlich, dass das gewählte Modell ausreicht, um die akustischen Hinweise auf einen möglichen Beitrag von Dauer und Intensität zur Kodierung der behandelten sprechmelodischen Zeichen in Gänze aufzuzeigen. Es erschien jedoch sinnvoll, für eine erste Annäherung an diesen Fragekomplex von vorliegenden Beobachtungen auszugehen und diese zunächst nur auf sehr globale Merkmale abzubilden. Die Auswahl des Sprachmaterials Der Vergleich von lautlichen Dauern und Intensitätsmaxima über Äußerungen hinweg macht es unerlässlich, dass die Segmente der betreffenden Silbensequenzen in ihren grundlegenden phonetischen Eigenschaften konstant gehalten werden, um intrinsische Intensitätsunterschiede sowie intrinsische und durch die Silbenstruktur bedingte Unterschiede in den Segmentdauern zu kontrollieren (Lehiste 1970; Klatt 1979 und Laver 1994 geben einen Überblick über verschiedene Einflussfaktoren auf die Segmentdauern). Zudem ist zu berücksichtigen, dass die lokalen phonetischen Ausprägungen von Dauer und Intensität (sowie F0), die über bestimmten Segmenten bzw. Segmentketten lokal gemessen werden sollen, Bestandteile einer (ggf. pro Parameter beschreibbaren) globalen Struktur (z.B. der Äußerung) darstellen und folglich auch durch diese globale Struktur beeinflusst werden. Was die Intensität anlangt, so gibt es zum Beispiele Hinweise aus anderen Sprachen als dem Deutschen, dass das Intensitätsniveau ähnlich der F0-Deklination (siehe Fußnote 19 auf Seite 90) über die Äußerung hinweg in der Regel kontinuierlich absinkt (vgl. u.a. Tseng und Fu 2005; Dubeda 2006). Es ist wahrscheinlich, dass dies für das Deutsche ebenfalls gilt (vgl. Jokisch und Kühne 2003). Auch von den Dauereigenschaften von Segmenten und Silben ist bekannt, dass sie durch die Position innerhalb der Äußerung beeinflusst werden (vgl. z.B. Laver 1994). Daher sollten die zu untersuchenden Silbensequenzen in einer konstante Äußerungsstruktur eingebettet sein. Um darüber hinaus auch systematische Einflüsse abweichender rhythmischer Muster auf die Dauer- und Intensitätsmessungen zu unterdrükken, sollten nicht nur die messphonetisch analysierten Silben, sondern alle Silben der Äußerungen im Kern gleich bleiben. Es sollte also allen Äußerungen der identische Wortlaut zugrundeliegen (hierauf bezogen, wird der Begriff der Äußerung im Singular verwendet). Dies ist auch wichtig, da die im vorangehenden Abschnitt angeführten Beobachtungen von Kohler (1991c, d) sowie von Gartenberg und Panzlaff-Reuter (1991) eine Kon-
122 122
Eigene Einleitung Untersuchungen
textsensitivität in den Effekten sprechmelodischer Zeichen auf die Dauern in lautlichen Elementen andeuten. Um zeichenspezifische Effekte sichtbar zu machen, müssen sie daher in der gleichen Umgebung beobachtet werden. Ferner ist es sinnvoll, dass die für das anschließende Perzeptionsexperiment herangezogene Äußerung im Wortlaut mit den zuvor akustisch analysierten übereinstimmt. Überdies sollte eine Vergleichbarkeit der Ergebnisse dieses Perzeptionsexperimentes mit Perzeptionsergebnissen aus anderen Untersuchungen angestrebt werden. Dem genannten Forderungskatalog entsprechend, beruhte die akustische Analyse und das Perzeptionsexperiment zur Dauer und Intensität in lautlichen Elementen auf der Äußerung „Sie’s mal Malerin gewesen“, die im Rahmen der Untersuchungen zur Gipfelgestalt in 4.1 bereits verwendet wurde. Die zu untersuchende Sequenz aus Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe entspricht hierin den Silben „mal“ (VAS), „Ma-“ (AS) und „-le-“ (NAS). Diese Silbeneinteilung ist nicht an existierenden phonetischen oder phonologischen Silbendefinitionen (vgl. z.B. Selkirk 1984; Kohler 1966; Kloster Jensen 1963 gibt einen Überblick zu verschiedenen Definitionen der Silbe) ausgerichtet, sondern basiert auf der muttersprachlich-perzeptorischen Intuition des Autors. Dies schließt eine Übereinstimmung mit solchen Definitionen jedoch grundsätzlich nicht aus. Aufgrund der gewählten Äußerung konnte nicht auf das Sprachmaterial vorliegender lese- oder spontansprachlicher Korpora wie etwa dem Kiel Corpus of Spontaneous Speech (IPDS 1995, 1996, 1997) zurückgegriffen werden. Stattdessen wurde eigenes lesesprachliches Material gewonnen. Um die Produktion der drei Zeichen GEGEBEN, NEU und UNERWARTET in der Äußerung „Sie’s mal Malerin gewesen“ zu steuern, wurde die Bedeutung der Zeichen herangezogen. Des weiteren wurde Gebrauch davon gemacht, dass inhaltlich zusammengehörige Äußerungen bzw. Akzentstellen innerhalb einer melodischen Phrase22 häufig mit gleichartigen Zeichensequenzen realisiert werden. Peters et al. (2006) haben letzteres für das Deutsche anhand der Etikettierung im Kiel Corpus of Spontaneous Speech (IPDS 1995, 1996, 1997) demonstriert. _____________ 22
Unter einer melodischen Phrase (bekannter ist der Terminus der Intonationsphrase) werden gesprochene Abschnitte zwischen perzipierten Einschnitten verstanden. Derartige Einschnitte können unter anderem durch terminal fallende Tonhöhen- bzw. F0-Bewegungen oder deutliche Bruchstellen im Tonhöhen- bzw. F0-Verlauf (sog. Reset), die Längung von Segmenten oder Veränderung der Stimmqualität kodiert sein (vgl. Peters 2006). Abgesehen von abgebrochenen Phrasen sind melodische Phrasen strukturell wohlgeformte Einheiten. Das heißt, sie bestehen aus vollständig ausgeprägten, zu Ende geführten (also phonologisch vollständigen), sprechmelodischen Zeichen. In syntaktischer oder grammatischer Hinsicht müssen sie hingegen nicht vollständig sein. Insbesondere in Spontansprache ist letzteres selten der Fall.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
123 123
Auf der Grundlage dieser Erkenntnisse wurden vier Absätze konstruiert, in denen die Äußerung „Sie’s mal Malerin gewesen“ jeweils in Kontexte eingebettet vorkam, die das Auftreten eines der sprechmelodischen Zeichen besonders wahrscheinlich machten. Warum die Konstruktion einzelner Absätze der Erstellung eines einzigen zusammenhängenden Textes vorgezogen wurde, wird im Zusammenhang mit der Aufnahme der Sprachdaten ersichtlich werden. Im Folgenden sind die vier Absätze aufgeführt. Ihre Formatierung wird dabei in Kernpunkten so wiedergegeben, wie sie auch den Versuchspersonen präsentiert wurde. Um zum Beispiel sicherzustellen, dass die relevante Äußerung „Sie’s mal Malerin gewesen“ beim Ablesen des Textes flüssig produziert werden konnte, wurde die Formatierung der Absätze so gestaltet, dass diese Äußerung immer innerhalb einer Zeile geschrieben stand. Im Idealfall sollte mit den Kontextualisierungen in den vier Absätzen erreicht werden, dass sich die Zeichen GEGEBEN, NEU und UNERWARTET gleichmäßig über die sechs Fälle von „Sie’s mal Malerin gewesen“ verteilen, jedes Zeichen also pro Sprecher und Durchgang doppelt produziert werden würde (die Ergebnispräsentation wird zeigen, inwieweit dies tatsächlich erreicht wurde). Welcher Kontext dabei zur Elizitation welches Zeichens dienen sollte, wird im Nachfolgenden detaillierter erläutert. Absatz 1
Absatz 2
Peter und Anna unterhalten sich über ihre gemeinsame Freundin Sabine. Peter sagt zu Anna: „Hab ich Dir das schon erzählt? Sie’s mal Malerin gewesen. Interessant, oder?“ Anna guckt ihn ungläubig an und fragt: „War sie nicht mal Köchin?“ Es entbrennt eine längere Debatte. Schließlich gibt Anna nach und kommt zu dem Schluss: „Na gut. Du hast wohl recht. Sie’s mal Malerin gewesen.“ Peter und Anna reden über ihre gemeinsame Freundin Sabine. Sie’s mal Malerin gewesen. Vielleicht werden sie ihr ein Bild für ihre gemeinsame Wohnung abkaufen, in die die beiden gerade erst eingezogen sind. Beim näheren Betrachten von Sabines Werken bemerkt Peter: „Das sieht ja furchtbar aus. Sowas kann ich auch pinseln. Und das soll nun Kunst sein?“ Anna entgegnet entrüstet: „Na hör mal. Sie’s mal Malerin gewesen. Sie wird schon wissen, wie gute Kunst auszusehen hat.“
124 124
Eigene Einleitung Untersuchungen
Absatz 3
Peter und Anna sind auf einer Party bei Freunden. Nach einer Weile trifft auch Sabine bei der Party ein. Ein Gast sagt zu Peter: „Kaum zu glauben, dass sie jetzt Tag für Tag im Büro arbeitet. Schließlich war sie früher mal Malerin.“ Peter staunt überrascht: „Oh. Sie’s mal Malerin gewesen. Und ich hatte gedacht, sie war davor Köchin gewesen.“
Absatz 4
Peter und Anna stehen vor einem Gemälde in einer Kunstausstellung. „Wer das wohl gemalt hat?“ fragt Anna. „Das weißt Du nicht?“ fragt Peter erstaunt. „Sabine hat das gemalt.“ „Ach ja“ entfährt es Anna sofort, „sie’s mal Malerin gewesen. Das hatte ich beinahe vergessen.“
Am Ende des ersten Absatzes möchte die Sprecherin mit der Äußerung „Sie’s mal Malerin gewesen“ die vorangegangene Diskussion zu einem inhaltlichen Abschluss führen. Verstärkt wird diese Intention für den Leser durch Schlüsselbegriffe wie „Schließlich“ und „Schluss“ sowie durch die Formulierung „Na gut. Du hast wohl recht.“, mit der die Sprecherin ihr Nachgeben in der betreffenden Streitfrage signalisiert. In diesem Zusammenhang ist das Zeichen GEGEBEN auf „Malerin“ zu erwarten. Gleiches gilt auch für die vorangehenden beiden Akzente auf „gut“ und „recht“, da alle drei Äußerungen eine inhaltliche Einheit darstellen. Diese Zusammengehörigkeit sollte die Wahrscheinlichkeit des Zeichens GEGEBEN auf „Malerin“ zusätzlich erhöhen. Die ersten beiden Äußerungen des zweiten Absatzes bilden ebenfalls eine inhaltliche Einheit, bei der die erste Äußerung mit hoher Wahrscheinlichkeit mit dem Zeichen GEGEBEN auf dem letzten Wort „Sabine“ realisiert wird. Dies wird angenommen, da es sich um eine Feststellung handelt, die zu nichts Vorangehendem im Widerspruch steht und die in diesem Sinne ebenfalls einen definitiven, abschließenden Charakter erhält. Da die Tätigkeit der „Malerin“ eine nähere Spezifikation von „Sabine“ ist, ist zu erwarten, dass das Zeichen GEGEBEN ebenfalls auf die Spezifikation „Malerin“ übertragen wird. In der Mitte des zweiten Absatzes bereitet Peter seine Dialogpartnerin mittels der syntaktischen Frageäußerung „Hab ich Dir das schon erzählt?“ darauf vor, dass aus seiner Sicht eine für Anna neue Information folgen wird. Es ist daher zu erwarten, dass der Gegenstand dieser vermeintlich neuen Information, die „Malerin“, mit dem Zeichen NEU produziert wird. Im vierten Absatz bringt die Sprecherin mit „Ach ja“ zum Ausdruck, dass die vorangegangene Information für sie eine Auffrischung von zeitweilig nicht verfügbarem Wissen enthielt und in diesem Sinne als neu einzustu-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
125 125
fen ist. Entsprechend ist für die Realisierung von „Ach ja“ das Zeichen NEU auf „ja“ zu erwarten. Da die nachfolgende Äußerung „Sie’s mal Malerin gewesen“ als inhaltliche Weiter- bzw. Ausführung von „Ach ja“ anzusehen ist, sollte auf „Malerin“ ebenfalls das Zeichen NEU auftreten. Die erwarteten Fälle des Zeichens UNERWARTET stehen jeweils im Kontext einer Überraschung. Unterschiedlich ist lediglich, worauf diese Überraschung gerichtet ist. Gegen Ende des zweiten Absatzes wird dem Leser durch die Kombination aus dem Schlüsselbegriff „entrüstet“ und der nachfolgenden Äußerung „Na hör mal.“ angezeigt, dass die Sprecherin bislang von einer anderen Einstellung ihres Gegenübers zur Kunst ausgegangen ist (nämlich von der gleichen Einstellung, die sie selbst vertritt). Die Verletzung dieser Erwartungshaltung äußert sich in einer Überraschung, die auf das sprachliche Gegenüber gerichtet ist und so das Zeichen UNERWARTET auf „hör“ und dem inhaltlich daran anknüpfenden „Malerin“ nahelegt. Gegen Ende des dritten Absatzes wird durch die Formulierung „staunt überrascht“ eine Überraschung eingeleitet, die auf den Sprecher selbst gerichtet ist. Sprachlichen Ausdruck findet diese Überraschung in den inhaltlich zusammengehörigen Äußerungen „Oh“ und „Sie’s mal Malerin gewesen“. Für beide sollte daher die Realisierung des Zeichens UNERWARTET auf „Oh“ und „Malerin“ vorgezeichnet sein. Die Auswahl der Sprecher Akustische Messungen und perzeptorische Beschreibungen belegen übereinstimmend, dass die regionalen Varietäten des Deutschen in ihren Sprechmelodien auffällige Unterschiede aufweisen (vgl. u.a. Selting 2004; Gilles 2005; Peters 1999). Die in dieser Arbeit behandelten phonologischen Kontraste würden daher, sofern sie die jeweilige regionale Varietät überhaupt bzw. mit der angesetzten funktionalen Anbindung vorsieht, sehr heterogen produziert werden. Zwar bezieht sich die erwartete Heterogenität mit Blick auf die genannten Quellen in erster Linie auf den F0bzw. Tonhöhenverlauf. Es kann jedoch nicht ausgeschlossen werden, dass diese Heterogenität auch die Dauer und Intensität in lautlichen Elementen involviert. Der von Kohler (1991c:144) postulierte „natural parallelism“ zwischen F0 und Intensität unterstützt diesen Verdacht. Aus diesem Grund wurden als Versuchspersonen nur norddeutsche Muttersprachler herangezogen. Zudem wurde die Auswahl auf norddeutsche Männer beschränkt. Frauen weisen gegenüber Männern nicht nur anatomische Unterschiede im Sprachproduktionsapparat auf, es muss auch von der Existenz geschlechtsspezifischer Artikulationsmuster ausgegangen werden. Simpson (1998) zeigt anhand einer segmentellen Analyse lese- und spontansprachlicher Datenkorpora des Standarddeutschen (IPDS 1994, 1995, 1996,
126 126
Eigene Einleitung Untersuchungen
1997) beispielsweise, dass Frauen insbesondere im Bereich der (vokalischen) Silbennuklei in beiden sprachlichen Bedingungen größere Segmentdauern produzieren als Männer. In Verbindung mit der Vermessung der ersten und zweiten Formanten der Silbennuklei gelangt Simpson überdies zu der Schlussfolgerung, dass Frauen die von Männern erreichten artikulatorischen Konfigurationen speziell für offene und vordere Vokalqualitäten übertreffen. Aufgrund seiner Daten weist Simpson auf einen möglichen kausalen Zusammenhang zwischen den Dauer- und Formantmessungen hin, der allerdings einige Fragen offen lässt. Die Beobachtungen von Simpson (1998) machen es sehr wahrscheinlich, dass auch die Dauermessungen dieser Untersuchung unterschiedliche Wertebereiche für Männer und Frauen liefern würden. Gleiches lässt sich mit Blick auf die von Simpson angesetzten Unterschiede in den Vokalkonfigurationen auch für die Intensitätswerte ableiten, da die gemessene Intensität wesentlich vom erreichten Öffnungsgrad des Vokals mitbestimmt wird (vgl. z.B. Lehiste 1970). Ferner ist bekannt, dass Frauen im allgemeinen auf einem anderen Intensitätsniveau sprechen als Männer (vgl. z.B. Laver 1994). Durch das ausschließliche Heranziehen männlicher Versuchspersonen sollte eine dahingehende Heterogenität in der Stichprobe vermieden werden. Vor diesem Hintergrund ist die Beschränkung auf männliche Versuchspersonen letztlich auch sinnvoll, um die Vergleichbarkeit der Analyseergebnisse in dieser Arbeit mit früheren Beobachtungen zu wahren, die überwiegend auf männliche Sprecher zurückgehen. Insgesamt wurden 8 untrainierte Sprecher mit einer Altersspanne von 18 bis 49 Jahren für die messphonetische Analyse herangezogen. Hiervon sind 7 in Schleswig-Holstein geboren, einer stammt aus dem niedersächsischen Raum. Alle 8 Sprecher haben zum Zeitpunkt des Experimentes in Schleswig-Holstein gelebt. Die Aufnahme des Sprachmaterials Die Sprecher waren nicht über das Ziel der Aufnahme informiert. Sie wurden für die Aufnahme in einen eigens dafür präparierten Stuhl gesetzt, bei dem die Rückenlehne so verlängert worden war, dass sie ihren Kopf während der Aufnahme daran anlehnen konnten. Auf diese Weise sollte verhindert werden, dass Kopfbewegungen während der Aufnahme die späteren Intensitätsmessungen beeinflussen konnten. Das Mikrophon wurde in einem konstanten Abstand von 20cm vor ihrem Mund platziert. Im Rahmen der Aufnahme hat jeder Sprecher die vier Absätze in insgesamt vier Durchgängen gelesen. Im ersten Durchgang wurden die Absätze in der zuvor dargestellten Reihenfolge von eins bis vier präsentiert. In den darauf folgenden drei Durchgängen wurde die Reihenfolge randomisiert.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
127 127
Der erste Durchgang war hinzugefügt worden, damit sich die Sprecher an die Aufnahmesituation und das laute Vorlesen gewöhnen konnten. Diese Daten wurden bei der späteren Auswertung nicht berücksichtigt. Somit verblieben drei Wiederholungen pro Absatz und Sprecher. Die Randomisierung innerhalb dieser drei Wiederholungen sollte die Aufmerksamkeit des Lesers bewahren helfen und der Entstehung einer Monotonie beim Lesen vorbeugen. Dadurch sollte die Häufigkeit von Lesefehlern reduziert und die Entstehung deutlich ausgeprägter sprechmelodischer Zeichen forciert werden. Hierin lag letztlich auch der Grund für die Konstruktion einzelner Absätze anstelle eines zusammenhängenden Textes. Die Aufnahme fand in Einzelsitzungen in einem ruhigen Raum statt. Das Mikrophonsignal wurde über cool edit mit 16kHz Abtastrate und 16bit Amplitudenauflösung digital aufgezeichnet. Vor Beginn der Aufnahme bekamen die Sprecher die vier Absätze zum stillen Einlesen bereits ausgehändigt. Nachdem sie ihre Bereitschaft zur Aufnahme signalisierten, erhielten sie jeweils die Instruktion, dass sie die vier unterschiedlichen Absätze mehrfach in einer vom Versuchsleiter vorgegebenen Reihenfolge lesen sollten. Der Erzähltext in den Absätzen sollte möglichst in einem Vorlesestil wiedergegeben werden, wie er zum Beispiel von Hörspielen her bekannt ist. Die Dialoge sollten möglichst natürlich klingen. Sie sollten die Absätze in einem für sie angenehmen und gleichbleibenden Tempo mit normaler Zimmerlautstärke lesen und bei Versprechern den betreffenden Satz von vorne beginnen. Die Filterung der aufgenommenen Sprachdaten Im Anschluss an die Aufnahme der Sprachdaten wurde eine Filterung der Daten durchgeführt. Hiermit sollten zum einen Fälle aussortiert werden, in denen die relevante Äußerung „Sie’s mal Malerin gewesen“ mit keinem der zu untersuchenden sprechmelodischen Zeichen auf der Akzentsilbe des Wortes „Malerin“ produziert worden war. Weiterhin berücksichtigt werden sollten indes diejenigen Fälle, in denen die gesuchten Zeichen nur in nicht dafür vorgesehenen Kontexten realisiert worden waren, da die Kontextualisierungen nicht als experimentelle Variable, sondern als strategisches Mittel eingesetzt wurden. Zum anderen wurde mit der Filterung der Daten kontrolliert, ob die Kriterien, nach denen die relevante Äußerung konstruiert wurde und die bei der Produktion dieser Äußerung für ansonsten konstante melodische und akzentbezogene Rahmenbedingungen sorgen sollten, tatsächlich effektiv waren. Um die Filterung durchführen zu können, wurden in einem ersten Arbeitsschritt zunächst alle Realisierungen der Äußerung „Sie’s mal Malerin gewesen“ in separaten Dateien pro Absatz und Sprecher zusammengeschnitten. Da die einzelnen Absätze drei Mal pro Sprecher wiederholt
128 128
Eigene Einleitung Untersuchungen
wurden, und die genannte Äußerung in jedem Absatz ein oder zwei Mal vorkam, enthielten die Dateien entweder drei oder sechs potentiell messrelevante Fälle (abgebrochene Äußerungen wurden an dieser Stelle bereits aussortiert). Diese Fälle wurden mit dem Etikettiersystem auf Grundlage des Kieler Intonationsmodells, PROLAB (siehe Kohler 1997), hinsichtlich ihrer sprechmelodischen und akzentbezogenen Ausprägung etikettiert. Entsprechend wurden die Zeichen GEGEBEN, NEU und UNERWARTET als frühe, mittlere und späte Gipfel gekennzeichnet. Gemäß den Prinzipien des Kieler Intonationsmodells (Kohler 1991a, b) erfolgte die Etikettierung allein auf perzeptorischer Basis, ohne die Einbeziehung akustischer Eigenschaften. Das heißt, sie richtete sich nach dem Melodie- und Prominenzeindruck des Etikettierers. Alle Etikettierungen wurden nicht vom Versuchsleiter selbst, sondern vom unabhängigen Etikettierer Gilbert Ambrazaitis durchgeführt23. Auf der Grundlage der beschriebenen Etikettierung wurden alle Fälle mit den folgenden Merkmalen aussortiert: • Fälle, die einen Akzent auf „Sie’s“ aufwiesen (einschließlich partieller Deakzentuierung, siehe hierzu 2.3.1) • Fälle, in denen eine partielle Deakzentuierung oder ein emphatischer Akzent auf „Malerin“ vorlag (siehe hierzu 2.3.1) • Fälle, in denen keines der gesuchten sprechmelodischen Zeichen auf „Malerin“ vorkam. Dies schloss auch Fälle mit ein, in denen die sprechmelodischen Zeichen auf „Malerin“ mit einem weiteren sprechmelodischen Zeichen auf „gewesen“ in einem gemeinsamen Hutmuster (siehe hierzu ’t Hart et al. 1990; Kohler 1991b; Kohler 1997) standen, da dies nach der Auffassung des Kieler Intonationsmodells (Kohler 1991a, b) die phonologischen Eigenschaften des Zeichens über „Malerin“ verändert und es sich somit nicht länger um das zu untersuchende Zeichen handelt. Im Rahmen der autosegmentell-metrischen Phonologie ist es hingegen irrelevant, ob die phonetischen Eigenschaften eines Hutmusters vorliegen oder nicht (vgl. Pierrehumbert 1980). Die Messung der Intensitäts- und Dauerelemente Innerhalb der ausgewählten Sprachsignale wurden alle Dauer- und Intensitätsmessungen mittels praat vorgenommen. Die Messungen der Segmentund Silbendauern fanden primär anhand einer Abgleichung von Informationen aus Oszillogramm und Sonagramm statt. Für letzteres wurde eine Breitbandeinstellung (200Hz Fensterbreite im Frequenzbereich mit Gaus_____________ 23
Ich danke Gilbert Ambrazaitis für die Anfertigung der Etikettierung.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
129 129
scher Fensterfunktion) gewählt, die eine gute zeitliche Auflösung des Signals ermöglichte. Die an den Akzentvokal angrenzenden Nasale bzw. Laterale führten zu deutlichen spektralen Brüchen, aufgrund derer die Grenzen der Akzentsilbe, die gleichzeitig das Ende der Vorakzentsilbe sowie den Beginn der Nachakzentsilbe markierten, klar erkennbar waren. Der initiale Nasal [m] der Silbe „mal“ wurde durch den vorangehenden Frikativ [s] in der Regel ganz oder teilweise entstimmt realisiert, sodass in diesen Fällen keine vergleichbar profilierten Bruchstellen wie in den stimmhaften Signalabschnitten zur Festlegung des Beginns der Vorakzentsilbe herangezogen werden konnten. Durch die artikulatorische Koordination von Frikativ und Nasal ergab sich jedoch ein anderer markanter Orientierungspunkt für die Bestimmung der genannten Silbengrenze: In vielen Fällen haben die Sprecher den vollständigen (bilabialen) Verschluss für den Nasal etabliert, bevor sie das Velum gesenkt und so den Weg durch den Nasenraum für den pulmonalen Luftstrom freigegeben haben. Infolgedessen konnte sich ein Überdruck im Ansatzrohr aufbauen, der im Moment der Senkung des Velums zu einem Lösungsimpuls geführt hat. Dieser wurde als initiale Grenze der Vorakzentsilbe definiert. In Fällen, in denen dieser Impuls nicht oder mehrfach auftrat, diente die Veränderung in der spektralen Zusammensetzung der Friktion von [s] zu [m] kombiniert mit dem Wahrnehmungseindruck der Bestimmung der initialen Silbengrenze von „mal“. Da sich /r/ in initialer prävokalischer Distribution im Standarddeutschen als (stimmhafter) Frikativ =¯? ausprägt (vgl. Kohler 1995), wurde als hintere Grenze der Nachakzentsilbe der Einsatz von Friktion im oberen Frequenzbereich des Signals definiert. Zusätzlich zu den Silbendauern sollten die Dauern der Silbennuklei ermittelt werden. Hierbei ist darauf hinzuweisen, dass der silbenfinale Lateral [l] in „mal“ entweder vollständig elidiert wurde oder nur in Form einer Diphthongierung des offenen Vokals auftrat. Es ist denkbar, dass ein Teil der Lateralartikulation durch den bilabialen Verschluss des folgenden Nasals akustisch maskiert wurde. Unabhängig davon besteht auf akustischer Ebene kein Anlass, [l] als eigenständiges Segment neben dem vorangehenden offenen Vokal zu führen. Der Signalabschnitt zwischen den bilabialen Nasalen der Vorakzentsilbe und Akzentsilbe wurde daher insgesamt als Silbennukleus der Vorakzentsilbe gewertet. Auf dieser Grundlage lagen für alle drei untersuchten Silben CV-Strukturen vor. Aus der Bestimmung der Segmentgrenze zwischen Konsonant und Vokal konnten somit – in Kombination mit den Silbendauern – die Dauern beider Segmente einer Silbe errechnet werden. Diese Segmentgrenzen
130 130
Eigene Einleitung Untersuchungen
waren wiederum über deutliche spektrale Brüche in den meisten Fällen klar zugänglich. Insgesamt konnten die Grenzen und damit die Dauern der Silben und ihrer vokalischen Silbennuklei in allen zu untersuchenden Fällen recht präzise und reliabel erfasst werden. Abbildung 19 illustriert dies anhand eines charakteristischen Beispiels. In Zweifelsfällen, in denen die genannten akustischen Kriterien nicht oder nicht eindeutig anwendbar waren, war der Perzeptionseindruck ausschlaggebend. Die Intensitätsmessungen wurden in einem Anzeigebereich von 65dB bis 85dB durchgeführt (siehe Abb. 19). Die Messwerte selbst wurden mit einer konstanten Fensterbreite von 40ms berechnet (ein zu einem bestimmten Zeitpunkt gemessener Intensitätswert berücksichtigt somit die Eigenschaften des Signals über 20ms zu jeder Seite). Die verwendete Fensterbreite wurde als angemessener Kompromiss zwischen einer guten zeitlichen Auflösung einerseits und einer Glättung der einzelnen Schwingungen des Signals sowie lokaler Perturbationen der Signalamplitude (Weiteres im nachfolgenden Abschnitt zur Messwertaufbereitung) andererseits erachtet.
Abbildung 19: Oszillogramm (oben) und Sonagramm (0-5kHz, unten) der Äußerung „Sie’s mal Malerin gewesen“, produziert mit dem Zeichen NEU. Im Sonagramm sind zusätzlich der F0Verlauf (0-200Hz, hellgrau) und der Intensitätsverlauf (65-85dB, dunkelgrau) dargestellt. Zur besseren Erkennbarkeit wurden beide von praat erzeugten Verlaufsdarstellungen manuell nachgezeichnet. Unter dem Sonagramm befindet sich eine phonetische Transkription der Segmente der Vorakzent-, Akzent- und Nachakzentsilbe. Ihre Grenzen sind durch vertikale Linien angezeigt.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
131 131
Die gemessenen F0-Werte basieren auf dem gleichen Analysefenster wie die Intensitätswerte. Hinsichtlich seiner zeitlichen Auflösung unterliegt der F0-Verlauf daher den gleichen Beschränkungen wie der Intensitätsverlauf. Die Aufbereitung der Messwerte Die Abbildung 20 gibt einen Überblick über die Faktoren, aus denen sich die grau unterlegten Messwerte der Intensität und Dauer im Wesentlichen zusammensetzen. Gestrichelte Pfeile zu dem jeweiligen Messwert zeigen an, dass ein solcher Einfluss bislang nur hypothetisch ist. Die links positionierten Faktoren sind für beide gemessenen Signaleigenschaften relevant, die ober- und unterhalb der Messwerte angeordneten Faktoren stellen messwertspezifische Einflüsse dar. Der rechte von einem breiten Rahmen eingefasste Faktor repräsentiert denjenigen Einfluss auf die Messwerte, der in dieser akustischen Analyse sichtbar gemacht werden sollte: Extrinsische systematische Variationen aufgrund der unterschiedlichen Kodierung sprechmelodischer Zeichen. Eine experimentelle Untersuchung dieses Einflussfaktors setzt voraus, dass alle anderen Faktoren kontrolliert (das heißt z.B. konstant gehalten) werden. Einige dieser Einflüsse, die nachfolgend zusammengefasst werden, können bereits durch die Vorgehensweise bei der Sprachdatengewinnung und -messung als kontrolliert gelten. Hinsichtlich der dauerbezogenen Faktoren kann durch die Verwendung der gleichbleibenden Äußerung „Sie’s mal Malerin gewesen“ und der Beschränkung auf bestimmte phonologische Akzentmuster davon ausgegangen werden, dass die drei untersuchten Silben in eine stabile globale (u.a. rhythmische) Struktur eingebettet sind und die behandelten sprechmelodischen Zeichen in einer vergleichbaren Umgebung beobachtet werden. Die untersuchten Silben selbst werden sich, ebenso wie alle übrigen Silben der Äußerung, durch die genannten Maßnahmen in ihren grundlegenden phonetischen Eigenschaften nicht entscheidend verändern, wodurch nicht nur intrinsische und durch die Silbenstruktur hervorgerufene Dauereinflüsse weitgehend ausgeklammert werden können, sondern auch intrinsische Intensitätsveränderungen. Auch mit der genannten Eingrenzung der ausgewerteten phonologischen Akzentmuster wurde gleichzeitig ein für die Intensitätsmessungen relevanter Einflussfaktor kontrolliert. Dadurch, dass die Silben immer an konstanter Position innerhalb der Äußerung auftreten, wurde ferner ein Aspekt des Intensitätsniveaus kontrolliert (der sich auf die Intensitätsdeklination bezieht, sofern dies im Deutschen überhaupt vorkommen sollte). Die Auswahl männlicher Sprecher norddeutscher Herkunft sollte die Stichprobe hinsichtlich geschlechtsspezifischer und vermuteter dialektaler Einflüsse auf die Dauerund Intensitätsmessungen homogen halten. Letztlich kann durch die
132 132
Eigene Einleitung Untersuchungen
Fixierung des Kopfes jedes Sprechers mittels einer verlängerten Rückenlehne der intensitätsbezogene Faktor der Aufnahmebedingung (in Form des Mikrophonabstandes) als kontrolliert gelten.
Abbildung 20: Zusammenstellung von Faktoren, aus denen sich die gemessenen Intensitäts- und Dauerwerte konstituieren.
Durch eine entsprechende Aufbereitung der Messwerte sollte die experimentelle Kontrolle auf weitere Faktoren ausgeweitet werden. Aus den Intensitätsmaxima der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe wurden für jede ausgewertete Äußerung zwei Differenzen gebildet, eine zwischen der Vorakzentsilbe und der Akzentsilbe und eine weitere zwischen der Akzentsilbe und der Nachakzentsilbe. Die so aufbereiteten (relativen) Werte sind unabhängig vom Einflussfaktor (sprecherindividuell) unterschiedlicher Intensitätsniveaus, da letztere sich global ausprägen und somit keine relevanten Variationen innerhalb der drei untersuchten Silben erwarten lassen. Aus den genannten Differenzen wurde des weiteren der Einflussfaktor unterschiedlicher zugrundeliegender F0-Werte herausgerechnet. Hierfür wurde der Logarithmus des Verhältnisses der F0-Werte beider Differenzelemente (a und b) gebildet und mit dem Faktor zehn multipliziert (dies entspricht dB-Werten auf F0-Basis, siehe hierzu die vorangegangenen Erläuterungen auf S. 119f.). Das Ergebnis hieraus wurde von der Differenz der gemessenen Intensitätswerte subtrahiert. Die folgende Formel (1) fasst die beschriebenen Rechenoperationen zusammen: (1)
(Intensität(a)-Intensität(b)) – 10 log
F0(a) F0(b)
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
133 133
Unterschiede in der Lautqualität (bzw. Timbre gemäß 1.2.4) beeinflussen die gemessenen Intensitätswerte primär durch Unterschiede in der Fläche der Öffnung, aus der das Sprachsignal aus dem Ansatzrohr abgestrahlt wird (vgl. Lehiste 1970). Da die ermittelten Intensitäten ausschließlich aus den vokalischen Silbennuklei stammten, konnten sich die Überlegungen zur Kontrolle dieses Faktors auf diese Segmentgruppe beschränken. Der Vokal der Silbe „Ma-“ aus „Malerin“ fällt offener aus als die Vokale der beiden umliegenden Silben. In der phonetischen Transkription des Beispiels aus Abbildung 19 kommt dieser Unterschied im Öffnungsgrad durch die Verwendung der Symbole [C:] gegenüber [m] und [«] zum Ausdruck. Ursächlich hierfür ist insbesondere die Akzentuierung der Silbe „Ma-“ (vgl. hierzu z.B. de Jong 1995). Die Transkription der Vokale der Vor- und Nachakzentsilbe als [m] und [«] zeigt darüber hinaus, dass auch für sie in der Regel nicht der gleiche Öffnungsgrad zu erwarten ist. Ein wie im Falle von F0 vorgenommenes nachträgliches Herausrechnen dieses lautqualitätsbezogenen Faktors ist problematisch. Da der Öffnungsgrad zum Zeitpunkt der Aufnahme nicht erfasst wurde, könnte eine solche Kalkulation nur indirekt anhand der Messung des ersten Formanten (ggf. in Relation zu F0, vgl. Miller 1953; Traunmüller 1981, 1985) durchgeführt werden. Es ist fraglich, ob solche Messungen mit der nötigen Präzision vorgenommen werden können. Als effektiver wurde es angesehen, den Faktor der Lautqualität bzw. des Timbre nicht durch die Aufbereitung der Messwerte zu kontrollieren, sondern durch Restriktionen bei der Betrachtung der Messwerte. So wurden Intensitätsdifferenzen nicht in ihrer Genese betrachtet (wobei der Wert aus Vorakzent- und Akzentsilbe auf den aus Akzent- und Nachakzentsilbe bezogen werden würde), sondern nur im Vergleich zu anderen Intensitätsdifferenzen zwischen den gleichen Silben. Ähnlich schwierig wie die Kontrolle von Unterschieden im Öffnungsgrad der Vokale gestaltet sich die Extraktion der Einflüsse (sprecherindividuell) unterschiedlicher Sprechgeschwindigkeiten aus den gemessenen Dauerwerten der drei untersuchten Silben, sofern vorhanden. Die Schwierigkeit beginnt bereits mit der Frage, wie Sprechgeschwindigkeit in den akustischen Abbildern des Sprachsignals überhaupt zu bestimmen ist. In der phonetischen Forschung kommen hierfür unterschiedliche Verfahren zur Anwendung, die oft durch die individuelle Problemstellung inspiriert sind (vgl. z.B. Pfitzinger 1998, 2001; Shinozaki und Furui 2003; Morgan und Fosler-Lussier 1998; Koreman 2006) und somit immer nur Facetten des Phänomens Sprechgeschwindigkeit erfassen. Grundsätzlich ist aber davon auszugehen, dass Sprechgeschwindigkeit eine globale multifaktoriell determinierte Erscheinung ist (vgl. Kohler 1986; Pfitzinger 2001). Gemäß der perzeptorischen Ausrichtung dieser Arbeit wurde das ausgewertete
134 134
Eigene Einleitung Untersuchungen
Sprachmaterial zunächst nach Gehör auf Unterschiede in der Sprechgeschwindigkeit hin überprüft. Der Globalität dieses Faktors Rechnung tragend, wurden für diese Überprüfung die kompletten Absätze herangezogen. Hierbei konnten keine entscheidenden Unterschiede festgestellt werden. Ausschlaggebend ist jedoch, dass die Silbendauern auf akustischer Ebene hinsichtlich eines Einflusses der Sprechgeschwindigkeit vergleichbar sind. Durch die multifaktorielle Zusammensetzung der Sprechgeschwindigkeit ist der gewonnene Perzeptionseindruck nur ein Hinweis darauf, dass diese Vergleichbarkeit gegeben ist. Zumindest sollte durch den homogenen Perzeptionseindruck aber ausgeschlossen sein, dass das gesammelte Sprachmaterial grobe Verletzungen dieser Vergleichbarkeit enthält. Um die restliche Unsicherheit weiter zu minimieren, wurde die perzeptorische Kontrolle durch akustische Maßnahmen ergänzt, indem für jede ausgewertete Äußerung relative Dauerwerte in Form zweier Verhältnisse gebildet wurden. Wie im Falle der Intensitätsdifferenzen, wurden auch die relativen Dauerwerte an der Akzentsilbe ausgerichtet. Entsprechend wurde der prozentuale Anteil der Dauer der Vorakzentsilbe an der Akzentsilbe sowie der prozentuale Anteil der Nachakzentsilbe an der Akzentsilbe berechnet. Durch die Bildung von Verhältnissen, die als adäquater für die Kontrolle der Sprechgeschwindigkeit angesehen wurden als die Bildung von Differenzen (wobei zu berücksichtigen ist, dass den Intensitätswerten ebenfalls Verhältnisse zugrundeliegen), werden äußerungsübergreifende Unterschiede in der Sprechgeschwindigkeit aufgefangen. Da sich solche Unterschiede allerdings nicht in gleicher Weise auf alle Silben und deren Segmente auswirken, wird hierbei ein kleinerer Fehler begangen. Da dieser kleinere Fehler angesichts der perzeptorischen Kontrolle jedoch allenfalls von sehr geringen Sprechgeschwindigkeitseinflüssen ausgeht, wird er insgesamt als vernachlässigbar betrachtet. Jenseits der Kontrolle von Sprechgeschwindigkeitsunterschieden wurden zusätzliche Dauerverhältnisse berechnet, die sich auf den Silbennukleus beziehen. Hierfür wurde der Wert für die Vokaldauer einer Silbe durch die Gesamtdauer dieser Silbe dividiert. Diese Werte geben – jeweils für die Vorakzentsilben, Akzentsilben und Nachakzentsilben – den Anteil des Vokals an der Silbendauer an. Sie lassen darauf schließen, welches Element der Silbe für Unterschiede in der Silbendauer primär verantwortlich ist. Hinsichtlich der in Abbildung 20 zusammengestellten Einflüsse auf die gemessenen Intensitäts- und Dauerwerte können damit alle Faktoren mit Ausnahme des zu untersuchenden Faktors und dreier weiterer Faktoren als kontrolliert betrachtet werden. Bei letzteren handelt es sich um die Interaktion von F0 und Timbre (in Abb. 20 angezeigt mit einem hori-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
135 135
zontalen Pfeil), durch die lokale Perturbationen der Signalamplitude entstehen, sowie um zufällige Variationen und Ungenauigkeiten in der Messung. Zu den lokalen Perturbationen kommt es, wenn eine Harmonische der Grundfrequenz (im Quellensignal) die Frequenz im Zentrum eines Formanten des Ansatzrohres (im Filtersignal) durchquert. Einzelheiten zu Harmonischen und Formantfrequenzen sowie zum Quelle-Filter-Modell finden sich bei Fant (1970) und Ladefoged (1996). In Sprachsignalen sind durch die permanente Fluktuation von F0 und Timbre sowohl die Harmonischen als auch die (zentralen) Formantfrequenzen ständigem Wandel unterworfen. Ein Zusammenfallen von Frequenzen aus Quelle und Filter wird daher nur von sehr kurzer Dauer sein. Tritt dieser Fall jedoch ein, äußert sich dies in einem lokalen Anstieg der Signalamplitude. Wie umfangreich dieser ist, hängt von der Höhe des Formanten und der Harmonischen ab. Je höher die beteiligten Formanten und Harmonischen sind, desto geringer wird der Einfluss auf die Signalamplitude und damit auf die gemessene Intensität (vgl. optimal vocal frequency bei House 1959). Studien wie die von Peterson und McKinney (1961) kommen zu der Auffassung, dass der durch den Zusammenfall von Quelle- und Filterfrequenzen verursachte Intensitätsanstieg nicht in die Lautheitswahrnehmung der betreffenden Äußerung durchdringt. Neben dem Umstand, dass es sich bei den beschriebenen Intensitätsfluktuationen nicht um extrinsisch gesteuerte handelt, ist ihre perzeptorische Irrelevanz ein weiterer Grund, weswegen sie nicht mit in die Messungen eingehen sollten. Die in der Analyse verwendete Fensterbreite von 40ms sollte dazu beitragen, diese lokalen Perturbationen in den Intensitätsmessungen abzuschwächen. Da die Analyse ausschließlich auf männlichen Sprechern basiert, deren F0Niveau zum Beispiel im Vergleich zu weiblichen Sprechern deutlich niedriger ausfällt, fallen so im relevanten Bereich der Silbentriade immer in etwa vier bis fünf Perioden in ein Analysefenster. Das relativ niedrige F0Niveau männlicher Sprecher hat ebenfalls zur Folge, dass nur die schwächeren höheren Harmonischen mit zentralen Formantfrequenzen koinzidieren können. Angesichts der offeneren Vokalqualitäten in der relevanten Silbentriade liegen die Formantfrequenzen (insbesondere der energiereichste erste Formant) zudem sehr hoch. Die Kombination aus großem Analysefenster, männlichen Sprechern und offeneren Vokalen sollte insgesamt dazu führen, dass die Intensitätsmessung durch die Interaktion von F0 und Timbre nicht entscheidend beeinflusst werden kann. Wenn ein solcher Einfluss überhaupt zu beobachten ist, dann sollte sich dieser aufgrund der charakteristischen Positionierung der F0-Gipfel zu den Vokalen der drei Silben (siehe Abb. 3), durch die immer ähnliche Frequenzwerte der Harmonischen mit immer
136 136
Eigene Einleitung Untersuchungen
ähnlichen zentralen Formantfrequenzen zusammenfallen, in Form von zeichenspezifischen Niveaus der Intensitätsdifferenzen ausprägen. Dies wird im Rahmen der Diskussion der Ergebnisse wieder aufgegriffen. Die zweite sich experimenteller Kontrolle entziehende Variable ist die der zufälligen Variationen. Diese entstehen, da die sprachlichen Äußerungen durch biologische Organismen zustande kommen. Der dritte Faktor der Ungenauigkeiten in der Messung ist vornehmlich zurückzuführen auf Grenzen der Signalanalyse (z.T. aufgrund der Digitalisierung des Signals) und auf vereinfachende Konzepte, die an die Signalanalyse herangetragen werden (z.B. die Zerlegung des akustischen Signals in eine Sequenz stabiler Einzelsegmente, siehe 1.3.2). Dass die beiden letztgenannten Einflussfaktoren nicht konstant gehalten werden können, liegt daran, dass ihnen keine kontrollierbare Systematik zugrundeliegt. Das bedeutet aber gleichzeitig, dass sie nicht imstande sind, die Intensitäts- und Dauermessungen in systematischer Weise zu beeinflussen. Die Einflussfaktoren der zufälligen Variation und der Messungenauigkeiten können als ein Grundrauschen in den Messergebnissen aufgefasst werden, aus dem heraus potentielle zeichenspezifische Unterschiede in der Intensität und Dauer beobachtet und – in gewissen Grenzen – auch quantifiziert werden können, wie es die nachfolgende Präsentation der Ergebnisse zeigen wird. Zusammenfassend sind die folgenden 7 aufbereiteten Messwerte Gegenstand dieser Ergebnispräsentation: • Intensitätsdifferenzen zwischen Vorakzentsilbe und Akzentsilbe sowie zwischen Akzentsilbe und Nachakzentsilbe, jeweils F0-bereinigt • Dauerverhältnisse zwischen der Vorakzentsilbe und Akzentsilbe und zwischen der Nachakzentsilbe und der Akzentsilbe • Der Anteil der Vokaldauer an der Dauer der dazugehörigen Silbe, jeweils für die Vorakzentsilben, die Akzentsilben und die Nachakzentsilben 4.2.2 Die Ergebnisse der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Merkmale der Stichproben Bei der Filterung der aufgenommenen Sprachdaten mussten 44 der insgesamt 144 messrelevanten Fälle (8 Sprecher x 6 relevante Äußerungen in den gelesenen vier Absätzen x 3 Wiederholungen der vier Absätze) aussortiert werden, primär aufgrund einer Akzentuierung (meist partielle Deakzentuierung, vgl. 2.3.1) des äußerungsinitialen Pronomens „Sie“. Im dritten Absatz ist die durch ein überraschtes „Oh“ eingeleitete Äußerung
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
137 137
„Sie’s mal Malerin gewesen“ anstatt mit einem steigend-fallenden F0- bzw. Tonhöhenverlauf zudem einige Male mit einem durchgehenden F0- bzw. Tonhöhenanstieg ab der Akzentsilbe bis zum Äußerungsende produziert worden, sodass keines der behandelten sprechmelodischen Zeichen vorlag (sondern eine Talkontur im Kieler Intonationsmodell, siehe Kohler 1991a, b; bzw. H-^H% nach GToBI, siehe Grice und Baumann 2000). Von den verbliebenen 100 Fällen entfallen 22 auf das Zeichen GEGEBEN, 50 auf das Zeichen NEU und 23 auf das Zeichen UNERWARTET. Während die 22 Fälle des Zeichens GEGEBEN ohne Ausnahme aus dafür vorgesehenen Kontexten stammen, sind 24 der ausgewerteten 50 Fälle des Zeichens NEU in Kontexten realisiert worden, die eigentlich für das Zeichen UNERWARTET konzipiert worden waren. Zehn dieser Fälle stammen aus dem zweiten, die anderen 14 Fälle aus dem dritten Absatz. In entgegengesetzter Richtung sind lediglich vier der ausgewerteten 23 Realisierungen des Zeichens UNERWARTET in Kontexten des Zeichens NEU produziert worden, jeweils zwei aus dem ersten und vierten Absatz. Die übrigen 19 Fälle stammen aus den dafür vorgesehenen Kontexten. Die Stichprobenumfänge der untersuchten Zeichen sind jedoch nicht nur unterschiedlich groß. Die angewandte Methode hat ferner dazu geführt, dass die 8 Sprecher mit unterschiedlich vielen Produktionen in den Stichproben vertreten sind. Für jeden Sprecher liegt aber mindestens eine Realisierung in den Stichproben aller drei Zeichen vor (weitere Einzelheiten in Anhang D auf der beigelegten CD). Die Ergebnisse in Form von Mittelwerten und Standardabweichungen In Tabelle 2 ist anhand von Mittelwerten und Standardabweichungen zusammengefasst, was die aufbereiteten Intensitäts- und Dauermessungen ergeben haben. Hinsichtlich der Intensität ist zu erkennen, dass die Differenzwerte zwischen Vorakzentsilbe und Akzentsilbe (VAS|AS) zeichenunabhängig negativ ausfallen, während die Differenzwerte zwischen Akzentsilbe und Nachakzentsilbe (AS|NAS) durchweg positiv sind. Dies zeigt, dass das Intensitätsmaximum der Akzentsilbe im Mittel immer über denen der beiden benachbarten Silben angesiedelt war. Es gab jedoch für alle drei Zeichen auch einige Fälle, in denen das Intensitätsmaximum der Vor- und Nachakzentsilbe über dem der Akzentsilbe lag. Jenseits dieser generellen Vergleichbarkeit bestehen jedoch auch Unterschiede zwischen den Zeichen. Im Bereich der Silbenpaarung VAS|AS fällt hierzu auf, dass die durchschnittliche Differenz für das Zeichen GEGEBEN mit -1,35dB nur etwa halb so groß ausfällt wie die Differenzen der anderen beiden Zeichen, die -2,96dB und -3,50dB betragen. Das heißt, die Intensitätsmaxima der Vorakzent- und Akzentsilbe liegen beim Zeichen GEGEBEN deutlich dichter beieinander als bei den beiden Zeichen
138 138
Eigene Einleitung Untersuchungen
und UNERWARTET. Auch im Vergleich der Intensitätsdifferenzen zwischen der Akzentsilbe und Nachakzentsilbe (AS|NAS) hebt sich das Zeichen GEGEBEN von den Zeichen NEU und UNERWARTET ab. Diesmal jedoch besteht der Unterschied darin, dass die Intensitätsmaxima zwischen Akzent- und Nachakzentsilbe deutlich weiter auseinanderliegen. Der Differenzwert beträgt hier 2,76dB. Im Falle des Zeichens NEU sind die beiden Intensitätsmaxima etwa 1dB und im Falle des Zeichens UNERWARTET sogar fast 2dB enger zusammen. Die durchschnittlichen Differenzwerte betragen nur 1,70dB und 1,01dB. Insgesamt sei in Anbetracht der aufgeführten Werte darauf hingewiesen, dass 3dB eine Verdoppelung bzw. Halbierung der Signalintensität bedeuten. Die gefundenen zeichenspezifischen Unterschiede sind daher bemerkenswert. NEU
Zeichen GEGEBEN
NEU
UNERWARTET
Silben VAS|AS AS|NAS
I-Diff. (dB) x s -1,35 1,47 2,76 1,52
%D x 66,79 53,03
s 8,93 9,31
n=22
VAS|AS AS|NAS
-2,96 1,70
2,66 1,73
61,27 53,38
9,84 9,82
n=50
VAS|AS AS|NAS
-3,50 1,01
1,72 2,14
62,11 56,32
10,28 8,73
n=23
Tabelle 2: Mittelwerte (x) und Standardabweichungen (s) der vom F0-Einfluss bereinigten Intensitätsdifferenzen (von der Vorakzentsilbe „mal“, VAS, zur Akzentsilbe „Ma-“, AS, und von der Akzentsilbe zur Nachakzentsilbe „-le-“, NAS) sowie der Dauerverhältnisse (in %) zwischen der Vor- bzw. Nachakzentsilbe und ihrer jeweiligen Akzentsilbe, getrennt nach Zeichen. Die Berechnungen basieren auf den Werten im Anhang D, enthalten auf der beigefügten CD.
Was die Silbendauern anlangt, so sind in Tabelle 1 nur im Vergleich der Verhältnisse aus Vorakzentsilbe und Akzentsilbe (VAS|AS) nennenswerte Unterschiede erkennbar. Diese betreffen vor allem das Zeichen GEGEBEN. Hier erreicht die Dauer der Vorakzentsilbe einen Mittelwert von 66,79% an der Dauer der Akzentsilbe. Im Falle der anderen beiden Zeichen fällt dieser Wert geringer aus und ist mit 61,27% bzw. 62,11% in etwa gleich groß. Jenseits dieser Unterschiede war die Dauer der Akzentsilbe zeichenunabhängig immer größer als die Vor- und Nachakzentsilbe.
139 139
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Die Ergebnisse in Form von Korrelationen und Regressionen = GEGEBEN
= NEU
= UNERWARTET
(a)
(b)
Abbildung 21: F0-bereinigte Intensitätsdifferenzen zwischen der Vorakzentsilbe und Akzentsilbe (dBvas|as) über den dazugehörigen Dauerverhältnissen (%D) für die Zeichen GEGEBEN, NEU und UNERWARTET (n=22, n=50, n=23). Zusätzlich sind die berechneten Regressionsgeraden eingezeichnet (siehe hierzu Tabelle 3). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
In einer Gesamtbetrachtung der in Tabelle 1 dargestellten Ergebnisse für die aufbereiteten Messwerte fallen nicht nur die skizzierten Unterschiede in den Mittelwerten zur Dauer und Intensität auf, sondern auch die jeweils daran gebundenen durchweg beträchtlichen Standardabweichungen. Die darin zum Ausdruck kommenden umfangreichen Streuungen in den Messwerten werfen die Frage auf, ob vielleicht noch mehr Informationen
140 140
Eigene Einleitung Untersuchungen
in den Ergebnissen enthalten sind. Um dieser Frage nachzugehen, wurden die Dauerverhältnisse als Funktion der dazugehörigen Intensitätsdifferenzen betrachtet. Es wurden die Korrelationskoeffizienten (Produktmomentkorrelation) und Regressionsgeraden dieser Funktionen berechnet. Die Resultate dieser über Mittelwerte hinausgehenden Betrachtung der akustischen Messungen sind in den Abbildungen 21 und 22 sowie in Tabelle 3 zusammengestellt. Die einzelnen Messwerte können im Anhang D der CD nachgeschlagen werden. = GEGEBEN
= NEU
= UNERWARTET
(a)
(b)
Abbildung 22: F0-bereinigte Intensitätsdifferenzen zwischen der Akzentsilbe und Nachakzentsilbe (dBas|nas) über den dazugehörigen Dauerverhältnissen (%D) für die Zeichen GEGEBEN, NEU und UNERWARTET (n=22, n=50, n=23). Zusätzlich sind die berechneten Regressionsgeraden eingezeichnet (siehe hierzu Tabelle 3). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
141 141
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Silben VAS|AS AS|NAS
Korrelation Int-Diff. mit %D r df p 0,59 20 >0,01** -0,54 20 >0,01**
Regression Gleichung r² y=3,61x+71,7 0,35 y=-3,28x+62,1 0,29
NEU
VAS|AS AS|NAS
0,12 -0,53
48 48
n.s. >0,001***
y=0,43x+62,5 y=-2,99x+58,5
0,01 0,28
UNERWARTET
VAS|AS AS|NAS
0,63 -0,08
21 21
>0,01** n.s.
y=3,74x+75,2 y=-0,33x+56,7
0,39 0,01
Zeichen GEGEBEN
Tabelle 3: Berechnete Werte für die Korrelationskoeffizienten (r) der Produktmomentkorrelation der Intensitätsdifferenzen (Int.-Diff.) mit den Dauerverhältnissen (%D), die dazugehörigen Freiheitsgrade (df) und Wahrscheinlichkeiten eines -Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) sowie die Gleichungen und Bestimmtheitsmaße (r²) der Regressionsgeraden. Die Berechnungen sind getrennt nach Zeichen und Silbenpaarung dargestellt. Alle Angaben basieren auf den aufbereiteten Messwerten im Anhang D (siehe beigefügte CD).
Die Wiederaufspaltung der Mittelwerte der Intensitätsdifferenzen und Dauerverhältnisse aus Tabelle 2 und die Kombination der zusammengehörigen Einzelwerte deckt systematische Zusammenhänge zwischen beiden Messgrößen auf. Die Darstellung dieser Zusammenhänge soll sich zunächst der Silbenpaarung aus Vorakzentsilbe und Akzentsilbe (VAS|AS) zuwenden. Die in Abbildung 21(a) dargestellte Punktwolke des Zeichens GEGEBEN zeigt in der Tendenz, dass die Dauerverhältnisse zwischen der Vorakzentsilbe und der Akzentsilbe größer werden, je höher das Intensitätsmaximum der Vorakzentsilbe im Vergleich zu dem der Akzentsilbe ausfällt (d.h. der negative Wert wird kleiner und wechselt in den positiven Bereich). Diese visuelle Analyse wird durch einen positiven Korrelationskoeffizienten (r=0,59; siehe Tabelle 3) gestützt, der statistische Signifikanz erreicht. Der beschriebene Zusammenhang kann insofern als überzufällig gewertet werden. Im Falle des Zeichens UNERWARTET ergibt sich nach Abbildung 21(a) die gleiche Tendenz wie für das Zeichen GEGEBEN. Auch für das Zeichen UNERWARTET erreicht der auf dieser Datengrundlage ermittelte positive Korrelationskoeffizient statistische Signifikanz (r= 0,63; siehe Tabelle 3). Darüber hinaus zeigt der Vergleich der Punktwolken der beiden Zeichen GEGEBEN und UNERWARTET, dass die korrelativen Zusammenhänge zwischen Intensitätsdifferenzen und Dauerverhältnissen nicht nur qualitative, sondern auch quantitative Ähnlichkeiten aufweisen. So ist in Abbildung 21(a) zu sehen, dass die beiden Punktwolken nicht nur in etwa
142 142
Eigene Einleitung Untersuchungen
den gleichen Winkel zur x-Achse einnehmen. Zusätzlich sind für ähnliche Intensitätsdifferenzen auch Dauerverhältnisse in der gleichen Größenordnung gefunden worden. Besonders deutlich wird die quantitative Ähnlichkeit der Zusammenhänge beider Zeichen im Vergleich der auf Basis der Punktwolken berechneten Regressionsgeraden, die ebenfalls in Abbildung 21(a) eingezeichnet sind. Die dazugehörigen Gleichungen sind in Tabelle 3 eingetragen. Regressionskoeffizient und y-Achsenabschnitt der Gleichung des Zeichens GEGEBEN liegen mit 3,61 und 71,1 nur ein wenig unter den Werten der Gleichung des Zeichens UNERWARTET, die 3,74 und 75,2 betragen. Eine weitere Gemeinsamkeit zwischen den Punktwolken der Zeichen GEGEBEN und UNERWARTET liegt in ihrer zweidimensionalen Ausdehnung im Koordinatenraum. Hinsichtlich der Intensitätsdifferenz wird ein Intervall in der Größenordnung von 5dB abgedeckt. Die Dauerverhältnisse variieren hauptsächlich in einem Bereich von zirka 30%. Neben den genannten Ähnlichkeiten besteht ein wesentlicher Unterschied zwischen den Punktwolken der Zeichen GEGEBEN und UNERWARTET in ihrer Lage im Koordinatenraum. Die Punktwolke des Zeichens GEGEBEN ist gegenüber der des Zeichens UNERWARTET entlang der vergleichbar verlaufenden Regressionsgeraden nach oben rechts verschoben. Dies ist die Hauptursache für die in Verbindung mit Tabelle 2 beschriebenen Mittelwertsunterschiede der Intensitätsdifferenzen und Dauerverhältnisse (VAS|AS) beider Zeichen. Die Frage, ob diese Verschiebung als stichprobenspezifisches oder zeichenspezifisches Merkmal zu interpretieren ist, wird in der Diskussion der Ergebnisse erörtert. Im Gegensatz zu den Ergebnissen der Zeichen GEGEBEN und UNERWARTET lässt die in Abbildung 21(b) dargestellte Punktwolke des Zeichens NEU keinen systematischen Zusammenhang zwischen den gefundenen Intensitäts- und Dauerwerten erkennbar werden. Die Wertepaare der Punktwolke verteilen sich vielmehr zufällig über den Koordinatenraum. Auch statistisch ist der Zusammenhang nicht signifikant. Der berechnete Korrelationskoeffizient liegt bei lediglich r=0,12 (siehe Tabelle 3). Das Bestimmtheitsmaß r² beträgt entsprechend nur 0,01 und zeigt damit an, dass sich gerade einmal 1% der Variation in den Intensitätsdifferenzen/Dauerverhältnissen aus der Veränderung der Dauerverhältnisse/ Intensitätsdifferenzen mit linearer Regression erklären lässt. Im Falle der Zeichen GEGEBEN und UNERWARTET kann hingegen über ein Drittel der aufeinander bezogenen Intensitäts- und Dauerwerte mit Hilfe linearer Regression erklärt werden (r²=0,35 bzw. r²=0,39, siehe Tabelle 3). Ferner hebt sich die Punktwolke des Zeichens NEU auch in ihrer Extension von denen der anderen beiden Zeichen ab. Insbesondere auf der Intensitäts-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
143 143
achse überspannt sie ein Intervall von ungefähr 12dB. Das ist in etwa doppelt so viel wie im Falle der Punktwolken der anderen beiden Zeichen. In der Silbenpaarung aus Akzentsilbe und Nachakzentsilbe (AS|NAS) sind es nicht die Zeichen GEGEBEN und UNERWARTET, sondern die Zeichen GEGEBEN und NEU für die signifikante Korrelationen zwischen den Intensitätsdifferenzen und ihren Dauerverhältnissen bestehen. Beide Korrelationskoeffizienten sind negativ (r=-0,54 und r=-0,53, siehe Tabelle 3). Dass jedoch die Koeffizienten nicht wie im Falle der Ergebnisse der Silbenpaarung aus Vorakzentsilbe und Akzentsilbe einen positiven Wert annehmen, ist lediglich darauf zurückzuführen, dass das Intensitätsmaximum der Akzentsilbe hier nicht Subtrahend, sondern Minuend ist. Ansonsten ist der darin zum Ausdruck kommende Zusammenhang der gleiche. Je höher das Intensitätsmaximum in der an die Akzentsilbe angrenzenden Silbe – in diesem Fall der Nachakzentsilbe – liegt (d.h. der Wert der Intensitätsdifferenz wird kleiner und wechselt in den negativen Bereich), desto größer fällt die Dauer dieser angrenzenden Silbe in Relation zur Akzentsilbe aus (d.h. desto größer wird der Wert für das Dauerverhältnis). Unter Einbeziehung der Punktwolken beider Zeichen aus Abbildung 22(a) und der hieraus abgeleiteten Regressionsgeraden wird zudem deutlich, dass der Zusammenhang zwischen den Intensitäts- und Dauerwerten nicht nur von gleicher Art, sondern auch auf einem vergleichbaren quantitativen Niveau anzusiedeln ist. Das beinhaltet nicht nur, dass die beiden Punktwolken in etwa die gleiche Ausdehnung im zweidimensionalen Koordinatenraum einnehmen. Anders als die Punktwolken der Zeichen GEGEBEN und UNERWARTET in der Silbenpaarung VAS|AS zuvor sind sie überdies auch durch eine vergleichbare Lage in diesem Raum gekennzeichnet (vgl. hierzu auch die Steigungsfaktoren und y-Achsenabschnitte der Regressionsgeraden in Tabelle 3). Aufgrund dessen haben sich für den genannten Vergleich auch bei den Mittelwerten der Intensitätsdifferenzen und Dauerverhältnisse in Tabelle 2 keine deutlichen Unterschiede gezeigt. Während sich im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe für das Zeichen NEU kein systematischer Zusammenhang zwischen den Intensitäts- und Dauerrelationen ergeben hat, ist es in der Silbenpaarung aus Akzent- und Nachakzentsilbe das Zeichen UNERWARTET, das sich hierdurch von den anderen beiden Zeichen abhebt. Wie Abbildung 22(b) zeigt, streuen die Dauerverhältnisse des Zeichens UNERWARTET unabhängig von der Ausprägung der Intensitätsdifferenzen hauptsächlich in einer engen Wertespanne zwischen 45-65%. Der dazugehörige Korrelationskoeffizient liegt dementsprechend fast bei Null (r= -0,08) und bleibt weit unterhalb einer statistisch signifikanten Beziehung (siehe Tabelle 3). Des weiteren hebt sich die Punktwolke des Zeichens
144 144
Eigene Einleitung Untersuchungen
von denen der anderen beiden Zeichen dadurch ab, dass sie um zirka 1dB nach links auf der Intensitätsachse verschoben ist. Dies schlägt sich entsprechend in den Intensitätsmittelwerten der Tabelle 2 nieder.
UNERWARTET
Eine weiterführende Analyse der Dauervariation Während die Intensitätsdifferenzen aus einzelnen Maxima bestehen, werden die Dauerverhältnisse aus Silbendauern berechnet, die selbst komplexe Einheiten sind und sich aus einzelnen Elementen, den Segmenten, zusammensetzen. Das Vorliegen einer internen Silbenstruktur wirft die Frage auf, welche Elemente hieraus primär für die beobachteten Variationen der Silbendauer und die darauf basierten Variationen der Dauerverhältnisse verantwortlich sind. Bekannte Ansätze zur Modellierung der Dauern lautlicher Elemente können hierfür nicht herangezogen werden, da hiernach – abgesehen von zufälligen Abweichungen – überhaupt keine Dauervariation hätte auftreten sollen. Das lineare Modell von Klatt (1979) sieht für die Beeinflussung lautlicher Dauern durch Elemente des melodischen Kanals nur akzentund phrasenstrukturbezogene Faktoren vor, die für alle analysierten Äußerungen der akustischen Analyse konstant gehalten wurden. In der Adaption des Ansatzes von Klatt im Kieler Intonationsmodell (Kohler 1991a, b) kommen zwar Einflüsse sprechmelodischer Zeichen auf die Lautdauer herein. Allerdings beziehen sich diese auf ganz andere kontextuelle Bedingungen und beschränken sich zudem nur auf den Akzentvokal. Angesichts dessen muss die Suche nach dem Hauptverursacher für die beobachteten Dauervariationen aus den eigenen Daten heraus erfolgen. Zu diesem Zweck wurde der Anteil des Silbennukleus an seiner Silbe mit der Gesamtdauer der Silbe korreliert. Fällt der Korrelationskoeffizient des hergestellten Zusammenhangs negativ aus, so bedeutet dies, dass der Anteil des Vokals an der Silbe größer/kleiner wird, wenn die Silbendauer abnimmt/zunimmt. Die beobachtete Variation der Silbendauern wäre folglich primär auf andere Elemente als den Nukleus zurückzuführen. Dies wären für die vorliegenden Silbenstrukturen die initialen Konsonanten [m] und [l]. Bei einem positiven Korrelationskoeffizienten wäre entsprechend der Silbennukleus dasjenige Element, welches die Dauervariation in erster Linie bedingen würde. Ein Korrelationskoeffizient mit einem Wert um Null würde hingegen anzeigen, dass beide Silbenbestandteile unabhängig voneinander variieren. Die beschriebene Analyse wurde mittels Produktmomentkorrelationen durchgeführt. Die Ergebnisse der Berechnungen sind in Tabelle 4 zusammengefasst.
145 145
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Zeichen GEGEBEN
NEU
UNERWARTET
Silbe VAS AS NAS
Korrelation %DV mit Silbendauer r df p -0,69 20 >0,001*** 0,39 20 n.s. 0,03 20 n.s.
VAS AS NAS
0,40 0,57 0,41
48 48 48
>0,01** >0,001*** >0,01**
VAS AS NAS
0,43 0,03 0,68
21 21 21
>0,05* n.s. >0,01**
n=22
n=50
n=23
Tabelle 4: Produktmomentkorrelationen des Anteils des Vokals an der Silbe (%DV) mit der Gesamtdauer der Silbe, getrennt nach Zeichen und Silbe. Dargestellt sind die berechneten Korrelationskoeffizienten (r), Freiheitsgrade (df) und Wahrscheinlichkeiten eines -Fehlers (p, zweiseitig, Sterne indizieren statistische Signifikanzniveaus). Die dazugehörigen Rohdaten sind im Anhang D auf der beiliegenden CD einzusehen.
Wie Tabelle 4 zeigt, ergeben sich für die Korrelationen des Vokalanteils an seiner Silbe mit der Gesamtdauer der jeweiligen Silbe bis auf eine Ausnahme (Vorakzentsilbe des Zeichens GEGEBEN) ausschließlich positive Korrelationskoeffizienten. Zwei Drittel dieser positiven Korrelationen (6 von 9) erreichen statistische Signifikanz. Global betrachtet, weist der Ausgang der Berechnungen somit darauf hin, dass das vokalische Element vorrangig bzw. wesentlich mitverantwortlich für die Dauervariation der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe ist. Die Korrelationskoeffizienten sind allerdings in allen Fällen weit von funktionalen Zusammenhängen entfernt, weswegen sicherlich noch einige andere Faktoren auf die Silben- und Vokaldauer einwirken. 4.2.3 Diskussion der Ergebnisse der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Zur kontextgesteuerten Elizitation der sprechmelodischen Zeichen Das Ziel der dargestellten akustischen Analyse bestand darin, silbenbezogene Dauer- und Intensitätsmessungen unter der Bedingung der drei Zeichen GEGEBEN, NEU und UNERWARTET vorzunehmen. Diese Messungen sollen ein empirisches Fundament für die Durchführung eines Perzeptionsexperimentes legen. Die Methode der Datengewinnung sah vor, dass
146 146
Eigene Einleitung Untersuchungen
die drei Zeichen in einer ansonsten konstanten Äußerung von untrainierten Sprechern kontextgesteuert produziert werden. Das heißt, unter der Berücksichtigung vorliegender Erkenntnisse zur Bedeutung und Bedeutungsverkettung sprechmelodischer Zeichen wurde die relevante Äußerung in verschiedene Kontexte eingebettet, die jeweils die Realisierung eines der zu untersuchenden Zeichen in der dafür vorgesehenen Akzentsilbe provozieren sollten. Wie die Ergebnisse zeigen, kann die Methode der kontextgesteuerten Elizitation sprechmelodischer Zeichen insgesamt als erfolgreich bewertet werden. So gab es keinen Fall, in dem eine Äußerung, die in einem Kontext für das Zeichen GEGEBEN stand, mit einem der beiden anderen Zeichen realisiert wurde und umgekehrt. Dass diese klare Steuerung in den Produktionen der Sprecher erreicht werden konnte, ist wahrscheinlich auf den markanten Bedeutungsunterschied zwischen dem Zeichen GEGEBEN einerseits sowie den Zeichen NEU und UNERWARTET andererseits zurückzuführen. Letztere liegen in ihrer Bedeutung enger zusammen. Die Bedeutung des Zeichens UNERWARTET ist als ein Spezialfall der Bedeutung des Zeichens NEU zu betrachten (vgl. 1.3.1). Aufgrund dessen war zu erwarten, dass diese beiden Zeichen in den auf sie abgestimmten Kontexten eher ausgetauscht werden würden, wobei dieser Austausch stärker in der Richtung von einer spezielleren zu einer allgemeineren Bedeutung auftreten sollte als umgekehrt. Die Etikettierung der gewonnenen Sprachdaten hat dies bestätigt. Dennoch stammt auch für diese beiden Zeichen die Mehrheit der ausgewerteten Fälle aus den dafür vorgesehenen Kontexten. Der Nachteil dieser Methode besteht vor allem darin, dass die Anzahl der auswertbaren Äußerungen und ihre Verteilung über die drei Zeichen von der Fähigkeit der einzelnen Sprecher abhängt, sich in die gegebenen Kontexte hineinzuversetzen und entsprechend adäquate Melodien zu produzieren. Im Vergleich zu alternativen Verfahren wie der Imitation von Produktionen des Versuchsleiters durch untrainierte Sprecher oder der gezielten Instruktion trainierter Sprecher ist das gewählte Verfahren daher ggf. mit einem größeren Aufwand in der Datengewinnung verbunden. Der entscheidende Vorteil einer kontextgesteuerten Elizitation der sprechmelodischen Zeichen liegt aber in der geringen Einflussnahme auf die Produktionen der (untrainierten) Sprecher im Vergleich zu den genannten alternativen Verfahren. Dies erhöht die Natürlichkeit und damit die Generalisierbarkeit der darauf basierten Messungen in den durch lesesprachliches Material gegebenen Grenzen.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
147 147
Zur Beeinflussung der Ergebnisse durch das Messverfahren Im Rahmen der Aufbereitung der Messwerte (siehe 4.2.1) wurde auf eine potentielle Beeinflussung der gemessenen Intensitätswerte durch lokale Perturbationen hingewiesen. Diese entstehen, wenn Harmonische des Quellensignals zentrale Formantfrequenzen passieren. Das Ausmaß der Beeinflussung wurde durch Merkmale der Äußerung, der Sprecher und des Messverfahrens so gering wie möglich gehalten, konnte jedoch mit den gegebenen Mitteln nicht vollends ausgeschaltet werden. Insofern ist der Frage nachzugehen, inwieweit die gefundenen Ergebnisse diese Beeinflussung reflektieren. Durch die charakteristische Positionierung der F0-Gipfel zu den Vokalen der Silbentriade, in denen die Intensitätsmaxima gemessen wurden und die sich in ihren grundlegenden phonetischen Eigenschaften nicht wesentlich veränderten, ist ein solcher Einfluss primär in Unterschieden der Intensitätsdifferenzen zwischen den drei Zeichen zu suchen. Es ist daher möglich, dass die beschriebenen Unterschiede in den Lagen der Punktwolken im Koordinatenraum und folglich auch die gefundenen Mittelwertsunterschiede für die Intensität in Tabelle 2 zum Teil auf die beschriebenen lokalen Perturbationen zurückgehen. Dennoch ist dies angesichts des Ausmaßes dieser Unterschiede eher unwahrscheinlich. Entscheidend ist des weiteren, dass solche Perturbationen als Ursache für die signifikanten Korrelationen zwischen Dauer- und Intensitätsrelationen gänzlich ausgeschlossen werden können. Diese Korrelationen werden nachfolgend diskutiert. Zur Interpretation der gefundenen Zusammenhänge zwischen den Dauerund Intensitätsrelationen Für die untersuchten sprechmelodischen Zeichen wurden in beiden Silbenpaarungen Zusammenhänge zwischen den Intensitätsdifferenzen und Dauerverhältnissen gefunden. Diese waren von der Art, dass die Dauern der Vor- bzw. Nachakzentsilbe in Relation zur Akzentsilbe größer wurden, je höher ihre Intensitätsmaxima im Vergleich zum Maximum der Akzentsilbe ausfielen. Die gefundenen Zusammenhänge beruhen auf Korrelationskoeffizienten über |r|=0,5. Angesichts des Grundrauschens, das in die Ergebnisse durch Messungenauigkeiten und zufällige phonetische Variationen eindringt (im Zusammenhang mit der Aufbereitung der Messwerte wurde hierauf hingewiesen), ist die Stärke der gefundenen Zusammenhänge beachtlich. Vor diesem Hintergrund stellt sich die Frage, inwieweit die gefundenen Korrelationen als Folge der Kodierung der untersuchten sprechmelodischen Zeichen interpretiert werden können.
148 148
Eigene Einleitung Untersuchungen
Hierbei ist Folgendes zu berücksichtigen: Artikulatorische und akustische Untersuchungen wie Moon und Lindblom (1994) sowie Gendrot und Adda-Decker (2005) deuten in übereinstimmender sprachübergreifender Weise auf einen Zusammenhang zwischen der Dauer des Vokals und dessen Position im Vokalraum hin. Je länger ein Vokal (in einer Kette von Segmenten) ist, desto präziser werden die dafür vorgesehenen Zielpunkte in Zungenposition und Öffnungsgrad angesteuert (vgl. auch Lindblom 1963). In den analysierten Silben sind offene Vokalqualitäten anzusteuern. Es ist somit denkbar, dass die Vokale mit zunehmender Dauer auch offener produziert werden, insbesondere, da die dauerbedingte Reduktion von Vokalqualitätsunterschieden empirischen Ergebnissen zufolge vor allem den Öffnungsgrad zu betreffen scheint (vgl. Flemming 2005). Da ein größerer Öffnungsgrad (d.h. eine größere Abstrahlöffnung des Ansatzrohres) zu einer erhöhten Signalintensität führt, können sich so allein aufgrund artikulatorischer Ursachen Zusammenhänge zwischen Silbendauer und Intensitätsmaximum – und dementsprechend zwischen Dauerverhältnis und Intensitätsdifferenz – ergeben. Der artikulationsbasierten Interpretation der beobachteten Korrelationen sind zwei Aspekte entgegenzustellen. Erstens setzt sie voraus, dass Dauer und Intensität immer in einer bestimmten Weise kovariieren. Diese Kovariation entspricht einer positiven Korrelation im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) und einer negativen Korrelation in der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS). Dass das Dauerverhältnis auch unabhängig von der Intensitätsdifferenz variiert, wie es sich für die Zeichen NEU (VAS|AS) und UNERWARTET (AS|NAS) gezeigt hat, kann aus dem artikulatorischen Blickwinkel heraus nicht erklärt werden. Der zweite gewichtigere Aspekt betrifft den Umfang der gefundenen Intensitätsvariation. Ladefoged (1967) zeigt in diesem Zusammenhang, dass der Schalldruckpegel von [a] und [i] aus isoliert produzierten Logatomen englischer Sprecher um zirka 5dB voneinander abweicht. Da dieser Wert für ein vergleichbares subglottales Druckniveau gefunden wurde, kann er allein als Konsequenz des abweichenden Öffnungsgrades verstanden werden. Aufgrund der Rahmenbedingungen der Produktion ist davon auszugehen, dass beide Vokalqualitäten sehr präzise artikuliert wurden. Da [a] und [i] zugleich extreme Öffnungsgrade des Ansatzrohres repräsentieren, ist davon auszugehen, dass öffnungsgradbedingte Intensitätsdifferenzen nicht viel mehr als 5dB ausmachen können (dieser Wert steht im Einklang mit den Ergebnissen von Lehiste und Peterson 1959. Eine umfangreichere Liste öffnungsgradbedingter und in diesem Sinne intrinsischer Intensitätsunterschiede findet sich bei Lehiste 1970).
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
149 149
Die Unterschiede im Öffnungsgrad der Vokale, die für beide Silbenpaarungen in der vorliegenden Untersuchung erwartet werden können, sind weit weniger extrem als die aus Ladefoged (1967) zitierten, da die Vokalqualitäten – selbst unter Berücksichtigung der phonetischen Variationen innerhalb jeder Silbe – viel dichter beieinander liegen. Dennoch haben sich sowohl für einzelne Intensitätsdifferenzen als auch für die Variation innerhalb der Intensitätsdifferenzen pro Zeichenklasse Werte von deutlich über 5dB ergeben. Die gefundenen Intensitätsdifferenzen sind insofern nicht ausschließlich auf artikulatorische Beweggründe zurückführbar. In diesem Zusammenhang ist zu beachten, dass die Intensitätswerte von Ladefoged (1967) und der vorliegenden Untersuchung auf unterschiedlichen Messmethoden basieren. So hat Ladefoged beispielsweise eine Breite des Analysefensters im akustischen Signal von 230ms verwendet. Diese sollte das gesamte Logatom abdecken. In dieser Untersuchung kam eine Fensterbreite von 40ms zur Anwendung. Da in beiden Untersuchungen aber ausschließlich Differenzen zwischen Intensitätswerten miteinander verglichen werden, sollten diese methodischen Unterschiede ignoriert werden können. Zur Interpretation der Ergebnisse vor dem Hintergrund der Kodierung sprechmelodischer Zeichen Im Rahmen der Diskussion der gefundenen Korrelationen wurde deutlich, dass die gefundenen Intensitätswerte unter anderem aufgrund ihrer Variationsbreite nicht auf Artefakte der Methode zurückgeführt werden können. Auch für die Dauerwerte ist anzunehmen, dass sie eine gezielte Steuerung durch den Sprecher wiedergeben. Diese Einschätzung basiert vor allem auf dem Befund, dass die Dauervariationen primär über Veränderungen in der Vokaldauer erzeugt wurden. Würden die Dauervariationen beispielsweise auf zufällige Veränderungen in den Segmentdauern zurückgehen, wäre zu erwarten, dass diese zufälligen Veränderungen alle Segmente der Silbe gleichermaßen betreffen. Ferner ist in diesem Rahmen darauf hinzuweisen, dass sich auch die von Kohler (1991a, c) beobachteten und nach seiner Ansicht für die Wahrnehmung der sprechmelodischen Zeichen relevanten Dauerveränderungen auf die Silbennuklei konzentrierten. In der hier verwendeten Äußerung „Sie’s mal Malerin gewesen“ entspricht dies den Vokalen. Letztlich sprechen auch die gefundenen Zusammenhänge dafür, dass es sich in beiden Messgrößen um eine gezielte Variation handelt. Hiervon ausgehend, ist zu berücksichtigen, dass im Rahmen der Datengewinnung alle (bekannten) Faktoren, die für eine solche gezielte Dauer- und Intensitätsvariation verantwortlich gemacht werden könnten, konstant gehalten wurden. Daher ist es wahrscheinlich, dass die Ausprä-
150 150
Eigene Einleitung Untersuchungen
gungen der beiden in lautlichen Elementen untersuchten Größen, Intensitätsdifferenzen und Dauerverhältnisse, auf sprechmelodisch motivierte Variationen zurückgehen, die eine Folge der Kodierung der drei beteiligten sprechmelodischen Zeichen sind. Das für die akustischen Messungen verwendete, zunächst sehr elementar gehaltene Modell kann dementsprechend als erfolgreich bewertet werden. Vor diesem Hintergrund ist zu diskutieren, warum nicht unter allen Bedingungen die skizzierten Zusammenhänge zwischen Dauer- und Intensitätsrelationen gefunden wurden. In Verbindung mit den Zeichen NEU und UNERWARTET variieren beide Größen in jeweils einer der beiden Silbenpaarungen unabhängig voneinander. Im Falle des Zeichens NEU ist dies die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS, vgl. Abb. 21b), und im Falle des Zeichens UNERWARTET handelt es sich um die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS, vgl. Abb. 22b). Hierfür sind verschiedene Ursachen denkbar. Eine Möglichkeit ist, dass unter den beiden genannten Bedingungen varianzerzeugende Einflussfaktoren in die Messwerte eingegangen sind, die unabhängig von der Kodierung der sprechmelodischen Zeichen sind und aufgrund derer die zugrundeliegenden Zusammenhänge nicht zutage treten. Da jedoch alle Daten zusammenhängend und damit einheitlich gewonnen wurden, ist dies eher unwahrscheinlich. Eine zweite Möglichkeit besteht darin, dass in den beiden abweichenden Bedingungen Zusammenhänge existieren, die aber mit der Messung der Intensitätsmaxima und Silbendauern nicht beschreibbar sind. Wie zu Beginn von 4.2.1 bereits erwähnt, ist nicht davon auszugehen, dass die Einflüsse sprechmelodischer Zeichen auf die Dauer und Intensität in lautlichen Elementen mit den sehr einfachen auf Silben basierten Messungen erschöpfend aufgedeckt werden. Drittens ist es letztlich auch vorstellbar, dass für die Kodierung der sprechmelodischen Zeichen in den beiden abweichenden Bedingungen einfach keine Interaktion von Dauer und Intensität vorgesehen ist. Das heißt, der Sprecher hat die Freiheit, beide Größen unabhängig voneinander zu variieren. Auf der Grundlage des derzeitigen Kenntnisstandes und im Hinblick auf die Daten der akustischen Analyse kann keiner der angeführten Erklärungsansätze eindeutig widerlegt oder bestätigt werden. Im Hinblick darauf, dass die durchgeführte akustische Analyse als Vorbereitung auf ein Perzeptionsexperiment dient, soll von der letztgenannten dritten Erklärung ausgegangen werden, da sie die einzig konstruktive ist. Das heißt, sie gestattet die Formulierung von Hypothesen für das Perzeptionsexperiment.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
151 151
4.2.4 Die Hypothesen für das Perzeptionsexperiment zur Dauer und Intensität in lautlichen Elementen Auf der Grundlage der bereits vorhandenen empirischen Erkenntnisse, die im dritten Kapitel vorgestellt wurden, konnten zunächst nur die beiden unspezifischen und daher experimentell noch nicht überprüfbaren Hypothesen (C) und (D) formuliert werden: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
Anhand der zuvor dargestellten akustischen Analyse können nun konkrete Hypothesen über die Effekte unterschiedlicher Dauern und Intensitäten in lautlichen Elementen auf die Wahrnehmung der drei Zeichen formuliert werden. Diese Hypothesen sollten eigentlich so gewählt werden, dass sie das Ergebnisbild der akustischen Analyse nachzeichnen. Für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) wäre also zum Beispiel die Hypothese zu formulieren, dass für die Zeichen GEGEBEN und UNERWARTET Dauerverhältnisse nicht beliebig mit Intensitätsdifferenzen kombiniert werden können. Die Wahrnehmung des jeweiligen Zeichens wird durch Kombinationen unterstützt, die entlang der berechneten Regressionsgeraden für die gefundene Punktwolke liegen (vgl. z.B. Abb. 21a). Im Rahmen solcher Kombinationsbeschränkungen als Bestandteil der Kodierung sprechmelodischer Zeichen ist generell anzunehmen, dass die genannte Unterstützung für Kombinationen entlang der Regressionsgeraden gleichwertig ausfällt. Das heißt, im Vergleich zwischen solchen Kombinationen sollten sich für die Wahrnehmung des betreffenden Zeichens keine Unterschiede ergeben. Des weiteren wäre mit Blick auf Abbildung 21(b) für das Zeichen NEU zu erwarten, dass die Dauerverhältnisse und Intensitätsdifferenzen beliebig kombinierbar sind. Das heißt, unterschiedliche Dauer- und Intensitätsrelationen haben keinen Effekt auf die Wahrnehmung des Zeichens NEU. Parallel zu den erwarteten perzeptorischen Einflüssen der Dauer- und Intensitätsrelationen in der Silbenpaarung aus Vorakzent- und Akzentsilbe ist auch im Rahmen der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) zu erwarten, dass für eines der drei Zeichen – in diesem Fall UNERWARTET – keine kombinatorischen Restriktionen gelten, die Wahrnehmung dieses Zeichens also nicht durch unterschiedliche Dauer- und Intensitätsrelationen beeinflusst wird, während die Wahrnehmung der anderen beiden Zeichen – GEGEBEN und NEU – durch Kombinationen von
152 152
Eigene Einleitung Untersuchungen
Dauer- und Intensitätsrelationen unterstützt wird, die entlang der berechneten Regressionsgeraden für die gefundenen Punktwolken liegen (vgl. Abb. 22a-b). Die skizzierten Hypothesen, nach denen nur für bestimmte sprechmelodische Zeichen Effekte auftreten sollen, experimentell zu überprüfen, setzt allerdings voraus, die Ergebnisse des Perzeptionsexperimentes nicht nur aus dem Blickwinkel eines bestimmten Zeichens zu beschreiben (vgl. hierzu Fußnote 11 in 3.1.1), sondern sie auf ein bestimmtes Zeichen zurückzuführen. Im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe muss beispielsweise plausibel begründbar sein, dass durch unterschiedliche Dauer- und Intensitätsrelationen hervorgerufene Effekte von der Wahrnehmung des Zeichens GEGEBEN herrühren und nicht von der Wahrnehmung des Zeichens NEU. Es erscheint grundsätzlich schwierig, im Rahmen von Perzeptionsexperimenten derartige Verbindungen zwischen gefundenen Effekten und sprechmelodischen Zeichen herzustellen. Besonders problematisch ist die Herstellung solcher Verbindungen, wenn – wie in der vorliegenden Arbeit – phonetisch benachbarte sprechmelodische Zeichen untersucht werden und die Ergebnisse auf einem 2AFCParadigma wie dem Identifikationstest-Paradigma basieren (vgl. 4.1.1). Dem geschilderten Problem Rechnung tragend, können im Rahmen des Perzeptionsexperimentes nur die folgenden drei Hypothesen überprüft werden, die auf die Zusammenhänge zwischen Dauerverhältnissen und Intensitätsdifferenzen aus den Abbildungen 21(a) und 22(a) Bezug nehmen: (CD1) In der Silbenpaarung aus Vorakzent- und Akzentsilbe sind die Dauerverhältnisse und Intensitätsdifferenzen nicht beliebig kombinierbar. Dauer- und Intensitätskonfigurationen, die entlang der Regressionsgeraden zu dem Zeichen GEGEBEN bzw. UNERWARTET liegen, unterstützen die Wahrnehmung des jeweiligen Zeichens gegenüber Konfigurationen, die der kombinatorischen Restriktion der Regressionsgeraden zuwiderlaufen. (CD2) In der Silbenpaarung aus Akzent- und Nachakzentsilbe sind die Dauerverhältnisse und Intensitätsdifferenzen nicht beliebig kombinierbar. Dauer- und Intensitätskonfigurationen, die entlang der Regressionsgeraden zu dem Zeichen GEGEBEN bzw. NEU liegen, unterstützen die Wahrnehmung des jeweiligen Zeichens gegenüber Konfigurationen, die der kombinatorischen Restriktion der Regressionsgeraden zuwiderlaufen. (CD3) Dauer- und Intensitätskonfigurationen, die entlang einer gemeinsamen Regressionsgeraden aus (CD1) oder (CD2) liegen, üben keinen unterschiedlichen Einfluss auf die Wahrnehmung der sprechmelodischen Zeichen aus.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
153 153
Damit werden keine Hypothesen einbezogen, die sich auf die Punktwolken aus den Abbildungen 21(b) und 22(b) beziehen und besagen, dass es für die Wahrnehmung der Zeichen NEU und UNERWARTET irrelevant ist, welche Intensitätsdifferenzen mit welchen Dauerverhältnissen kombiniert werden. Dies gilt im Falle des Zeichens NEU für die Silbenpaarung VAS|AS und im Falle des Zeichens UNERWARTET für die Silbenpaarung AS|NAS. Um diese Annahmen zu überprüfen, wäre es erforderlich, zu belegen, dass die im Rahmen der jeweiligen Silbenpaarung gefundenen Effekte nicht der Wahrnehmung der Zeichen NEU bzw. UNERWARTET zuzuschreiben sind. Hypothese (CD3) wurde allerdings so formuliert, dass sie einen Aspekt aus den genannten Annahmen aufgreift. Sie kann (innerhalb jeder Silbenpaarung) nur dann zutreffen, wenn die Dauer- und Intensitätskonfigurationen, die an der kombinatorischen Restriktion einer gemeinsamen Regressionsgeraden ausgerichtet sind, nicht nur die Wahrnehmung des dazugehörigen Zeichens gleichermaßen unterstützen, sondern auch mit demjenigen Zeichen gleichermaßen kompatibel sind, für das keine Restriktion in der Kombination von Dauerverhältnissen und Intensitätsdifferenzen gelten soll. Dies wird im nachfolgenden Abschnitt 4.2.5 zur Methode des Perzeptionsexperimentes an Beispielen verdeutlicht. Durch die Evaluierung der Hypothesen (CD1)-(CD3) vor dem Hintergrund der Ergebnisse des Perzeptionsexperimentes wird sich ein Gesamtbild dieser Ergebnisse herauskristallisieren. Auf der Basis dieses Gesamtbildes und dessen Korrespondenz mit dem Gesamtbild der Ergebnisse aus der akustischen Analyse können über die Auseinsandersetzung mit den experimentell prüfbaren Hypothesen hinaus mit einer gewissen Sicherheit Verbindungen zwischen gefundenen Effekten und sprechmelodischen Zeichen hergestellt werden. Das heißt, es kann aufgeschlüsselt werden, welche Rolle die Dauer- und Intensitätskonfigurationen in beiden Silbenpaarungen bei der Wahrnehmung der einzelnen sprechmelodischen Zeichen spielen. So wird das geschilderte Problem umgangen, derartige Rückschlüsse an einzelnen Befunden bzw. Hypothesen festzumachen. Letztlich werden die Hypothesen (CD1)-(CD3) wie bereits in 4.1 durch eine weitere Hypothese (E) ergänzt, die der erwarteten Stärke des Einflusses der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der Zeichentriade gewidmet ist und die angesichts der bislang vorliegenden empirischen Erkenntnisse (vgl. z.B. 3.1.3) die Synchronisation als primären Faktor für die Wahrnehmung der Zeichentriade ansieht: (E)
Eine F0-Gipfelverschiebung von prä- über inner- zu postvokalisch liegenden F0-Gipfeln bewirkt unabhängig von den aus
154 154
Eigene Einleitung Untersuchungen
(CD1)-(CD2) erwarteten Einflüssen einen Wahrnehmungsübergang von GEGEBEN, über NEU zu UNERWARTET. 4.2.5 Die Methode des Perzeptionsexperimentes zur Dauer und Intensität in lautlichen Elementen Allgemeines zum Aufbau des Perzeptionsexperimentes Um den Hypothesen (C) und (D) sowie den darauf aufbauenden Hypothesen (CD1)-(CD3) und (E) nachzugehen, wurden insgesamt 14 Stimulusserien auf der Basis der Äußerung „Sie’s mal Malerin gewesen“ generiert. Sie wurden auf der Grundlage 14 verschiedener Dauer- und Intensitätskonfigurationen in den darunter liegenden lautlichen Elementen erzeugt. Ingesamt 8 der 14 Serien zeichnen sich durch eine systematische Variation der Konfiguration aus, die auf die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) bezogen ist. In den anderen 6 Serien wurde die Konfiguration systematisch variiert, die durch die Werte der Akzent- und Nachakzentsilbe (AS|NAS) gebildet wird. Für die Konfiguration, die in beiden Gruppen von Stimulusserien jeweils nicht systematisch variierte wurde, wurden neutrale über alle Serien einer Gruppe vergleichbare Dauer- und Intensitätswerte gewählt. Hierauf wird später noch näher eingegangen. Beide Gruppen von Stimulusserien zerfallen zudem in zwei Untergruppen, die sich durch den Synchronisationsraum unterscheiden, in dem der F0-Gipfel verschoben wurde. In der Gruppe, die aus 8 Serien besteht, sind vier Serien durch eine identische Gipfelverschiebung von einer präzu einer innervokalischen Position entstanden. Die anderen vier Serien kamen durch einen Synchronisationsraum zustande, der sich von einer inner- zu einer postvokalischen Position erstreckte und der ebenfalls für alle vier Serien identisch war. Er entsprach dem Synchronisationsraum aus dem Experiment zur Gipfelgestalt in 4.1. In der Gruppe, die aus 6 Serien besteht, wurden vier auf Basis des Synchronisationsraumes von prä- zu innervokalisch und zwei auf Basis des Raumes von inner- zu postvokalisch hergestellt. Diese grundlegenden Eckpfeiler des Experimentaufbaus sind in Abbildung 23 als Strukturdiagramm zusammengefasst. Die Werte in den systematisch variierten Dauer- und Intensitätskonfigurationen sollten so ausfallen, dass möglichst ausgeprägte Unterschiede zwischen den jeweiligen Stimulusserien eines Synchronisationsraumes geschaffen werden. Diese generelle Vorgabe wurde durch zwei Kriterien eingeschränkt. Erstens sollten sich die Werte in den Dauer- und Intensitätskonfigurationen an den Messwerten der akustischen Analyse orientieren. Das heißt, sie sollten die Punktwolken und die hiernach berechneten Re-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
155 155
gressionsgeraden berücksichtigen. Zweitens wurde darauf geachtet, dass die Werte nicht so extrem ausfielen, dass der natürlichsprachliche Charakter der Stimuli verloren ging und/oder weitere Akzentsilben neben der Silbe „Ma-“ aus „Malerin“ entstanden. Für Beides war der Perzeptionseindruck des Versuchsleiters maßgeblich.
Abbildung 23: Struktur des Perzeptionsexperiments zum Einfluss der Dauer- und Intensität in lautlichen Elementen auf die Wahrnehmung der Zeichentriade.
Die hiernach gewählten Dauer- und Intensitätskonfigurationen sind zusammen mit den dazugehörigen Punktwolken in den Abbildungen 24-27 eingekreist dargestellt. Die Abbildungen 24-25 zeigen die Konfigurationen in der Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) für die jeweils vier Stimulusserien der Synchronisationsräume von prä- zu innervokalisch (Abb. 24) und von inner- zu postvokalisch (Abb. 25). In den Abbildungen 26-27 sind die Konfigurationen in der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) dargestellt. Vier Konfigurationen gehören zu den Stimulusserien des Synchronisationsraumes von prä- zu innervokalisch (Abb. 26) und zwei zu den Stimulusserien des Synchronisationsraumes von inner- zu postvokalisch (Abb. 27). Tabelle 5 gibt einen Überblick über die genauen Werte in den einzelnen Konfigurationen.
156 156
Eigene Einleitung Untersuchungen
= GEGEBEN
Abbildung 24: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) der 4 Stimulusserien des Synchronisationsraumes von präzu innervokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens GEGEBEN (vgl. Abb. 21a in 4.2.2). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
= UNERWARTET
Abbildung 25: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) der 4 Stimulusserien des Synchronisationsraumes von innerzu postvokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens UNERWARTET (vgl. Abb. 21a in 4.2.2).
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
= GEGEBEN
157 157
= NEU
Abbildung 26: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) der 4 Stimulusserien des Synchronisationsraumes von prä- zu innervokalisch. Die Konfigurationen orientieren sich an den dazugehörigen Punktwolken der Zeichen GEGEBEN und NEU (vgl. Abb. 22a in 4.2.2). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
= NEU
Abbildung 27: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) der 2 Stimulusserien des Synchronisationsraumes von inner- zu postvokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens NEU (vgl. Abb. 22a in 4.2.2).
158 158
Eigene Einleitung Untersuchungen Systematische Variation der Konfiguration VAS|AS
Dauer
VAS
MALCV MALCV
MALCV
MALCV
MALVC
MALVC
MALVC
MALVC
>D
>D>I
>D
>D>I
107
155
155
114
114
164
164
AS
218
218
218
218
218
218
218
218
NAS
123
123
123
123
123
123
123
123
%Dvas|as
49
49
71
71
52
52
75
75
%Das|nas
56
56
56
56
56
56
56
56
-6,1
-0,1
-6,1
-0,1
-7,1
-0,9
-7,3
-1,1
3,3
3,3
3,7
3,7
3,1
3,1
3,7
3,7
(ms)
Ivas|as (dB) Ias|nas (dB)
Systematische Variation der Konfiguration AS|NAS
Dauer (ms)
LECV
LECV
LECV
LECV
LEVC
LEVC
>D
>D>I
>D
VAS
131
131
131
131
134
134
AS
218
218
218
218
218
218
98
98
143
143
93
124
60
60
60
60
62
62
NAS
%Dvas|as %Das|nas
45
45
66
66
43
57
Ivas|as (dB)
-4,1
-3,5
-4,0
-3,5
-4,2
-4,0
Ias|nas (dB)
0,7
5,7
0,1
5,4
7,3
-0,96
Tabelle 5: Die absoluten Dauern (in ms) der Vorakzentsilbe (VAS), Akzentsilbe (AS) und Nachakzentsilbe (NAS) und die daraus gebildeten Dauerverhältnisse (%Dvas|as, %Das|nas) sowie die Intensitätsdifferenzen (Ivas|as, Ias|nas, in dB) in den Konfigurationen der 14 Stimulusserien.
Die Nomenklatur der 14 Konfigurationen besteht aus drei Teilen. Der erste Teil, MAL oder LE, bezeichnet die manipulierte Silbe. Bei MAL handelt es sich um die Vorakzentsilbe, bei LE um die Nachakzentsilbe der Äußerung „Sie’s mal Malerin gewesen“. Die anschließenden Indizes verweisen auf den Synchronisationsraum, mit dem die Konfiguration verbunden ist. Hierbei steht CV für den Synchronisationsraum von prä- zu innervokalisch und VC für den Synchronisationsraum von inner- zu postvokalisch. Der dritte Teil beschreibt die Werte innerhalb der Dauer- und Intensitätskonfiguration. Die Buchstaben D und I stehen für die Begriffe
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
159 159
Dauerverhältnis und Intensitätsdifferenz. Die mathematischen Symbole > und < zeigen einen großen Wert bzw. einen kleinen Wert an. Die Konfigurationen aus Abbildung 24 und 25 zielen auf die Hypothese (CD1) ab. Hiernach sollten die beiden Dauer- und Intensitätskonfigurationen MALCV
160 160
Eigene Einleitung Untersuchungen
Für die Hypothese (CD3) sollte es irrelevant sein, dass die Werte der Konfigurationen MALCV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
161 161
Die bisherigen Erläuterungen haben sich auf die systematisch variierten Konfigurationen konzentriert. In jeder Stimulusserie wurde jedoch neben der experimentell relevanten Konfiguration auch die Dauer- und Intensitätskonfiguration der jeweils anderen Silbenpaarung manipuliert. Das heißt, im Falle der 8 Stimulusserien mit den MAL-Konfigurationen aus den Abbildungen 24-25 wurden auch die Intensitätsdifferenzen und Dauerverhältnisse zwischen der Akzent- und Nachakzentsilbe manipuliert. Dabei wurde eine annähernd konstante Verbindung aus Intensitätsdifferenz und Dauerverhältnis zwischen Akzent- und Nachakzentsilbe hergestellt. Tabelle 5 gibt die genauen Werte. Die Verbindung aus Intensitätsund Dauerrelation fiel in den Wertebereich, in dem die Punktwolken aller drei Zeichen für diese Silbenpaarung zusammenlaufen (vgl. Abb. 22a-b). Das heißt, es wurde eine Verbindung gewählt, die für alle drei Zeichen im Bereich der tatsächlich gefundenen Daten liegt. Vorausgesetzt, dass die damit konstruierte akustische Neutralität auch einer perzeptorischen Neutralität entspricht, sollte es das Beibehalten dieser Verbindung ermöglichen, die Perzeptionsergebnisse allein mit Blick auf die 8 unterschiedlichen Dauer- und Intensitätsrelationen von Vorakzentsilbe und Akzentsilbe interpretieren zu können. Analog zu den 8 MAL-Konfigurationen blieben im Falle der 6 LE-Konfigurationen die Intensitäts- und Dauerrelationen zwischen Vorakzent- und Akzentsilbe in einem Bereich konstant, der für jedes Zeichen in der akustischen Analyse aufgetreten ist (vgl. Abb. 21a-b; für die Werte siehe Tabelle 5). Auch dies diente dazu, die Ergebnisse allein mit Blick auf die systematisch variierten Konfigurationen betrachten zu können. Konfigurationsunabhängig gingen alle 14 Stimulusserien von der gleichen natürlich produzierten Äußerung „Sie war mal Malerin“ aus. Sie wurde wie im Experiment zur Gipfelgestalt in 4.1 vom männlichen Sprecher bp produziert. Da nicht ausgeschlossen werden konnte, dass die zuvor genannten Hypothesen (CD1)-(CD3) mit ihrem expliziten Bezug zu bestimmten Dauer- und Intensitätsausprägungen in lautlichen Elementen kontextsensitiv sind, erschien es wichtig, dass die den Stimuli zugrundeliegende Äußerung in ihren grundlegenden phonetischen Eigenschaften (z.B. Silben- und Akzentstruktur, männlicher Sprecher) der Äußerung entsprach, in der die drei Zeichen bereits in der vorangehenden akustischen Analyse ausgewertet wurden. Die Ausgangsäußerung wurde ferner wie in 4.1 mit einem intendiert ebenen Melodieverlauf realisiert, um auszuschließen, dass sie durch Merkmale der behandelten Zeichen vorbelastet war und um die spätere Resynthesequalität zu erhöhen (vgl. S. 95 in 4.1.1). Alle weiteren Einzelheiten zur Generierung der Stimulusserien werden nachfolgend in drei Abschnitten präsentiert. Diese drei Abschnitte entsprechen den drei Schritten, in denen die Gesamtmanipulation stattfand.
162 162
Eigene Einleitung Untersuchungen
Die Reihenfolge der einzelnen Schritte war durch die Anforderungen an die Stimuli festgelegt. So musste die Dauermanipulation vor und getrennt von der F0-Manipulation (der Herstellung und Verschiebung von F0Gipfeln) erfolgen, da die Gipfelgestalt in allen Stimulusserien eines Synchronisationsraumes identisch sein sollte. Eine Manipulation der Dauer beträfe jedoch alle Signaleigenschaften im gewählten Zeitintervall und hätte daher auch die Transitionsdauern des darin enthaltenen F0-Gipfels verändert. Des weiteren hätte eine an die Intensitätsmanipulation anschließende F0-Manipulation durch die rechnerische Abhängigkeit beider Größen alle gezielt adjustierten Intensitätswerte im Nachhinein verändert. Daher stellte die Intensitätsmanipulation den letzten der drei Schritte dar und fand in gleicher Weise für alle Stimuli der jeweiligen Serie statt. Alle drei Manipulationsschritte wurden auf einer silbenbezogenen Basis durchgeführt. Erster Schritt: Die Manipulation der Dauer Die Produktion der Ausgangsäußerung „Sie’s mal Malerin gewesen“ mit einem intendiert flachen F0-Verlauf hat dazu geführt, dass die Sprechgeschwindigkeit vergleichsweise niedrig ausfiel. Die Äußerung erhielt dadurch einen sediert klingenden Charakter. Um dies zu kompensieren, bestand die erste Manipulation zunächst darin, die Dauer des Signals bis einschließlich zum finalen alveolaren Frikativ [s] des Wortkomplexes „Sie’s“ linear um 36% zu reduzieren (die hintere Segmentgrenze von [s] wurde anhand von Sonagramm und Oszillogramm festgelegt). Hiernach bis zum Signalende wurde die Dauer linear um 10% herabgesetzt. Maßgebend für das Ausmaß der Kompensation war der Gehörseindruck des Versuchsleiters. Die Manipulation wurde – ebenso wie alle folgenden Dauermanipulationen – mit der PSOLA-Resynthese in praat durchgeführt. In die um 10% verkürzte Dauerstruktur wurden anschließend die Manipulationen nacheinander eingebettet und resynthetisiert, die auf die Dauerkomponenten in den Konfigurationen der Stimulusserien bezogen waren. Auf diese Weise wurden 8 Rohstimuli hergestellt, die im nächsten Schritt Gegenstand der F0-Manipulationen werden sollten (MALCV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
163 163
Dauer in beide Verhältnisse einging, blieb unangetastet (Tabelle 5 zeigt hierfür entsprechend einen konstanten Wert von 218ms).24 Die Manipulation selbst wurde nicht linear, sondern mit einer triangulären Struktur durchgeführt, deren Minimum/Maximum jeweils über dem Vokal der Silbe positioniert wurde. So wurde erreicht, dass die Dauerveränderung sich hauptsächlich auf den Silbennukleus stützte. Dies berücksichtigt, dass die Dauervariation auch in den natürlichen Daten der akustischen Analyse vorrangig über den Silbennukleus erzeugt wurde (siehe Tabelle 4 in 4.2.2). Abbildung 28 illustriert die beschriebene Vorgehensweise anhand der Dauermanipulation zur Konfiguration LEVC
_____________ 24
Prinzipiell wäre es auch möglich gewesen, die Akzentsilbe in die Dauermanipulation mit einzubeziehen oder sie nur darauf zu basieren. Dies hätte jedoch daran gebundene kompensatorische Dauerveränderungen in den umliegenden Silben erforderlich gemacht, z.B. wenn es darum geht, bei variierenden Dauerverhältnissen aus Vorakzentsilbe und Akzentsilbe ein konstantes Dauerverhältnis aus Nachakzentsilbe und Akzentsilbe aufrecht zu erhalten. Demgegenüber sind in der verwendeten experimentell günstigeren Vorgehensweise konstante Dauerverhältnisse auch immer mit konstanten Einzeldauern verbunden. Das Ausmaß experimenteller Kontrolle ist somit höher.
164 164
Eigene Einleitung Untersuchungen
Abbildung 28: Oszillogramm (oben) und natürlich produzierter intendiert ebener F0-Verlauf (Mitte) der analysierten Ausgangsäußerung „Sie’s mal Malerin gewesen“. Das untere Fenster zeigt den manipulierten Dauerverlauf der Konfiguration LEVC
Den Dauerkomponenten der systematisch variierten experimentellen Konfigurationen sollten möglichst weitreichende Dauerveränderungen zugrundeliegen. Maßgeblich dafür, wie weit die Manipulationen gehen konnten, war dabei immer der Perzeptionseindruck des Versuchsleiters. So wurde im Rahmen der Konstruktion großer Dauerverhältnisse darauf geachtet, dass „Ma-“ in „Malerin“ abgesehen von einer partiellen Akzentuierung auf „gewesen“ (siehe hierzu Kohler 1991a, b und 2.3.1) immer die einzige Akzentsilbe der Äußerung blieb. Dauervergrößerungen, die zu Akzenteindrücken (einschließlich partieller Deakzentuierung) auf der Vorund Nachakzentsilbe führten, mussten entsprechend zurückgenommen werden. Hierbei wurden zudem bereits Prominenzeffekte der anschließenden F0- und Intensitätsmanipulation antizipiert (vgl. 1.2.3). Das letztlich resynthetisierte Dauerverhältnis lag somit in einigen Fällen etwas unterhalb der perzeptorischen Schwelle, bei der allein durch den Faktor der Dauer ein Akzenteindruck entstanden wäre. Hierdurch begründet sich zum Beispiel, dass das Dauerverhältnis aus den Konfigurationen MALCV>D__ einen weniger extremen Wert annehmen konnte, als in den Konfigurationen MALVC>D__ (siehe Abb. 24-25 und Tabelle 5). Das Dauerverhältnis wird in beiden Fällen durch eine Vergrößerung der Dauer der Vorakzentsilbe hergestellt. Während für das Ausmaß dieser Dauervergrößerung in beiden Konfigurationsgruppen bedacht werden muss, dass die Vorakzentsilbe unter der Bedingung >I ein mit der Akzentsilbe vergleichbares Intensitätsniveau erhält, kommt in der
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
165 165
mit CV gekennzeichneten Konfigurationsgruppe auch noch ein im Bereich der Vorakzentsilbe positionierter F0-Gipfel hinzu (CV verweist auf den Synchronisationsraum von prä- zu innervokalisch). Da es sich bei F0 bzw. F0-Bewegungen um den primären Prominenzindikator handelt (vgl. Fry 1958), musste in dieser Konfigurationsgruppe die Entstehung einer Akzentwahrnehmung durch einen entsprechend geringeren Wert für >D von vornherein unterbunden werden. Die Grenze für die Konstruktion kleiner Dauerverhältnisse wurde durch die Entstehung rhythmischer Unebenheiten in der Äußerung gezogen. Diese Grenze wurde ebenfalls nicht unterschritten. Tabelle 5 ist zu entnehmen, dass zwischen den zu vergleichenden experimentellen Konfigurationen MALCV/VC>D__ und MALCV/VC
166 166
Eigene Einleitung Untersuchungen
laufs war der ähnlich, die in 4.1.1 ausführlich beschrieben wurde. Das heißt, Vor- und Nachlauf etablierten zusammen eine leichte Deklination, die auf einem terminal wirkenden F0-Nivau (bei 74Hz) endete und die zum natürlichsprachlichen Charakter der späteren Stimuli beitrug (vgl. hierzu Fußnote 19 auf S. 97). Zudem hat sich die Positionierung der Konturpunkte entlang der Frequenzachse an dem F0-Niveau des originalen intendiert ebenen Verlaufs orientiert. Die Positionen und exakten Frequenzwerte der Konturpunkte und ihre Abstände in Halbtonschritten sind dem unteren Fenster der Abbildung 29 zu entnehmen. Sie zeigt einen fertig stilisierten F0-Verlauf am Beispiel des am weitesten prävokalisch liegenden F0-Gipfels im Rohstimulus MALCV
Abbildung 29: Darstellung des an 9 Konturpunkten stilisierten F0-Verlaufs der Äußerung „Sie’s mal Malerin gewesen“ (unteres Fenster) für den im Rohstimulus MALCV
Ein wichtiger Unterschied zu dem in 4.1.1 geschilderten F0-Verlauf der Stimuli zur Gipfelgestalt bestand darin, dass durch die Konturpunkte im Nachlauf zusätzlich zum verschobenen Hauptgipfel ein weiterer sehr viel schwächer ausgeprägter Nebengipfel über „gewesen“ geschaffen wurde (siehe Abb. 29). Die dazugehörigen Punkte saßen jeweils am Beginn des Vokals [+] der letzten Silbe aus „Malerin“, mittig im Vokal [e] von „-we-“ und am Beginn des äußerungsfinalen Nasals [n]. Die Konstruktion eines sol-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
167 167
chen Nebengipfels ist durch die große Dauer zwischen dem Ende des verschobenen F0-Gipfels und dem Äußerungsende erforderlich gewesen. Ein mit konstanter Neigung bis zum Äußerungsende fallender F0-Verlauf hätte auf diesem langen Signalabschnitt ebenso seltsam geklungen, wie ein auf mittlerem Niveau verharrender und dann am Äußerungsende terminal fallender F0-Verlauf. Der beschriebene Nebengipfel ruft eine Akzentwahrnehmung über der Silbe „-we-“ hervor und erzeugt so nach Auffassung des Kieler Intonationsmodells (Kohler 1991a, b und 2.3) ein zusätzliches sprechmelodisches Zeichen (NEU) in den Stimuli. Die Existenz eines zusätzlichen Zeichens würde im Rahmen der AM-Phonologie nur von der GToBI-Variante gesehen werden, in der es als Phrasenakzent aufgefasst werden würde (vgl. Grice und Baumann 2000 und 2.4.1). Was den an drei Punkten stilisierten Hauptgipfel anlangt, so haben die Ergebnisse zum Einfluss der Gipfelgestalt auf die Wahrnehmung der behandelten Zeichentriade gezeigt, dass eine schmalere Gipfelbasis mit einer deutlicheren (und abrupteren) Wahrnehmungsveränderung zwischen den Zeichen verbunden ist (vgl. Niebuhr 2003a, b in 3.1.1 sowie die Ergebnisse zur Gipfelgestalt in 4.1.2). Für die zu konstruierenden Stimulusserien beider Synchronisationsräume wurde daher ein symmetrischer Gipfel mit einer Gipfelbasis von 240ms gewählt. Das heißt, An- und Abstieg erstreckten sich jeweils über ein Intervall von 120ms. Diese Gipfelgestalt entsprach der des steil-steilen F0-Gipfels (s/s) aus 4.1.1 (siehe Abb. 14). Während die F0-Gipfel beider Synchronisationsräume in ihrer Gipfelbasis übereinstimmten, fiel die Gipfelhöhe in beiden Synchronisationsräumen leicht unterschiedlich aus. Im Synchronisationsraum von inner- zu postvokalisch wurden die gleichen Frequenzwerte für die Konturpunkte des Gipfels verwendet wie in den Stimuli zur Gipfelgestalt (vgl. Abb. 15 in 4.1.1). Das heißt, Beginn des Anstiegs und Ende des Abstiegs lagen jeweils bei 89Hz und das Maximum bei 134Hz, wodurch eine Gipfelhöhe von 7 Halbtonschritten entstand. Im Rahmen des Synchronisationsraumes von prä- zu innervokalisch wurde die Gipfelhöhe durch eine gegenläufige Frequenzverschiebung der Eckpunkte und des Maximums auf fünf Halbtonschritte reduziert. Anstiegsbeginn und Abstiegsende wurden angehoben und erhielten einen Frequenzwert von jeweils 95Hz. Das Gipfelmaximum wurde abgesenkt und bereits bei 125Hz erreicht (vgl. Abb. 29). Die Konstruktion unterschiedlicher Gipfelhöhen in beiden Synchronisationsräumen berücksichtigt empirische Befunde, in denen für die postvokalischen Gipfel des Zeichens UNERWARTET eine größere Gipfelhöhe festgestellt wurde als für die inner- und prävokalischen F0-Gipfel der beiden Zeichen GEGEBEN und NEU (z.B. Gartenberg und Panzlaff-Reuter 1991; die in der zuvor durchgeführten akustischen Analyse ermittelten F0Werte weisen ebenfalls in Richtung eines solchen Unterschiedes zwischen
168 168
Eigene Einleitung Untersuchungen
den drei Zeichen, siehe Anhang D auf der CD). Der Unterschied im Frequenzumfang des F0-Gipfels beider Synchronisationsräume war für den Versuchsleiter deutlich wahrnehmbar. Dieser Eindruck steht im Einklang mit den Befunden anderer Studien, zum Beispiel ´t Hart (1981). Das Gerüst für die Verschiebung der beschriebenen F0-Gipfel wurde durch die beiden Synchronisationsräume vorgegeben. Sie waren an neuralgischen Stellen des akustischen Signals ausgerichtet. Für die F0-Gipfelverschiebung von inner- zu postvokalisch wurde der Synchronisationsraum aus 4.1.1 verwendet. Das heißt, das Verschiebungsraster wurde am Ende des akzentuierten Vokals aus „Malerin“ fixiert. Von hier aus wurden für vier der insgesamt 8 Rohstimuli (die durch den Index VC gekennzeichnet sind) fünf Gipfelverschiebungen zu je 20ms durchgeführt, zwei davon in den Vokal hinein nach links und drei über die finale Vokalgrenze hinaus nach rechts. Einschließlich der F0-Gipfelposition am Ende des Akzentvokals, von der aus die beidseitige Verschiebung ausging, entstanden auf diese Weise vier Stimulusserien, von der jede 6 Stimuli enthielt (vgl. hierzu Abb. 16). Im dritten Stimulus jeder Serie fällt das Gipfelmaximum mit der hinteren Vokalgrenze zusammen. Dabei liegt der Anstiegsbeginn gleichzeitig am Vokaleingang. Entsprechend sind die Stimuli 4-6 durch postvokalische F0-Gipfel gekennzeichnet, deren Anstieg erst im Akzentvokal beginnt. Damit berücksichtigt die durchgeführte F0-Gipfelverschiebung die Erkenntnisse, die im Experiment zur Gipfelgestalt über die Voraussetzungen für die Wahrnehmung des Zeichens UNERWARTET gewonnen wurden (vgl. 4.1.3). Das Verschiebungsraster des Synchronisationsraumes von prä- zu innervokalisch war an der neuralgischen Stelle des Akzentvokalbeginns ausgerichtet. Von diesem Punkt aus wurden für die anderen vier Rohstimuli (die durch den Index CV gekennzeichnet sind) jeweils drei Gipfelverschiebungen in äquidistanten Abständen von 20ms mit und entgegen des zeitlichen Verlaufs durchgeführt. So entstanden vier Stimulusserien mit jeweils 7 Stimuli. Stimulus 4 enthielt in allen diesen Serien den F0-Gipfel, dessen Maximum mit dem Vokalbeginn koinzidierte. Da der Synchronisationsraum von prä- zu innervokalisch einen Verschiebungsschritt mehr (und dementsprechend einen Stimulus mehr) enthielt als der von inner- zu postvokalisch, überspannte er ein Intervall von 120ms. Dritter Schritt: Die Manipulation der Intensität Die Manipulation der Intensität wurde auf Silbenebene mit cool edit durchgeführt. Ziel war es, die Intensität der gesamten Silbe so weit anzuheben oder abzusenken, bis deren Intensitätsmaximum den Wert für die jeweilige (experimentelle) Konfiguration erreicht hatte. Analog zu den Dauer-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
169 169
verhältnissen ging auch das Intensitätsmaximum der Akzentsilbe in die Differenzwerte beider Silbenpaarungen ein. Um die Konfigurationen beider Silbenpaarungen (VAS|AS und AS|NAS) – wie im Zusammenhang mit der Dauermanipulation erläutert – unabhängig voneinander zu kontrollieren, war es daher auch im Rahmen der Intensitätsmanipulation erforderlich, die Akzentsilbe auf einem gleichbleibenden Niveau zu belassen. Folglich beschränkte sich die Manipulation der Intensität auf die Vor- und Nachakzentsilbe. Das Intensitätsmaximum der Akzentsilbe lag in allen Stimuli bei einem Wert von etwa 78dB. Um jeweils relativ zu dem Wert des Intensitätsmaximums der Akzentsilbe die ausgewählten Differenzen für die
170 170
Eigene Einleitung Untersuchungen
Abbildung 30: Beispiel für die Manipulation des Intensitätsniveaus der Vor- und Nachakzentsilbe mit cool edit zur Herstellung der vorgesehenen Intensitätsdifferenzen für
Auf welchem Prozentwert die Stufen der Vor- und Nachakzentsilbe zu liegen hatten, wurde durch eine schrittweise Approximation ermittelt. Diese begann mit einer groben Schätzung des Stufenwertes. Der Stimulus mit der auf Schätzung basierenden Manipulation wurde unter cool edit gespeichert und unter praat analysiert. Auf der Grundlage der dabei gemessenen Intensitätsmaxima wurden die Stufenwerte – ausgehend vom Zustand des Stimulus vor der ersten Intensitätsmanipulation – erneut in cool edit verändert. Es wurde solange zwischen Manipulation und Analyse alterniert, bis der Stufenwert für das gewünschte Intensitätsmaximum gefunden worden war. Dieser Wert bzw. das so geschaffene Intensitätsmuster wurde dann auf alle anderen Stimuli der betreffenden Serie angewandt. Aus den 8 Stimulusserien, denen die 8 Rohstimuli der Dauermanipulation zugrundelagen, ging so die Gesamtzahl von 14 Stimulusserien hervor. Für den Synchronisationsraum von prä- zu innervokalisch basierte die Festsetzung der Intensitätsmusterstufen auf dem vierten Stimulus jeder Serie. Im Falle des Synchronisationsraumes von inner- zu postvokalisch
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
171 171
wurde der erste Stimulus jeder Serie hierfür herangezogen. Das Ausgehen von einem bestimmten Stimulus in jedem Synchronisationsraum war durch den rechnerischen Einfluss von F0 auf die Intensität erforderlich gewesen. Da die Stimuli innerhalb jeder Serie durch eine andere F0-Gipfelposition gekennzeichnet waren, wiesen die unmanipulierten Intensitätsmaxima aller drei Silben zwischen den Stimuli kleinere Schwankungen auf. Infolgedessen wären stimulusabhängig leicht andere Intensitätsstufen festgelegt worden. Der hier eingeschlagene Weg der Übertragung des anhand eines bestimmten Stimulus ermittelten Intensitätsmusters auf alle anderen Stimuli seiner Serie hat entsprechend die Konsequenz, dass sich die erzeugten Intensitätsdifferenzen zwischen den Stimuli einer Serie geringfügig unterscheiden. Die in Tabelle 5 eingetragenen Differenzwerte gelten daher nur für den vierten bzw. ersten Stimulus jeder Serie. Die F0bedingten Effekte auf die Intensitätsmanipulation fallen jedoch für alle Stimulusserien aus einem Synchronisationsraum vergleichbar aus. Insofern können die daraus entstandenen geringfügigen Abweichungen von den angestrebten Intensitätsdifferenzen bei der Auswertung der Perzeptionsergebnisse vernachlässigt werden. Die kleinen Unterschiede in den Intensitätsdifferenzen, die aus Tabelle 5 zwischen den beiden Dauerbedingungen innerhalb der Konfigurationsgruppen MALCV/VC__I, LECV/VC__I ersichtlich werden, können durch Ungenauigkeiten bei der Reanalyse der fertigen Stimuli unter praat entstanden sein. Alternativ ist es auch denkbar, dass die vorangehende Dauermanipulation zu leicht abweichenden Ausgangsintensitäten in den Rohstimuli geführt hat, die durch die faktoriellen Intensitätsmanipulationen in verstärktem oder reduziertem Ausmaß auch an die fertigen Stimuli weitergegeben wurden. Unabhängig von ihrer Ursache, erscheinen die Unterschiede von höchstens 0,7dB jedoch zu gering, als dass ihnen eine perzeptorische Relevanz zugesprochen werden müsste. Anders verhält es sich mit den intendiert hergestellten Unterschieden zwischen den Intensitätsdifferenzen von I. Seitens des Versuchsleiters waren diese etwa 6-7dB umfassenden Unterschiede (siehe Tabelle 5) deutlich wahrnehmbar. Unterstützt wird dieser Eindruck in gewissen Grenzen durch die Literatur, nach der wahrnehmbare Intensitätsunterschiede auf zirka 1-2dB beziffert werden (u.a. Riesz 1928; Dimmick und Olsen 1941; Miller 1948; Flanagan 1955, 1957). Der genaue Wert schwankt stark in Abhängigkeit vom Stimulustyp, dessen Intensitätsniveau, der angewandten Methode bei der Durchführung und Auswertung der Experimente und zahlreicher weiterer Faktoren (vgl. Flanagan 1955 und Moore 1997). Die Grenzen der Unterstützung des eigenen Perzeptionseindrucks durch die Angaben in der Literatur werden durch den psy-
172 172
Eigene Einleitung Untersuchungen
choakustischen Hintergrund vorgegeben, der allen in der Literatur beschriebenen Experimenten gemeinsam ist. Viele wurden mit bestimmten Arten des Rauschens oder Sinustönen durchgeführt. Einige basieren zumindest auf sprachähnlichen Stimuli (künstlich erzeugte, zeitlich stabile Monophthonge, z.B. Flanagan 1955, 1957). Zur Größenordnung kleinster wahrnehmbarer Intensitätsunterschiede in multidimensional dynamischen Sprachsignalen, für die zudem Hinweise auf eine perzeptorische Kompensation lautqualitätsbedingter (intrinsischer) Intensitätsunterschiede existieren (vgl. Ladefoged 1967 sowie Lehiste und Peterson 1959), liegen allerdings keinerlei Erkenntnisse vor. Da jedoch aus dem Bereich der Dauer und (Grund-)Frequenz bekannt ist, dass die perzeptorisch detektierbaren Signalunterschiede mit zunehmender Signaldynamik größer werden (vgl. ´t Hart 1981), ist auch für die Intensität abzusehen, dass die kleinsten wahrnehmbaren Unterschiede über dem genannten Wertebereich von 1-2dB liegen werden. Da die Intensität ein Einflussfaktor auf die Wahrnehmung von Prominenz bzw. der darauf zurückgehenden Akzentuierung darstellt (vgl. 1.2.3) und da wahrnehmbare Intensitätsunterschiede zwischen den einzelnen Stimulusserien generiert wurden, wurden alle Stimuli im Anschluss an diesen letzten Manipulationsschritt dahingehend kontrolliert, dass weder unerwünschte Akzente auf der Vor- und Nachakzentsilbe (einschließlich partieller Deakzentuierung, siehe Kohler 1991a, b und 2.3.1) noch rhythmische Unebenheiten entstanden waren. Ferner sollte sichergestellt werden, dass für alle Stimuli eine neutrale Akzentuierung der Silbe „Ma-“ vorlag. Erst hiernach sollten die Stimulusserien zu Hörtests arrangiert werden. Bevor dies geschehen konnte, mussten alle Stimuli noch zur Verbesserung ihres Natürlichkeitseindrucks nachbearbeitet werden. Wie im Falle der Stimuli zur Gipfelgestalt in 4.1.1 ist durch die Produktion des Ausgangsstimulus mit einem intendiert flachen F0-Verlauf der äußerungsfinale Intensitätsrückgang weitgehend ausgeblieben. Daher wurde für alle 6 bzw. 7 Stimuli der 14 Serien das Intensitätsniveau über „gewesen“ silbenweise abgesenkt. Durchführung und Ausmaß dieser Absenkung wurden aus 4.1.1 übernommen und sind in der dort befindlichen Abbildung 17 dargestellt. Zur Konstruktion der Hörtests des Experimentes Die Konstruktion der Hörtests wurde wie in 4.1.1 geschildert durchgeführt. Kurz zusammengefasst bedeutet dies, dass für jede der zuvor generierten Stimulusserien ein eigener Identifikationstest entstand. Damit setzt auch dieses Perzeptionsexperiment die funktional basierte Erforschung sprechmelodischer Zeichen in dieser Arbeit fort. Auf die Kontext-Stimulus-Paare folgte eine viersekündige Pause in der die Beurteilung des Paares
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
173 173
durch die Versuchspersonen erfolgen sollte. Kontext und Stimulus selbst waren durch eine Pause von zirka 100ms separiert. In den Identifikationstests, die aus den 8 Stimulusserien des Synchronisationsraumes von prä- zu innervokalischen Gipfelpositionen gebildet wurden (deren Dauer- und Intensitätskonfigurationen durch den Index CV markiert sind), kam jedes Kontext-Stimulus-Paar siebenfach in randomisierter Reihenfolge vor. Jeder der 8 Tests umfassten somit jeweils 49 zu beurteilende Kontext-Stimulus-Paare (7 Stimuli pro Serie x 7 Wiederholungen der darauf basierten Kontext-Stimulus-Paare) und dauerte knapp 8 Minuten. Die 6 Stimulusserien des Synchronisationsraumes von inner- zu postvokalisch (deren Dauer- und Intensitätskonfigurationen durch den Index VC markiert sind) bestanden nicht aus 7, sondern nur aus 6 Stimuli. Für die hieraus entstandenen 6 Identifikationstests ergaben sich bei siebenfach randomisierter Wiederholung daher nur 42 Kontext-StimulusPaare. Entsprechend dauerte jeder Test auch nur etwa 7 Minuten. Anders als in den Hörtests zur Gipfelgestalt wurde in den Hörtests dieses Experimentes nicht die Kontextäußerung „Ganz bestimmt“ verwendet (vgl. hierzu die Diskussion in 4.1.3). Stattdessen wurde den Stimuli der 6 Serien zum Synchronisationsraum von inner- zu postvokalischen Gipfelpositionen der Kontext „Ist doch logisch“ vorangestellt, der vom Sprecher bp mit dem Zeichen NEU auf der einzigen Akzentsilbe „-lo-“ aus „logisch“ produziert wurde. Dieser Kontext vermittelt eine ähnliche Sprecherattitüde wie „Ganz bestimmt“ (der Sprecher möchte, dass der Hörer die nachfolgend in der Stimulusäußerung ausgeführte Information als zutreffende neue Information akzeptiert, siehe 4.1.1 für weitere Einzelheiten), stellt diese jedoch noch prägnanter für den Hörer dar. Es wurde daher erwartet, dass der Kontext „Ist doch logisch“ wie „Ganz bestimmt“ zuvor einen Rahmen vorgibt, der auf Stimuli abgestimmt ist, in denen das Zeichen NEU perzipiert wird. Stimuli mit dem Zeichen UNERWARTET sollten im verwendeten Kontext hingegen eher nicht passen. Da inner- und postvokalische Gipfelpositionen (für die Silbenstruktur und Gipfelgestalt im Stimulus) die charakteristischen Positionen für die Zeichen NEU und UNERWARTET sind, erschien es prinzipiell (d.h. ungeachtet eines Einflusses der Dauerund Intensitätskonfigurationen) möglich, dass das Beurteilungsverhalten zu den Kontext-Stimulus-Paare entlang der Gipfelverschiebung einen deutlichen Übergang von zusammenpassend zu nicht zusammenpassend zeigen wird. Für die Stimuli der 8 Serien des Synchronisationsraumes von prä- zu innervokalischen Gipfelpositionen wurde der aus den Experimenten von Kohler (1987, 1991c) und Niebuhr (2003a, b) bekannte Kontext „Jetzt versteh’ ich das erst“ herangezogen. Er wurde vom Sprecher bp mit dem Zeichen NEU über der einzigen Akzentsilbe „-steh“ realisiert. Durch das
174 174
Eigene Einleitung Untersuchungen
sprechmelodische Zeichen NEU bringt der Kontext zum Ausdruck, dass der Sprecher gerade zu einer interessanten neuen Erkenntnis gelangt ist. Darüber hinaus wird impliziert, dass er diese neue Erkenntnis im Gespräch gern weiter vertiefen würde (vgl. 1.3.1). Diese Sprecherattitüde sollte bei der anschließenden Verbalisierung dieser neuen Erkenntnis im Stimulus fortgesetzt werden, damit die Äußerungspaare als zusammenpassend beurteilt werden. Dies ist gegeben, wenn in der Akzentsilbe von „Malerin“ das sprechmelodische Zeichen NEU vorliegt. Das Zeichen GEGEBEN würde hingegen ausdrücken, dass der Umstand ihrer ehemaligen künstlerischen Tätigkeit bereits vorab bekannt war. Zusätzlich erhält der Stimulus dadurch einen resümierenden, abschließenden Charakter, mit dem der Sprecher signalisiert, dass dieser Umstand nicht weiter diskutiert werden soll. Entlang einer F0-Gipfelverschiebung von prä- zu innervokalisch, den charakteristischen Gipfelpositionen der Zeichen GEGEBEN und NEU, waren daher die Voraussetzungen für ein Umschwenken von einer nicht zusammenpassenden zu einer zusammenpassenden Beurteilung der Kontext-Stimulus-Paare erfüllt. Zur Durchführung des Perzeptionsexperimentes Die 14 separaten Hörtests wurden auf drei Versuchspersonengruppen aufgeteilt. Hierbei handelte es sich vorwiegend um Studierende der Psychologie im Grundstudium. Es wurden auch einige Studierende aus der Phonetik und der Sprachwissenschaft miteinbezogen. Alle Versuchspersonen verfügten jedoch weder über fundiertes theoretisches, noch über praktisches Wissen im Bereich sprechmelodischer Zeichen. Ein paar Personen haben jedoch einige Zeit zuvor bereits an ähnlichen Experimenten teilgenommen. Nach eigenen Angaben waren alle Personen deutsche Muttersprachler mit normalem Hörvermögen. Die 6 Hörtests des Synchronisationsraumes von inner- zu postvokalisch (MALVC__ und LEVC__) konnten mit einer einzigen Versuchspersonengruppe durchgeführt werden. Sie bestand aus 20 Personen, 16 weiblich und 4 männlich, im Alter von 21-41 Jahren. Die anderen 8 Hörtests auf Basis der Stimulusserien des Synchronisationsraumes von prä- zu innervokalisch (MALCV__ und LECV__) wurden von zwei verschiedenen Versuchspersonengruppen beurteilt. Die eine Gruppe umfasste 20 Probanden zwischen 21 und 54 Jahren. Hiervon waren 7 Personen weiblich und 13 männlich. Sie beurteilten die vier Hörtests zu den in der Vorakzentsilbe manipulierten Konfigurationen MALCV__. Die andere Gruppe setzte sich aus 15 weiblichen und fünf männlichen Versuchspersonen im Alter zwischen 21 und 34 Jahren zusammen und hat die im Bereich der Nachakzentsilbe manipulierten Stimuli der vier Hörtests zu LECV__ hinsichtlich ihres Zusammenpassens mit dem vorangehenden Kontext be-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
175 175
wertet. Es ist darauf hinzuweisen, dass einige Versuchspersonen Mitglied zweier Gruppen waren. In diesem Fall lagen zwischen der Teilnahme an den beiden Hörtestserien jedoch mindestens 8 Wochen, sodass von keiner Beeinflussung des Antwortverhaltens durch einen Trainingseffekt auszugehen ist. Wie im Experiment zur Gipfelgestalt wurden alle drei Versuchspersonengruppen in Untergruppen aufgespaltet. Auf diese Weise konnte die Präsentationsreihenfolge der einer Gruppe zugeordneten Hörtests zwischen den Untergruppen gewechselt werden, zum Beispiel um zu verhindern, dass sich Lerneffekte, die über das Experiment hinweg mit hoher Wahrscheinlichkeit auftreten, auf bestimmte Hörtests konzentrieren, aber auch, um zu vermeiden, dass Effekte der Präsentationsreihenfolge der verschiedenen Dauer- und Intensitätskonfigurationen die Ergebnisdaten beeinflussen. Zu Beginn jeder Sitzung erhielten die Versuchspersonen schriftliche Instruktionen, die im wesentlichen mit denen aus dem Experiment zur Gipfelgestalt übereinstimmten und die dieser Arbeit im Anhang A beigefügt sind. Anders als in den Experimenten zur Gipfelgestalt wurden ihnen überdies in mündlicher Form die jeweils involvierten sprechmelodischen Zeichen anhand der Äußerung „Oh“ dargeboten, und ihre Bedeutung wurde erläutert. Das stärkere Herausheben der Bedeutung (z.B. gegenüber dem Perzeptionsexperiment zur Gipfelgestalt) in der Instruierung der Versuchspersonen sollte dazu beitragen, dass diese ihr Urteil tatsächlich bedeutungsbezogen treffen. Damit wurde die zwischenzeitlich geäußerte Kritik berücksichtigt, dass die Versuchspersonen in einem solchen Test lediglich einen Abgleich der Melodien in Kontext und Stimulus vornehmen. Die Übung, die den Versuchspersonen im Anschluss an die Instruktionen und vor dem Beginn der eigentlichen Hörtests gegeben wurde, setzte sich wie im Rahmen der Gipfelgestalt aus den Kontext-StimulusPaaren mit den beiden extremen F0-Gipfelpositionen aus allen der Gruppe zugeordneten Hörtests zusammen. Jedes dieser Paare kam hierin randomisiert in dreifacher Wiederholung vor. Die Übung enthielt folglich entweder 24 oder 36 Kontext-Stimulus-Paare und dauerte je nach Umfang etwa 4 oder 6 Minuten. Alle Hörtests fanden wie im Experiment zur Gipfelgestalt in 4.1 in einem schallbehandelten ruhigen Raum statt. Sie wurden den Versuchspersonen über Lautsprecher in einer über das gesamte Experiment hinweg konstanten Lautstärke dargeboten. Die Versuchspersonen reagierten auf die Kontext-Stimulus-Paare über das Drükken zweier verschiedener Tasten (nähere Einzelheiten in 4.1.1).
176 176
Eigene Einleitung Untersuchungen
4.2.6 Die Ergebnisse des Perzeptionsexperimentes zur Dauer und Intensität in lautlichen Elementen Die Abbildungen 31-34 zeigen die erhaltenen Identifikationsfunktionen (siehe hierzu 4.1.2). Jede Prozentangabe hierin spiegelt 140 Urteile wider (7 Wiederholungen des Kontext-Stimulus-Paares x 20 Versuchspersonen). Es ist zu beachten, dass die Identifikationsfunktionen zu den Stimuli des Synchronisationsraumes von prä- zu innervokalisch angeben, in wieviel Prozent der Fälle der jeweilige Stimulus mit dem Kontext als eher gut zusammenpassend („Jetzt versteh’ ich das erst“) empfunden wurde, während die Identifikationsfunktionen zu den Stimuli des Synchronisationsraumes von inner- zu postvokalisch die prozentuale Beurteilung von Stimulus und vorangehendem Kontext („Ist doch logisch“) als eher schlecht zusammenpassend darstellen. Die Abbildungen 31-32 zeigen paarweise Vergleiche zwischen den jeweils vier Identifikationsfunktionen der Hörtests, deren Stimuli in der Dauer- und Intensitätskonfiguration der Vorakzent- und Akzentsilbe systematisch variiert wurden. In Abbildung 31 sind die Identifikationsfunktionen für die Stimuli des Synchronisationsraumes von prä- zu innervokalisch dargestellt (MALCV__). Abbildung 32 gibt die Funktionen für die Stimuli des Synchronisationsraumes von inner- zu postvokalisch wieder (MALVC__). Parallel dazu vergleichen die Abbildungen 33-34 die Identifikationsfunktionen der Hörtests, deren Stimuli sich in der Dauer- und Intensitätskonfiguration der Nachakzent- und Akzentsilbe unterschieden. Abbildung 33 bezieht sich auf die Stimuli des Synchronisationsraumes von prä- zu innervokalisch (LECV__) und Abbildung 34 auf die des Synchronisationsraumes von inner- zu postvokalisch (LEVC__). Die Identifikationsfunktionen zu Stimulusserien mit experimentellen Konfigurationen, die entlang der Regressionsgeraden liegen, die sich für die Punktwolken der akustischen Analyse ergeben haben (vgl. Abb. 24-27 in 4.2.5) sind schwarz dargestellt. Die Identifikationsfunktionen zu Stimulusserien mit experimentellen Konfigurationen, die diesen Regressionsgeraden bzw. den darin enthaltenen kombinatorischen Restriktionen zuwiderlaufen, sind in grau wiedergegeben (jeweils entweder mit durchgehenden oder gestrichelten Linien).
177 177
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
(a)
(b)
(c)
(d)
(e)
(f)
Abbildung 31: Paarvergleiche zwischen den vier Identifikationsfunktionen zu den Hörtests der Dauer- und Intensitätskonfigurationen LCV__ des Synchronisationsraumes von prä- zu innervokalisch. Vertikale Linien verweisen auf eine getrennte prüfstatistische Auswertung der Stimuli 1-4 und 5-7. Jeder Wert gibt 140 Urteile wieder. Datentabellen befinden sich im Anhang E auf der beigefügten CD.
178 178
Eigene Einleitung Untersuchungen
(a)
(b)
(c)
(d)
(e)
(f)
Abbildung 32: Paarvergleiche zwischen den vier Identifikationsfunktionen zu den Hörtests der Dauer- und Intensitätskonfigurationen MALVC__ des Synchronisationsraumes von inner- zu postvokalisch. Vertikale Linien verweisen auf eine getrennte prüfstatistische Auswertung der Stimuli 1-3 und 4-6. Jeder Wert gibt 140 Urteile wieder. Datentabellen befinden sich im Anhang E auf der beigefügten CD.
179 179
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
(a)
(b)
(c)
(d)
(e)
(f)
Abbildung 33: Paarvergleiche zwischen den vier Identifikationsfunktionen zu den Hörtests der Dauer- und Intensitätskonfigurationen LECV__ des Synchronisationsraumes von prä- zu innervokalisch. Vertikale Linien verweisen auf eine getrennte prüfstatistische Auswertung der Stimuli 1-4 und 5-7. Jeder Wert gibt 140 Urteile wieder. Datentabellen befinden sich im Anhang E auf der beigefügten CD.
180 180
Eigene Einleitung Untersuchungen
Abbildung 34: Paarvergleich zwischen den beiden Identifikationsfunktionen zu den Hörtests der Dauer- und Intensitätskonfigurationen LEVC__ des Synchronisationsraumes von inner- zu postvokalisch. Die vertikale Linie verweist auf eine getrennte prüfstatistische Auswertung der Stimuli 1-3 und 4-6. Jeder Wert gibt 140 Urteile wieder. Datentabellen finden sich im Anhang E (CD).
Die in allen Abbildungen eingetragenen vertikalen Linien trennen die Stimulusgruppen 1-4 und 5-7 bzw. 1-3 und 4-6 mit prä-, inner- und postvokalischen F0-Gipfelpositionen, die in der Inferenzstatistik separat verglichen wurden. Innerhalb der Stimulusgruppen wurde anhand der pro Versuchsperson über die Stimulusgruppe aufsummierten ‚passt eher gut’Urteile überprüft, ob die Dauer- und Intensitätskonfigurationen innerhalb der vier Konfigurationsklassen MALCV__, MALVC__, LECV__ und LEVC__ (Abb. 24-27) zu einer signifikant unterschiedlichen Beurteilung der Stimuli einer Gruppe geführt haben. Somit stellen die Konfigurationen die unabhängige Variable und die Urteile der Versuchspersonen die abhängige Variable dar. Die prüfstatistische Auswertung der Ergebnisdaten geschah analog zu der Auswertung, die zuvor im Rahmen des Experimentes zur Gipfelgestalt geschildert wurde. Weitere Details zur Vorgehensweise sind daher Abschnitt 4.1.2 zu entnehmen. Insgesamt wurden 38 prüfstatistische Tests gerechnet. Wenn die Verteilung der Differenzen der abhängigen Summen zweier miteinander verglichener Stichproben mit einer Irrtumswahrscheinlichkeit von mindestens 10% als nicht normalverteilt gelten konnten, wurden t-Tests für abhängige Stichproben gerechnet. Anderenfalls wurden Wilcoxon-Tests für Paardifferenzen (Wilcoxon matched pairs signed rank test) herangezogen. In 15 der 38 Vergleiche waren die Differenzen der abhängigen Summen nicht annähernd normalverteilt. Die Ergebnisse der statistischen Tests sind in Tabelle 6 zusammenfasst. Die Ergebnisse der Prüfung auf Normalverteilung befinden sich im Anhang F (siehe CD).
181 181
Zum Sprechmelodie ZurBegriff Dauerder und Intensität MALCV (Abb. 31) Konfig.
Stim. t | R
df
MALVC (Abb. 32) Stim. t | R
p
1-4 0,404 | -
19
n.s.
>D>I
5-7
- | 27
17
p>0,05*
1-4
- | 50,5
17
>D
5-7 -1,136 |-
19
1-4 0,770 | -
5-7 -1,188 |-
>D
1-4
df
p
1-3 0,001 | -
19
n.s.
4-6
- | 73
17
n.s.
n.s.
1-3 0,575 | -
19
n.s.
n.s.
4-6
- | 18,5
19
p>0,01**
19
n.s.
1-3 1,294 | -
19
n.s.
19
n.s.
4-6
- | 42,5
17
n.s.
- | 43,5
20
p>0,05*
1-3
- | 50,5
15
n.s.
>D>I
5-7 2,014 | -
19
n.s.
4-6
- | 33,5
17
p>0,05*
1-4
- | 45
18
n.s.
1-3 -0,687 |-
19
n.s.
>D
5-7 0,488 | -
19
n.s.
4-6 3,059 | -
19
p>0,01**
1-4 0,832 | -
19
n.s.
1-3 1,322 | -
19
n.s.
>D>I
5-7 0,828 | -
19
n.s.
4-6 1,378 | -
19
n.s.
LECV (Abb. 33)
LEVC (Abb. 34)
1-4 1,373 | -
19
n.s.
>D
5-7 -0,333 |-
19
n.s.
1-4
- | 57,5
19
n.s.
>D>I
5-7
- | 29
12
n.s.
1-4 -1,610 |-
19
n.s.
5-7
- | 30
14
n.s.
>D
1-4 -2,748 |-
19
>0,05*
>D>I
5-7
- | 55,5
16
n.s.
1-4
- | 34
19
>0,05*
>D>I
5-7 -0,514 |-
19
n.s.
1-4 2,074 | -
19
n.s.
1-3
- | 27,5
13
n.s.
>D
5-7 0,952 | -
19
n.s.
4-6 -0,169 |-
19
n.s.
Tabelle 6: Werte der Prüfgrößen (t) und (R) der t-Tests und Wilcoxon-Tests für Paardifferenzen, Freiheitsgrade (df) und Wahrscheinlichkeit eines -Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) für die 38 Tests abhängiger Stichproben, die auf den Teilsummen der ‚passt eher gut’-Urteile basieren, die über die Stimulusgruppen mit prä-, inner- und postvokalisch liegenden F0-Gipfeln (bzw. den darauf aufbauenden Kontext-Stimulus-Paaren) der einzelnen Dauer- und Intensitätskonfigurationen pro Versuchsperson gebildet wurden ( Stim.). Die dargestellten Vergleiche beziehen sich auf Abbildung 31-34. Die dazugehörigen Rohdaten sind dem Anhang E auf der beigefügten CD zu entnehmen.
182 182
Eigene Einleitung Untersuchungen
Unabhängig von der zugrundeliegenden Dauer- und Intensitätskonfiguration, ist in allen Identifikationsfunktionen der Abbildungen 31-34 eine deutliche Veränderung des Urteilsverhaltens entlang der aufsteigend sortierten Stimuli, das heißt für sukzessive nach rechts verschobene F0-Gipfel, zu beobachten. Die Endpunkte der Identifikationsfunktionen erreichen jedoch in keinem Fall 0% bzw. 100%. Es gab demnach keinen Stimulus, der über alle Wiederholungen und von allen Probanden übereinstimmend eine der beiden Antwortmöglichkeiten erhielt. Im Kontext „Jetzt versteh’ ich das erst“ verschieben sich die Urteile für die Stimuli des Synchronisationsraumes von prä- zu innervokalisch (Abb. 31 und 33) von überwiegend ‚passt eher schlecht’ zu mehrheitlich ‚passt eher gut’. Diese Verschiebung vollzieht sich im Bereich des vierten Stimulus, bei dem der F0-Gipfel bzw. dessen Hochpunkt mit der initialen Grenze des Akzentvokals zusammenfällt. Demgegenüber wechselt die Beurteilung der Stimuli des Synchronisationsraumes von inner- zu postvokalisch (Abb. 32 und 34) auf der Grundlage des vorangehenden Kontextes „Ist doch logisch“ von ‚passt eher gut’ zu ‚passt eher schlecht’. Dieser Wechsel zu ‚passt eher schlecht’-Antworten findet mit dem fünften Stimulus statt. Stimulus 5 ist dadurch von Stimulus 4 unterschieden, dass das F0-Gipfelmaximum die hintere Grenze des Akzentvokals erstmalig um 20ms überschreitet. Gleichzeitig wird der Beginn des Anstiegs zum Gipfel um etwa 20ms in den Akzentvokal hineinverschoben. Neben dem Umstand, dass die Gipfelverschiebungen in allen 14 Stimulusserien eine klare Verhaltensänderung bei der jeweiligen Versuchspersonengruppe bewirkt haben, ist Folgendes zu den Einflüssen der systematisch variierten Dauer- und Intensitätskonfigurationen festzustellen: Die Beurteilung der Stimuli konnte durch die Auswechslung der zugrundeliegenden Konfiguration verändert werden. Tabelle 6 weist insgesamt 7 statistisch signifikante Vergleiche zwischen Stimulusgruppen mit prä-, inner- oder postvokalischen F0-Gipfeln aus. Damit hat sich unabhängig vom Positionsbereich des F0-Gipfels ein Einfluss der Dauer- und Intensitätskonfiguration ergeben. Darüber hinaus verteilen sich die gefundenen signifikanten Unterschiede über alle Variablen innerhalb der Konfigurationen. Das heißt, sie betreffen sowohl Konfigurationen, die nur in der Dauer oder nur in der Intensität voneinander abweichen, als auch Konfigurationen, zwischen denen beide Größen variieren. Ferner betreffen sie sowohl Konfigurationen, die über die Manipulation der Vorakzentsilbe erzeugt wurden, als auch solche, die über die Manipulation der Nachakzentsilbe hergestellt wurden. Trotz dieser Breite von Bedingungen, über die sich die signifikanten Unterschiede verteilen, sind in einer bestimmten Menge von Vergleichen keine signifikanten Unterschiede aufgetreten. Hierbei handelt es sich um
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
183 183
Vergleiche zwischen Stimulusgruppen, deren Dauer- und Intensitätskonfigurationen sich an der kombinatorischen Restriktion einer gemeinsamen Punktwolke orientiert haben (vgl. Abb. 24-27). Die zu den genannten Vergleichen gehörenden Abbildungen 31-33(f) sowie 34, die sich auf schwarz dargestellte Identifikationsfunktionen beziehen, gehen mit diesem prüfstatistischen Befund konform und zeigen, dass die Verläufe der Identifikationsfunktionen nicht nennenswert voneinander abweichen. Die signifikanten Effekte der Dauer- und Intensitätskonfigurationen konzentrieren sich besonders auf Vergleiche zwischen Stimulusgruppen, in denen eine Konfiguration der angesetzten kombinatorischen Restriktion einer Punktwolke folgt und die andere Konfiguration dieser Restriktion zuwiderläuft. In den Abbildungen 31-33 sind dies die Vergleiche zwischen den schwarz und grau dargestellten Identifikationsfunktionen. Wie die Abbildungen 31(a) und (d) illustrieren, wurden die Stimuli mit der Konfiguration MALCV>D>I, deren Werte an der Punktwolke des Zeichens GEGEBEN ausgerichtet wurden (vgl. Abb. 24), im Kontext „Jetzt versteh’ ich das erst“ deutlich seltener als passend beurteilt als die Stimuli mit den Konfigurationen MALCV
184 184
Eigene Einleitung Untersuchungen
gleiche der Konfigurationen MALVC
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
185 185
als ein Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU im Stimulus zu interpretieren. Analog dazu ist der Wechsel in der häufigeren Beurteilung der Kontext-StimulusPaare von ‚passt eher gut’ zu ‚passt eher schlecht’ als Wahrnehmungsveränderung vom Zeichen NEU zum Zeichen UNERWARTET zu sehen (siehe hierzu Fußnote 20 in 4.1.3). Letztere fällt in diesem Experiment etwas deutlicher aus als im Experiment zur Gipfelgestalt. Dies geht möglicherweise auf den Austausch des vorangehenden Kontextes zurück. Hierin wird ein Schwachpunkt des Identifikationstest-Paradigmas sichtbar, der in 4.4 weiter ausgeführt wird. Zu den Hypothesen (C), (D) und (E) (C) (D) (E)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Eine F0-Gipfelverschiebung von prä- über inner- zu postvokalisch liegenden F0-Gipfeln bewirkt unabhängig von den aus (CD1)-(CD2) erwarteten Einflüssen einen Wahrnehmungsübergang von GEGEBEN, über NEU zu UNERWARTET.
Die Ergebnisse des Perzeptionsexperimentes unterstützen die beiden fundamentalen Hypothesen (C) und (D), die vornehmlich anhand von Beobachtungen zur Positionierung der F0-Gipfel und informellen Höreindrücken formuliert wurden. Es ist davon auszugehen, dass die Dauer und die Intensität in lautlichen Elementen in die Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET involviert sind. Die Ergebnisse des Perzeptionsexperimentes haben eindeutig gezeigt, dass Veränderungen in der Dauer- und Intensitätskonfiguration die Beurteilung der Stimuli und damit die Identifikation der sprechmelodischen Zeichen signifikant beeinflussen konnten. Dies trifft sowohl auf Variationen in der Konfiguration der Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) als auch auf Variationen in der Konfiguration der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) zu (die Variationen wurden jeweils allein auf Basis von Manipulationen von Vorakzentund Nachakzentsilbe erzeugt). Die signifikant häufigere Identifikation des Zeichens GEGEBEN in den Stimuli 1-4 (mit prävokalischen F0-Gipfeln), die in Verbindung mit den Konfigurationen MALCV>D>I und LECV>DDD>I aufgetreten ist (Abb. 31d und 33d), wurde allein durch die Veränderung der Intensitäts-
186 186
Eigene Einleitung Untersuchungen
differenz zwischen der Akzentsilbe und ihrer Vor- bzw. Nachakzentsilbe herbeigeführt. Dass in den Stimuli 5-7 bzw. 4-6 mit inner- bzw. postvokalisch liegenden F0-Gipfeln zusammen mit den Konfigurationen MALCV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
187 187
___
188 188
Eigene Einleitung Untersuchungen
lichkeit offen, dass auch solche Zusammenstellungen von Dauerverhältnissen und Intensitätsdifferenzen, die diese Restriktionen nicht berücksichtigen, nicht alle gleichwertig für die Wahrnehmung der beiden Zeichen GEGEBEN und UNERWARTET sind. Zur Hypothese (CD2) (CD2) In der Silbenpaarung aus Akzent- und Nachakzentsilbe sind die Dauerverhältnisse und Intensitätsdifferenzen nicht beliebig kombinierbar. Dauer- und Intensitätskonfigurationen, die entlang der Regressionsgeraden zu dem Zeichen GEGEBEN bzw. NEU liegen, unterstützen die Wahrnehmung des jeweiligen Zeichens gegenüber Konfigurationen, die der kombinatorischen Restriktion der Regressionsgeraden zuwiderlaufen. Hypothese (CD2) besagt, dass die Konfigurationen LECV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
189 189
Ebenso wie im Zusammenhang mit Hypothese (CD1) zuvor finden sich in den Daten aber auch keine Effekte, die Hypothese (CD2) widersprechen. Wie bereits im Rahmen von Hypothese (CD1) erläutert, trifft dies auch auf Effekte zu, die sich im Vergleich zwischen Konfigurationen ergeben, die beide nicht unter Berücksichtigung der kombinatorischen Restriktionen der jeweiligen Punktwolken bzw. der hierzu berechneten Regressionsgeraden zusammengestellt wurden. Im Rahmen der Silbenpaarung aus Akzent- und Nachakzentsilbe ist so ein Effekt für die Konfigurationen LECV
190 190
Eigene Einleitung Untersuchungen
Für die beiden Paare MALCV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
191 191
perzipiert werden kann. Beispielsweise wurde davon ausgegangen, dass eine Unterstützung der Wahrnehmung des Zeichens GEGEBEN primär in den Stimuli mit prävokalischen F0-Gipfeln beobachtet werden kann. Vor diesem Hintergrund wurden die Stimuli mit prä-, inner- und postvokalischen F0-Gipfeln zu Stimulusgruppen zusammengefasst ausgewertet. In den Vergleichen zwischen den schwarzen und grauen Identifikationsfunktionen (deren experimentelle Konfigurationen den kombinatorischen Restriktionen der empirischen Zusammenhänge folgen/nicht folgen) kristallisiert sich jedoch ein Charakteristikum heraus, wonach sich konfigurationsbedingte Unterschiede auf das Zentrum des jeweiligen Synchronisationsraumes konzentrieren, in dem der F0-Gipfel dicht um die Grenzen des Akzentvokals positioniert ist. Für deutlich prä-, inner- oder postvokalische Gipfelpositionen wird der Einfluss der Dauer- und Intensitätskonfigurationen auf die Beurteilung der Stimuli geringer. Dass sich der Einfluss auf die Wahrnehmung der sprechmelodischen Zeichen tendenziell anders manifestiert als zum Beispiel im Rahmen der Gipfelgestalt, kann darauf zurückzuführen sein, dass es sich nicht um F0-bezogene Faktoren handelt. Besonders anschaulich wird der beschriebene Einfluss der Dauer und Intensität in lautlichen Elementen in der Gegenüberstellung der Identifikationsfunktionen der Stimulusserien des Synchronisationsraumes von prä- zu innervokalischen Gipfelpositionen (vgl. Abb. 31 und 33). Der Einfluss unterschiedlicher Dauer- und Intensitätskonfigurationen ist für viele dieser Serien in der Mitte des Synchronisationsraumes am größten, wo sich der F0-Gipfel in unmittelbarer Nähe des Akzentvokalbeginns befindet. Aus zahlreichen Perzeptionsexperimenten und akustischen Analysen ist bekannt, dass von F0-Gipfeln in dieser Position kein klares Signal für die Zeichen GEGEBEN und NEU ausgeht, ebenso wie die im Bereich der hinteren Vokalgrenze liegenden F0-Gipfel nicht eindeutig NEU oder UNERWARTET anzeigen (vgl. z.B. Kohler 1987, 1991c; Gartenberg und Panzlaff-Reuter 1991; Niebuhr und Ambrazaitis 2006; aber auch die Ergebnisse der vorliegenden Arbeit). Diese letztgenannten Erkenntnisse können über die (durch die Daten bestätigte) Hypothese (E) mit dem beschriebenen Charakteristikum im Vergleich der schwarzen und grauen Identifikationsfunktionen in Beziehung gesetzt werden. Vor dem Hintergrund, dass die Gipfelposition ein der Dauer- und Intensitätskonfiguration übergeordnetes Kodierungsmerkmal ist, erscheint es plausibel, dass letztere für ambige Gipfelpositionen an Einfluss auf die Identifikation der Zeichen gewinnen. Die für die prüfstatistische Analyse zusammengefassten Stimulusgruppen enthalten sowohl Stimuli von den Rändern als auch aus der Mitte des jeweiligen Synchronisationsraumes. Das heißt, sie enthalten alle (wahrscheinlich) auch Stimuli,
192 192
Eigene Einleitung Untersuchungen
in denen konfigurationsbezogene Einflüsse durch klar positionierte F0Gipfel unterdrückt werden. Insofern fallen die Ergebnisse der prüfstatistischen Analyse eher konservativ aus. Werden demgegenüber beispielsweise nur die Summen der ‚passt eher gut’-Urteile am vierten Stimulus verglichen, dessen F0-Gipfel etwa in der Mitte beider Synchronisationsräume dicht an der jeweiligen Grenze des Akzentvokals liegt, so treten zu den bereits genannten Effekten noch die folgenden hypothesenkonformen Einflüsse der Intensitäts- und Dauerkonfiguration hinzu (basierend auf t-Tests für abhängige Stichproben, jeweils bezogen auf Stimulus 4): • Die Sprechmelodien wurden mit der Konfiguration MALCV
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
193 193
legen die Rohdaten der Messungen sogar nahe, dass die Relationen hauptsächlich aufgrund von Intensitäts- und Dauerveränderungen in der Akzentsilbe zustande gekommen sind. Da nicht bekannt ist, unter welchen Bedingungen welche Elemente der Silbentriade sich in welcher Weise verändern bzw. ob sich dahinter überhaupt eine Systematik verbirgt, kann nicht ausgeschlossen werden, dass die Verlagerung aller Intensitäts- und Dauerveränderungen auf die Vor- und Nachakzentsilbe nicht in allen Fällen (d.h. z.B. für alle F0-Gipfelpositionen, Gipfelgestalten und Zeichen) adäquat war und beim Hörer den erwarteten Effekt hervorgerufen hat. Das Zusammenspiel der Dauer- und Intensitätswerte der Silbentriade sollte daher vor dem Hintergrund der vorliegenden Ergebnisse zum Gegenstand weiterer Untersuchungen gemacht werden. Darüber hinaus weichen die künstlich erzeugten Intensitäts- und Dauerrelationen der einzelnen Stimulusserien noch in einer zweiten Weise von den natürlich produzierten ab. In der natürlichen Produktion gehen Veränderungen der Intensität in erster Linie mit Veränderungen im Schwingungsverhalten und demzufolge mit Veränderungen im Quellenspektrum der Stimmlippen einher. Dies betrifft insbesondere die höheren Harmonischen bzw. den Gradienten des Intensitätsabfalls zwischen den einzelnen Harmonischen (vgl. z.B. Fant 1979; Handel 1986; Quast 2000). Der Hörer nimmt diese Veränderungen als unterschiedliche Lautheiten wahr, die in unterschiedlichen Stimmqualitätskontexten stehen. Aufgrund begrenzter technischer Möglichkeiten bei der Erstellung der Stimuli, konnte im Rahmen dieser Untersuchung lediglich die Intensität des abgestrahlten – also des durch das Ansatzrohr bereits gefilterten Sprachsignals – manipuliert werden. Diese Manipulation entspricht in etwa einer proportionalen Veränderung der Intensitäten aller Harmonischen des Quellensignals der Stimmlippen. Eine differenzierte Veränderung der einzelnen Harmonischen wie in der natürlichen Sprache konnte nicht imitiert werden. Es ist fraglich, ob der Hörer die vorgenommenen Intensitätsmanipulationen in gleicher Weise als Lautheitsveränderungen interpretiert und perzipiert wie die natürlich erzeugten. Dies gilt insbesondere, da die begleitenden Veränderungen in der Stimmqualität bei den künstlich variierten Stimuli ausbleiben. Es ist anzunehmen, dass Hörer allein auf Basis unterschiedlicher Stimmqualitäten – also bei vergleichbarer akustischer Intensität – zu verschiedenen Lautheitseindrücken gelangen (vgl. Quast 2000). Im Hinblick auf die Ergebnisse des Perzeptionsexperimentes bedeutet dies, dass die natürlich produzierten Intensitätsrelationen beim Hörer möglicherweise andere Lautheitsrelationen entstehen lassen als die künstlich erzeugten, obwohl sie vergleichbare physikalische Werte enthalten. Dadurch würden die künstlich erzeugten Intensitätsrelationen nicht
194 194
Eigene Einleitung Untersuchungen
mehr in der gleichen Güte zu den darauf abgestimmten Dauerrelationen passen, wie die natürlichen Intensitätsrelationen. Hinzu kommt, dass die Intensität jeweils auf Silbenebene insgesamt angehoben oder abgesenkt wurde. Das heißt, die Ausgangsgestalt der Intensitätskontur blieb – pro Silbe – unverändert, wies jedoch deutliche Sprünge zwischen den einzelnen Silben auf (vgl. den Abschnitt zur Manipulation der Intensität unter 4.2.5). Die in den Produktionsdaten gemessenen Intensitätsmaxima stammen jedoch aus sehr unterschiedlichen Intensitätskonturen. Eine erste Analyse dieser Konturen deutet darauf hin, dass diese Konturen sich in Abhängigkeit vom Wert der jeweiligen Intensitätsdifferenz unterschiedlich ausprägen. Beispiele hierfür sind im Anhang G auf der beigefügten CD zusammengestellt. Auch diese Interaktion zwischen Intensitätsmaxima und Intensitätskonturen und ihre Auswirkung auf die Perzeption sprechmelodischer Zeichen sollte weiter erforscht werden, gegebenenfalls unter Verwendung eines geeigneteren Verfahrens zur Manipulation der Intensität. Erste informelle Höreindrücke des Versuchsleiters haben in der Tat ergeben, dass eine Anpassung der Intensitätskonturen an die Differenzen zwischen den Intensitätsmaxima zweier angrenzender Silben den Einfluss dieser Differenzen auf die Wahrnehmung der Zeichen GEGBEN, NEU und UNERWARTET steigern kann. Weiterführende Annahmen zur Rolle der Dauer- und Intensitätskonfigurationen in der Wahrnehmung der sprechmelodischen Zeichen Die Ergebnisse des Perzeptionsexperimentes stimmen in weiten Teilen mit den aufgestellten Hypothesen (CD1)-(CD3) überein. Angesichts der Diskussion bezüglich der verbleibenden Diskrepanzen zwischen den Ergebnissen und den Hypothesen kann sogar davon ausgegangen werden, dass die Übereinstimmung bei einer genaueren prüfstatistischen Auswertung und einer differenzierteren Manipulation der Stimuli noch weitreichender ausfällt. Die in jedem Fall beachtliche Übereinstimmung zwischen den Ergebnissen und den Hypothesen bedeutet zugleich, dass das Gesamtbild der Ergebnisse des Perzeptionsexperimentes in hohem Maße mit dem Bild korrespondiert, dass sich in der akustischen Analyse gezeigt hat. Aus dieser Korrespondenz heraus lassen sich über die Aussagen der experimentell prüfbaren Hypothesen hinaus mit einer gewissen Sicherheit die folgenden weiteren Aussagen zum Einfluss der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der sprechmelodischen Zeichen ableiten. Für das sprechmelodische Zeichen NEU ist es in der Silbenpaarung aus Vorakzent- und Akzentsilbe irrelevant, welche Dauerverhältnisse mit welchen Intensitätsdifferenzen kombiniert werden. Die Wahrnehmung
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
195 195
des sprechmelodischen Zeichens wird durch unterschiedliche Dauer- und Intensitätskonfigurationen in der genannten Silbenpaarung nicht beeinflusst. Hierfür spricht auch, dass sich im Rahmen dieser Silbenpaarung für die Stimuli mit innervokalischen F0-Gipfeln, bei denen die Wahrnehmung des Zeichens NEU dominierte, bis auf eine Ausnahme keine konfigurationsbedingten Effekte ergeben haben. Eine weitere freie Kombinierbarkeit von Dauerverhältnissen und Intensitätsrelationen gilt für das Zeichen UNERWARTET in der Silbenpaarung aus Akzent- und Nachakzentsilbe. In allen übrigen Fällen kommen kombinatorische Restriktionen zum Tragen. Diese sind von der Art, dass die Dauer der Vor- bzw. Nachakzentsilbe in Relation zur Akzentsilbe größer ausfallen muss, je höher das Intensitätsmaximum der Vor- bzw. Nachakzentsilbe im Vergleich zum Maximum der Akzentsilbe liegt. Eine Einhaltung dieses Zusammenhangs (auf einem bestimmten Niveau der Dauer- und Intensitätswerte) führt zu einer Unterstützung der Wahrnehmung des betreffenden Zeichens. Demzufolge gehen zum Beispiel die hypothesenbezogenen perzeptorischen Effekte, die im Rahmen der Konfigurationen MALCV__ aufgetreten sind, auf das sprechmelodische Zeichen GEGEBEN zurück, während die Effekte im Rahmen der Konfigurationen MALVC__ durch das Zeichen UNERWARTET entstanden sind. Abschließend sind alle Dauer- und Intensitätskonfigurationen, die an einer gemeinsamen kombinatorischen Restriktion ausgerichtet sind, für die Wahrnehmung des dazugehörigen Zeichens gleichwertig. Letzteres wird besonders durch die Konfigurationen MALCV
196 196
Eigene Einleitung Untersuchungen
sind, basieren zunächst einmal nur auf Vergleichen zwischen wenigen Konfigurationen. Die kombinatorischen Restriktionen zwischen den Dauer- und Intensitätsrelationen der Vorakzent- und Akzentsilbe, die für die sprechmelodischen Zeichen GEGEBEN und UNERWARTET angenommen werden, sind zum Beispiel nur durch jeweils zwei Konfigurationen im vorliegenden Perzeptionsexperiment repräsentiert. Die angesetzten Restriktionen für die Kombinierbarkeit der Dauer- und Intensitätsrelationen in der Paarung aus Akzent- und Nachakzentsilbe sind im Falle des Zeichens GEGEBEN wiederum durch zwei und im Falle des Zeichens NEU durch vier Konfigurationen im Experiment berücksichtigt. Zukünftige Perzeptionsexperimente sollten weitere Konfigurationen hinzuziehen, um ein solideres Fundament für das Postulat kombinatorischer Restriktionen bzw. freier Kombinierbarkeit zu schaffen. Das vorliegende Experiment hat hierzu vor allem dadurch beigetragen, dass die Dauer- und Intensitätswerte zwischen den aufeinander bezogenen Konfigurationen deutlich unterschiedlich ausfallen. Vorausgesetzt, die Restriktionen in der Kombination von Dauer- und Intensitätsrelationen sind valide und für die Perzeption der sprechmelodischer Zeichen relevant, kann an dieser Stelle nicht endgültig geklärt werden, ob sie – zusammen mit den involvierten Variablen ‚Dauerverhältnis’ und ‚Intensitätsdifferenz’ – auch direkter Bestandteil der Kodierung der sprechmelodischen Zeichen sind. Es ist beispielsweise denkbar, dass andere Faktoren, die bei der Herstellung der Stimuli des Perzeptionsexperimentes zusammen mit der Dauer und der Intensität variiert wurden, die eigentlichen Auslöser der gefundenen Effekte sind und durch die durchgeführten Manipulationen nur zufällig gut wiedergegeben werden. Solchen Erwägungen ist allerdings entgegenzuhalten, dass sich die kombinatorischen Restriktionen auch in der akustischen Analyse gezeigt haben, wo derartige Artefakte nicht auftreten können. Es ist daher als wahrscheinlich anzusehen, dass Dauerverhältnisse und Intensitätsdifferenzen in die Kodierung der sprechmelodischen Zeichen involviert sind, und zwar in der Weise, dass für zeichenspezifische Silbenpaarungen kombinatorische Restriktionen zwischen beiden Größen gelten. Gleichzeitig ist aber auch davon auszugehen, dass dabei hinter den Dauerverhältnissen und Intensitätsdifferenzen ein komplexeres Konzept steht als in der vorliegenden Arbeit zur Manipulation der Stimuli angewandt wurde, zum Beispiel in dem Sinne, dass Teile der Akzentsilbe an der Entstehung angemessener Relationen mitwirken. Die Intensitätskontur sollte ein weiterer davon unabhängiger Faktor in der Wahrnehmung und damit in der Kodierung der sprechmelodischen Zeichen sein.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
197 197
Der Einfluss der Dauer- und Intensitätskonfigurationen auf den Zeitpunkt des Wahrnehmungsübergangs zwischen den sprechmelodischen Zeichen In der vorliegenden Arbeit steht die Existenz und Richtung von Einflüssen unterschiedlicher Dauer- und Intensitätskonfigurationen auf die Wahrnehmung der sprechmelodischen Zeichen im Vordergrund. Angesichts der generellen Relevanz der Frage nach dem Zeitpunkt des Wahrnehmungsübergangs zwischen den sprechmelodischen Zeichen im Bezug auf die Gipfelpositionen in den Synchronisationsräumen wird jedoch darauf hingewiesen, dass die Dauer- und Intensitätskonfigurationen einen Einfluss auf diesen Zeitpunkt gehabt haben. Dabei wird der Wahrnehmungsübergang als das Überqueren der 50%-Marke durch die Identifikationsfunktion (also als mehrheitliche Verlagerung der Urteile über alle Versuchspersonen) definiert (vgl. 3.1.3). Im Synchronisationsraum von prä- zu innervokalisch fand der Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU zum Beispiel im Falle der Konfigurationen MALCV>DD>I bereits mit dem vierten Stimulus statt, in dem der F0-Gipfel noch prävokalisch (bzw. an der Grenze zum Vokal) positioniert ist. Demgegenüber trat in den Konfigurationen, die Hypothese (CD1) und (CD2) zufolge die Wahrnehmung des Zeichens GEGEBEN unterstützen, der Übergang von GEGEBEN zu NEU erst für innervokalisch liegende F0-Gipfel ein. 4.2.8 Zusammenfassung der Ergebnisse zur Rolle der Dauer und Intensität in lautlichen Elementen und weiterführende Perspektiven Die Dauer und die Intensität in lautlichen Elementen sind an der Kodierung der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET beteiligt. Die Hinweise über die konkrete Art dieser Beteiligung, die aus der akustischen Analyse von Produktionen der Äußerung „Sie’s mal Malerin gewesen“ durch 8 männliche Sprecher gewonnen wurden und in die Hypothesen des Perzeptionsexperimentes eingeflossen sind, konnten für die gleiche Äußerung im Rahmen des Perzeptionsexperiments weitgehend bestätigt werden. Auf Basis der erhaltenen Einblicke sind für die Kodierung nicht die Dauer- und Intensitätseigenschaften in einzelnen lautlichen Elementen relevant, sondern die Relationen dieser beiden Größen zwischen lautlichen Elementen. Hierbei hat sich die Silbe als geeignetes lautliches Referenzelement herausgestellt. Es hat sich gezeigt, dass in der Produktion der Zeichen ein bestimmter Zusammenhang zwischen Intensitäts- und Dauerrelationen für zeichenspezifische Silbenpaarungen eingehalten wurde, während in den übrigen Silbenpaarungen die Werte der Dauer- und
198 198
Eigene Einleitung Untersuchungen
Intensitätsrelationen beliebig kombiniert werden konnten. Der genannte Zusammenhang war von der Art, dass sich das Intensitätsmaximum der an die Akzentsilbe angrenzenden Silbe (d.h. der Vorakzent- oder Nachakzentsilbe, VAS oder NAS) im Vergleich zur Akzentsilbe nach oben verschiebt, je größer die Dauer dieser angrenzenden Silbe gegenüber der Akzentsilbendauer ausfällt. Die Berücksichtigung dieses Zusammenhangs in den entsprechenden Silbenpaarungen hat in der Perzeption die Identifikation des betreffenden Zeichens unterstützt. Die Kreuzvalidierung zwischen den Ergebnissen aus der Akustik und Perzeption erhärtet die beschriebenen Befunde zur Kodierung der sprechmelodischen Zeichen. Obwohl die Ergebnisbilder zwischen Akustik und Perzeption recht einheitlich ausfallen, haben sich auch Diskrepanzen ergeben. Diese sprechen zusammen mit informellen Höreindrücken und weiteren bislang unsystematisch durchgeführten akustischen Messungen dafür, dass die gewonnenen Einblicke in die Kodierung der sprechmelodischen Zeichentriade durch Dauer und Intensität in lautlichen Elementen noch nicht vollständig sind. Hinsichtlich der Intensität zeichnet sich unter anderem ab, dass der Intensitätsverlauf und seine Interaktionen mit dem F0-Verlauf und den Intensitätsniveaus zwischen den Silben ebenfalls für die Wahrnehmung der Zeichen relevant sind. Diesen wechselseitigen Beziehungen muss in weiteren Untersuchungen nachgegangen werden. Hinsichtlich der Dauer gilt es unter anderem die Frage zu untersuchen, wie die Dauern der Vorakzent-, Akzent- und Nachakzentsilbe bei der Herstellung der jeweiligen Dauerverhältnisse interagieren und inwieweit diese Interaktionen in Abhängigkeit davon variieren, ob ein bestimmter Zusammenhang zwischen Intensitäts- und Dauerrelationen eingehalten werden muss oder nicht. Darüber hinaus sollte geprüft werden, in welchem Umfang die erhaltenen Ergebnisse über verschiedene Äußerungen und das Geschlecht des Sprechers hinweg generalisiert werden können.
4.3 Die Rolle der Gipfelhöhe Dieser Abschnitt beschreibt ein Perzeptionsexperiment, das den Einfluss der F0-Gipfelhöhe auf die Wahrnehmung der standarddeutschen Zeichentriade aus GEGEBEN, NEU und UNERWARTET beleuchtet. Das Experiment bezieht sich auf die unten aufgeführten Hypothesen (F1)-(F3) und (G). Ausgangspunkt für die Hypothesen war eine Reinterpretation von Ergebnissen aus der Untersuchung von Kohler (1991c), die auf eine experimentelle Studie von Gósy und Terken (1994) zu einer phonetisch verwandten Zeichentriade des Ungarischen projiziert wurden (vgl. 3.3).
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
(F1) (F2) (F3) (G)
Für prävokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für innervokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für postvokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Die Gipfelhöhe ist bedeutsamer für die Wahrnehmung Zeichentriade als die Gipfelposition.
199 199
der der der der
4.3.1 Die Methode des Perzeptionsexperimentes zur Gipfelhöhe Um den Hypothesen (F1)-(F3) und (G) nachzugehen, sollten nicht nur wie bei Gósy und Terken (1994) einzelne Gipfelpositionen, sondern ganze Synchronisationsbereiche im Rahmen eines Perzeptionsexperimentes untersucht werden. Dadurch können einzelne Gipfelpositionen das Gesamtergebnis weniger stark beeinflussen und die gewonnenen Ergebnisse werden aussagekräftiger. Abweichend von der Studie von Gósy und Terken (1994, vgl. 3.3.2), in der die Gipfelhöhe mehrfach abgestuft wurde, wurde ein zweistufiger Höhenunterschied zur Überprüfung der Hypothesen als ausreichend angesehen. Für die experimentelle Bedingung eines hohen Gipfels wurden die zur Untersuchung des Einflusses von Dauer und Intensität in 4.2 erzeugten Stimulusserien mit den Konfigurationen LECV
200 200
Eigene Einleitung Untersuchungen
tätskonfigurationen die beiden sprechmelodischen Zeichen, die durch die Gipfelverschiebung in jeder Serie hervorgerufen wurden, gleichermaßen unterstützt haben. Im Falle der Serie mit LECV
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
201 201
generierten Serien darstellen, die bis auf die Gipfelhöhe mit den Ausgangsserien identisch sind. Um die Serien CV
202 202
Eigene Einleitung Untersuchungen
Probanden erhielten zuvor eine Pause von 5-10 Minuten, um die Stimuli mit der voll ausgeprägten und die Stimuli mit der reduzierten Gipfelhöhe nicht unmittelbar aufeinander folgen zu lassen, da beide Stimulusgruppen nach Ansicht des Versuchsleiters einen sehr unterschiedlichen klanglichen Charakter hatten. Dadurch sollte eine Irritation der Versuchspersonen vermieden werden. Schließlich war davon auszugehen, dass die Versuchspersonen durch die vorangegangenen drei bzw. 6 Hörtests sowohl in ihrer Aufgabe als auch in der Identifikation der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET inzwischen geübt waren. Weitere Einzelheiten zur Konstruktion der Hörtests, die für CV>H und CV
203 203
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
(b)
(a)
Abbildung 35: Identifikationsfunktionen zu den Hörtests der Stimulusserien aus den Synchronisationsräumen von prä- zu innervokalisch (a) und von inner- zu postvokalisch (b). In den Serien CV>H und VC>H wurde ein hoher und in den Serien CV
Stim. CV>H vs. CV
t|R
df
p
1-4
- | 45
20
>0,05*
5-7
-2,296 | -
19
>0,05*
1-3
1,467 | -
19
n.s.
4-6
-3,192 | -
19
>0,01**
Tabelle 7: Werte der Prüfgrößen (t) oder (R), Freiheitsgrade (df) und Wahrscheinlichkeit eines Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) für die 4 Tests abhängiger Stichproben, die auf den Teilsummen der ‚passt eher gut’-Urteile basieren, die über die Stimulusgruppen prä-, inner- und postvokalisch liegender F0-Gipfel (bzw. den darauf aufbauenden KontextStimulus-Paaren) mit den beiden Gipfelhöhen
Den Abbildungen 35(a) ist zunächst zu entnehmen, dass die Identifikationsfunktion der Serie CV
204 204
Eigene Einleitung Untersuchungen
Urteile erhalten als die Stimuli auf Basis von CV>H mit ihrem hohen Gipfel. Im Falle der innervokalisch positionierten F0-Gipfel der Stimuli 57 kehrt sich dieses Verhältnis um. Für die Stimuli CV
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
205 205
von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET anzusehen. Zu den Hypothesen (F1)-(F3) Ausgehend von der vorangehenden grundlegenden Interpretation der Ergebnisdaten, hat sich somit ergeben, dass die niedrigen F0-Gipfel der Bedingung CV
206 206
Eigene Einleitung Untersuchungen
Gipfelverschiebung in den innervokalischen Bereich nicht zum Zeichen NEU überwechselt. Im Rahmen der Verschiebung des F0-Gipfels aus dem innervokalischen in den postvokalischen Bereich fällt die Interpretation der Ergebnisse vor dem Hintergrund der Hypothese (G) hingegen weniger eindeutig aus (vgl. Abb. 35b). Für die Stimuli mit hohen F0-Gipfeln (VC>H) ist eine klare Wahrnehmungsveränderung von NEU zu UNERWARTET eingetreten. In den Stimuli mit niedriger Gipfelhöhe (VC
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
207 207
Ungeachtet dieser Frage zeigen die Ergebnisse damit aber sehr deutlich, dass die Gipfelhöhe bei der Wahrnehmung des Zeichens UNERWARTET anders als bei den Zeichen GEGEBEN und NEU eine wichtige Stellung einnimmt. Dies deckt sich mit den Ergebnissen der akustischen Analyse von Produktionen trainierter Sprecher bei Gartenberg und Panzlaff-Reuter (1991), die für das Zeichen UNERWARTET in Relation zu den beiden anderen Zeichen unter den gleichen Bedingungen einen besonders umfangreichen An- und Abstieg vorgefunden haben. Auch in den Produktionsdaten zum amerikanischen Englisch, die im Rahmen der Untersuchung von Pierrehumbert und Steele (1989) präsentiert werden, ist für das sprechmelodische Pendant des deutschen Zeichens UNERWARTET ein deutlich höherer F0-Gipfel beobachtbar als für das sprechmelodische Pendant des deutschen Zeichens NEU. Ein Vergleich der Ergebnisse zur Gipfelhöhe und zur Gipfelgestalt vor dem Hintergrund der Flankenneigung In 3.3.1 wurde darauf hingewiesen, dass sich die beiden phonetischen Eigenschaften des F0-Gipfels, Gipfelgestalt und Gipfelhöhe, im Parameter der Flankenneigung überschneiden (siehe hierzu Abb. 12). Eine Modifikation der Gipfelhöhe bei konstanten An- und Abstiegsdauern führt ebenso wie ein Eingriff in die An- und Abstiegsdauer bei konstanter Gipfelhöhe zu einer Veränderung der Gradienten des An- und Abstiegs. Da nun für alle drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET Erkenntnisse zur perzeptorischen Auswirkung einer variierten Gipfelgestalt und -höhe vorliegen, die unter vergleichbaren experimentellen Rahmenbedingungen gewonnen wurden, ist es an dieser Stelle sinnvoll, diese Erkenntnisse im Licht des Parameters der Flankenneigung gegenüberzustellen. Die Variation der Gipfelhöhe fand in einem symmetrisch aufgebauten F0-Gipfel statt. Das heißt, die Anstiegsgeschwindigkeit zum F0-Maximum stimmte mit der Geschwindigkeit des Abstiegs vom F0-Maximum überein. Um die hierzu gewonnenen Erkenntnisse mit den Erkenntnissen zur Gipfelgestalt in puncto Flankenneigung vergleichen zu können, bieten sich die ebenfalls symmetrisch aufgebauten Gestalten f/f und s/s aus dem Experiment von Niebuhr (2003a, b) zum Synchronisationsraum von prä- zu innervokalisch und dem in 4.1 vorgestellten Experiment zum Synchronisationsraum von inner- zu postvokalisch an. Die An- und Abstiegsgeschwindigkeiten betrugen im Falle des f/f-Gipfels etwa 20st/s (Niebuhr 2003a, b) bzw. 30st/s (vgl. 4.1.1). Die des s/s-Gipfels fielen in etwa doppelt so groß aus und betrugen dementsprechend zirka 40st/s (Niebuhr 2003a, b) bzw. 60st/s (vgl. 4.1.1). Die An- und Abstiegsgeschwindigkeiten, die im hier vorliegenden Experiment zur Gipfelhöhe verwendet wurden,
208 208
Eigene Einleitung Untersuchungen
lagen für den jeweiligen Synchronisationsraum in derselben Größenordnung. Das heißt, wie im Falle des f/f- uns s/s-Gipfels bei Niebuhr (2003a, b) betrugen sie im Synchronisationsraum von prä- zu innervokalisch unter den Bedingungen CV
209 209
Zum Begriff der Sprechmelodie Zur Gipfelhöhe
(a)
(b)
(c)
(d)
Abbildung 36: Identifikationsfunktionen zu den Hörtests der Stimulusserien aus den Synchronisationsräumen von prä- zu innervokalisch (linke Spalte, als cv gekennzeichnet) und von innerzu postvokalisch (rechte Spalte, als vc gekennzeichnet). In den Serien CV>H, CV
Im Rahmen dieser Diskussion ist darauf hinzuweisen, dass die in Abbildung 36 aufgezeigte Korrespondenz der Ergebnisse nicht infrage stellen kann, dass die Gipfelgestalt – in Form der An- und Abstiegsdauer – prinzipiell einen von der Gipfelhöhe unabhängigen Einfluss auf die Wahrnehmung der hier erforschten sprechmelodischen Zeichen ausübt. Anderenfalls wären die Effekte nicht zu erklären, die für die beiden asymmetrischen Gipfelgestalten f/s und s/f (im Vergleich untereinander und zu den beiden symmetrischen Gipfelgestalten) im Experiment von Niebuhr (2003a, b) sowie in dem in 4.1 geschilderten Experiment aufgetreten sind.
210 210
Eigene Einleitung Untersuchungen
Die konzeptuelle Trennung der beiden Gipfelparameter Gipfelgestalt und Gipfelhöhe ist also in jedem Fall sinnvoll. Diskrepanzen zu den Ergebnissen von Gósy und Terken zum Ungarischen und ihre Ursachen Die Hypothesen (F1)-(F3) wurden in erster Linie auf der Grundlage der Ergebnisse von Gósy und Terken (1994) formuliert. Dass die Hypothesen (F1) und (F3) in dieser Untersuchung zurückgewiesen werden mussten, bedeutet somit, dass die Ergebnisse dieser Untersuchung denen von Gósy und Terken in bestimmten Aspekten zuwiderlaufen. Worauf ist dies zurückzuführen? Hierbei ist zunächst zu berücksichtigen, dass den Versuchspersonen grundlegend andere Aufgaben gestellt wurden, die auch vor dem Hintergrund der jeweiligen Funktionen der sprechmelodischen Zeichen entstanden sind. Gósy und Terken haben ihren Versuchspersonen die Stimuli kontextfrei präsentiert und sie dazu instruiert, diese als Frage oder Aussage zu klassifizieren. Das heißt, sie haben direkt nach der Bedeutung der sprechmelodischen Zeichen gefragt, wohl auch, weil dies durch die Art der Bedeutung ohne sprachtheoretisches Wissen möglich war. In dieser Untersuchung wurde die Bedeutung der sprechmelodischen Zeichen nicht auf direktem Wege zur Klassifizierung der Stimuli verwendet. Stattdessen wurde die Bedeutung der Zeichen dazu instrumentalisiert, letztere indirekt über einen Bedeutungsabgleich der Stimuli mit vorangehenden Kontexten zu identifizieren. Es ist anzunehmen, dass solche Stimuluskontextualisierungen eine im kommunikativen Sinne deutlich natürlichere Beurteilungsumgebung für die Versuchspersonen erzeugen. Neben diesem Vorteil sind andererseits auch die Schwachpunkte des Identifikationstest-Paradigmas zu bedenken, die unter 4.4 näher thematisiert werden. Das heißt, neben der alternativen Möglichkeit, dass es sich um sprachspezifisch kodierte sprechmelodische Zeichen handelt, können auch die abweichenden Rahmenbedingungen der Urteilsabfrage die Diskrepanzen zwischen den Ergebnissen beider Untersuchungen hervorgerufen haben. Hiergegen sprechen vor allem die Übereinstimmungen der Ergebnisse dieser Untersuchung mit anderen vornehmlich akustischen Analysen und der Umstand, dass Hypothese (F2) auf Basis der Ergebnisse dieser Untersuchung angenommen werden konnte. Es gibt also Schnittmengen zwischen den Ergebnissen der vorliegenden Untersuchung und der von Gósy und Terken (1994). Dennoch sind die Auswirkungen der Aufgabenstellung hinsichtlich der Generalisierbarkeit und Validität der Ergebnisse zu bedenken.
Zum Begriff der Sprechmelodie Zusammenfassung und Bewertung
211 211
4.4 Zusammenfassung und Bewertung der eigenen Untersuchungen 4.4.1 Die Progression der Forschung und ein Einblick in die gefundenen Effekte Bisherige Untersuchungen zur Produktion und Perzeption sprechmelodischer Zeichen haben sich besonders auf die Synchronisation von Punkten oder Transitionen des F0- bzw. Tonhöhenverlaufs relativ zu segmentellen Landmarken konzentriert. Dies gilt auch für die in dieser Arbeit behandelte Zeichentriade des Standarddeutschen. Im Einklang damit sind sowohl die Zeichenformen des KIM als auch die formalen Alternativen aus dem AM-Rahmen dadurch definiert, dass signifikante Punkte des F0-Gipfels zu Referenzgrößen in der Kette der Lautsegmente in Beziehung gesetzt werden. Ein Unterschied zwischen beiden phonologischen Modellen ist, dass die zeitliche Verlagerung, durch die diese signifikanten Gipfelpunkte in andere Positionen relativ zu den lautlichen Referenzgrößen gebracht werden, im KIM als phonologisch aufgefasst wird, während sie in der AM-Perspektive lediglich die phonetisch beobachtbare Konsequenz einer anderen zugrundeliegenden phonologischen Assoziation darstellt. Ein weiterer wichtiger Unterschied besteht in der segmentellen Referenzgröße selbst. Im KIM ist dies der Einsatz des Akzentvokals, im AMRahmen wird hierfür die (Akzent-)Silbe herangezogen. In der vorliegenden Arbeit spielt die Synchronisationsdimension als Grundlage für die experimentellen Untersuchungen ebenfalls eine Rolle. Zusätzlich zur Synchronisation werden jedoch nacheinander weitere Faktoren des melodischen Kanals, nämlich die Gipfelgestalt, die Gipfelhöhe sowie die Dauer und Intensität in lautlichen Elementen mit einbezogen und ihr Einfluss auf die Wahrnehmung der drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET bestimmt. Im Zentrum dieser Bestimmung steht die Bedeutung der sprechmelodischen Zeichen, die zur indirekten Identifikation der Zeichen durch Hörer verwendet wird. Ohne einen Bezug zu solchen externen Fixpunkten wie den Bedeutungen sprechmelodischer Zeichen, die außerhalb phonetischer und phonologischer Merkmale stehen, erscheint die genannte Bestimmung und damit die Entwicklung einer multidimensionalen Perspektive in der Betrachtung sprechmelodischer Zeichen kaum möglich. Aus den Ergebnissen der Experimente geht hervor, dass alle zusätzlich zur Gipfelsynchronisation untersuchten melodischen Faktoren einen Einfluss auf die Wahrnehmung bzw. auf die Identifikation der behandelten sprechmelodischen Zeichentriade des Deutschen gehabt haben.
212 212
Eigene Einleitung Untersuchungen
Dieser Einfluss prägte sich nicht zeichenspezifisch, sondern positionsspezifisch, das heißt in Interaktion mit der Gipfelsynchronisation, aus. Beispielsweise hat sich herausgestellt, dass die Wahrnehmung des Zeichens GEGEBEN unterstützt wird, wenn das Intensitätsniveau der Vorakzentsilbe in etwa auf gleicher Höhe liegt wie das Intensitätsniveau der Akzentsilbe (jeweils präsentiert durch das Intensitätsmaximum innerhalb der Silben) und gleichzeitig auch die Dauer der Vorakzentsilbe deutlich über die Hälfte der Akzentsilbendauer beträgt. Des weiteren trägt es zur Wahrnehmung des Zeichens GEGEBEN bei, wenn die prävokalisch positionierten F0-Gipfel durch eine große Gipfelhöhe gekennzeichnet sind. Niebuhr (2003a, b) hatte unter dem Gesichtspunkt der Gipfelgestalt zuvor bereits festgestellt, dass bei prävokalischen F0-Gipfeln eine kurze Abstiegsdauer vom Gipfelmaximum für die Wahrnehmung des Zeichens GEGEBEN förderlich ist. Das Zeichen NEU wird durch eine große Gipfelhöhe bei innervokalischen positionierten F0-Gipfeln unterstützt. Daneben hat es sich als hilfreich für die Wahrnehmung dieses Zeichens erwiesen, wenn das Intensitätsniveau bzw. -maximum der Nachakzentsilbe in der Größenordnung des Intensitätsniveaus bzw. -maximums der Akzentsilbe liegt, unter der Voraussetzung, dass dabei gleichzeitig die Nachakzentsilbe auch eine Dauer aufweist, die deutlich größer ist als die Hälfte der Akzentsilbendauer. Bezüglich der Gipfelgestalt hatte Niebuhr (2003a, b) bereits gezeigt, dass eine kurze Anstiegdauer zum Gipfelmaximum in Verbindung mit innervokalischen F0-Gipfeln die Wahrnehmung in Richtung des Zeichens NEU verlagert. Im Zusammenhang mit der Identifikation des Zeichens UNERWARTET hat es sich als wichtig herausgestellt, dass die postvokalischen F0-Gipfel über eine ausgedehnte Gipfelhöhe verfügen und die Gipfelgestalt durch einen kurzen Anstieg zum Gipfelmaximum gekennzeichnet ist, der er erst innerhalb des Akzentvokals beginnt. Hinsichtlich der Dauer und Intensität in lautlichen Elementen haben die Hörer in den Stimuli vermehrt das Zeichen UNERWARTET erkannt, wenn sowohl Dauer als auch Intensität der Vorakzentsilbe entweder deutlich unter den Werten der Akzentsilbe oder aber in der Größenordnung der Akzentsilbenwerte liegen. 4.4.2 Evaluierung der Zeichenformen angesichts der Erkenntnisse aus den eigenen Untersuchungen In Anbetracht der zuvor geschilderten Ausrichtung der Zeichenformen an der Synchronisationsdimension wird klar, dass weder im KIM, noch im AM-Modell ein Einfluss der Intensität und der Gipfelhöhe auf die Wahr-
Zum Begriff der Sprechmelodie Zusammenfassung und Bewertung
213 213
nehmung (d.h., auf die Dekodierung) der sprechmelodischen Zeichen vorgesehen ist, da hierbei die zeitliche Positionierung der Gipfelpunkte und die Dauerstruktur der zugrundeliegenden Segmente vollständig identisch bleibt. Für das KIM gilt zudem, dass die gefundenen Einflüsse der Intensität in lautlichen Elementen nicht nur durch die Zeichenformen nicht abgedeckt sind, sondern auch im Widerspruch zu den Zeichenformen stehen, zum Beispiel dadurch, dass der Wahrnehmungsübergang zwischen den Zeichen GEGEBEN und NEU bei bestimmten Konfigurationen bereits vor dem Einsatz des Akzentvokals stattgefunden hat. Prinzipiell anders verhält es sich mit den Faktoren der Gipfelgestalt, bei der die zeitliche Positionierung der Gipfelpunkte über konstanten Lautdauern verändert wird und der Dauer in lautlichen Elementen, die bei gleichbleibender Gipfelgestalt variiert wurde. Allerdings wurde die Variation der Dauer in lautlichen Elementen auf Silbenebene durchgeführt, wobei die Dauer der Akzentsilbe unangetastet blieb. Im Rahmen einer solchen Dauervariation hätte sich auf Basis der Zeichenformen beider Modelle kein Effekt der auf die Wahrnehmung der drei Zeichen ergeben sollen. Letzteres gilt aus Sicht des KIM auch für die Gipfelgestalt. Die Phonologie des KIM ist an der Position des F0-Gipfels respektive des Gipfelmaximums relativ zum Vokalbeginn ausgerichtet. Die Variation der Gipfelgestalt wurde jedoch nur durch die zeitliche Verschiebung des Anstiegsbeginns und Abstiegsendes erreicht, ließ also die jeweilige Position des Gipfelmaximums unberührt. In diesem Zusammenhang ist allerdings interessant zu sehen, dass in den Perzeptionsexperimenten, auf denen die Zeichenformen des KIM basieren (vgl. 2.3.2), eine Gipfelgestalt verwendet wurde, die so beschaffen war, dass der Anstieg bei postvokalischen Gipfelpositionen erst im Vokal begann. Bei dieser Konstellation musste somit gar nicht ins Blickfeld geraten, dass die Wahrnehmung des Zeichens UNERWARTET – wie auf Basis der Befunde aus 4.1.3 vermutet wird – allein auf Basis der Position des Gipfelmaximums nicht herstellbar ist. Umso bemerkenswerter ist es, dass in Verbindung mit den Resultaten der Perzeptionsexperimente – im Einklang mit der zuvor genannten Vermutung – dennoch auf die perzeptorische Relevanz eines im Akzentvokal liegenden Anstiegsbeginns für die Wahrnehmung des Zeichens UNERWARTET hingewiesen wird (vgl. Kohler 1991c; Gartenberg und Panzlaff-Reuter 1991). Dabei wird dieser Einflussfaktor aber nicht als eigenständig betrachtet, sondern im Zusammenhang mit der Gipfelposition gesehen. Das heißt, der entscheidende Schritt zu einer konzeptuellen Trennung von Gipfelgestalt und Gipfelposition ist ausgeblieben. Diese Trennung wird auch in der AM-Phonologie nicht vollzogen. Dadurch jedoch, dass die AM-Phonologie in Form von bitonalen Akzenten neben dem Gipfelmaximum auch Beginn bzw. Ende des F0-Gipfels
214 214
Eigene Einleitung Untersuchungen
mit einbeziehen kann, sind perzeptorische Effekte der Gipfelgestalt grundsätzlich eher mit den Zeichenformen in Einklang zu bringen. Die zum Zeichen UNERWARTET gefundenen Effekte gehen jedoch mit der Form des Zeichens, L*+H, nicht vollumfänglich konform. So war es beispielsweise nicht im Sinne der Zeichenform, dass nur die steil ansteigenden F0-Gipfel s/s und s/f einen Wahrnehmungsübergang zum Zeichen UNERWARTET bewirkt haben. Im Falle der flach ansteigenden Gipfel f/f und f/s waren aus Sicht der Zeichenform L*+H die notwendigen phonetischen Voraussetzungen gleichermaßen erfüllt (vgl. 2.4.2). Das heißt, der Anstiegsbeginn, der den tonalen Schwerpunkt L* repräsentiert, befand sich innerhalb der Akzentsilbe und der trailing tone H prägte sich in Form des Gipfelmaximums (für die Stimuli 4-6 mit postvokalischen Gipfelpositionen) nach dem Ende des Akzentvokals auf der nachfolgenden Silbe aus. Als Erklärung für den dennoch gefundenen Effekt der Gipfelgestalt könnte aus Sicht des AM-Modells nur in Betracht kommen, dass die kurze Anstiegsdauer bei s/f und s/s dem vorgesehenen Zeitintervall zwischen den Tönen L* und H eher entspricht als die große Anstiegsdauer. Mit den AM-Zeichenformen vereinbar war hingegen, dass sich die Abstiegsflanke für die Wahrnehmung des Zeichens UNERWARTET ebenso wie für die Wahrnehmung des Zeichens NEU (H*) als irrelevant herausgestellt hat. Insgesamt betrachtet, bekräftigt die Erkenntnis, dass neben der Gipfelgestalt auch die Gipfelhöhe sowie die Dauer und Intensität in lautlichen Elementen relevant für die Identifikation der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET ist, die Notwendigkeit, die bislang gültigen phonologischen Modelle von der Form dieser Zeichen zu revidieren. Im Rahmen des Teils (B) dieser Arbeit wird ein erster Entwurf für eine neue phonologische Modellierung vor dem Hintergrund von Ansätzen einer Theorie zur Wahrnehmung der Sprechmelodie erarbeitet werden. Auch vor diesem Hintergrund ist es sinnvoll, die Tragfähigkeit der gewonnenen Erkenntnisse kritisch zu hinterfragen. Hierzu werden im Folgenden einige Aspekte angesprochen. 4.4.3 Eine kritische Bewertung der gewonnenen Erkenntnisse Die grundlegende Aussage, dass die Gipfelgestalt und -höhe sowie die Dauer und Intensität in lautlichen Elementen einen Effekt auf die Identifikation der in dieser Arbeit behandelten sprechmelodischen Zeichen hat, erscheint angesichts der bereits vorliegenden und der nun neu hinzugewonnenen Erkenntnisse unzweifelhaft. Allerdings entsteht in diesem Zusammenhang gleichzeitig der Eindruck, dass die Befunde zur konkreten Art dieses Einflusses für die F0-bezogenen Faktoren der Gipfelgestalt und der Gipfelhöhe belastbarer sind als für die Dauer und Intensität in
Zum Begriff der Sprechmelodie Zusammenfassung und Bewertung
215 215
lautlichen Elementen. Sowohl aus den dargestellten Paarvergleichen der Identifikationsfunktionen als auch aus den Signifikanzniveaus der prüfstatistischen Analysen ist abzulesen, dass im Rahmen der F0-bezogenen Faktoren stärkere Effekte aufgetreten sind als im Rahmen der Dauer und Intensität in lautlichen Elementen. Dies kann auch die Ursache dafür sein, dass sich die Effekte, die sich für die Dauer und Intensität in lautlichen Elementen ergeben haben, tendenziell eher auf Gipfelpositionen aus der Mitte des jeweiligen Synchronisationsraumes konzentrieren, wo der F0Gipfel selbst kein eindeutiges Signal für eines der Zeichen gibt, während für die Gipfelgestalt und -höhe auch noch in Verbindung mit F0-Gipfeln an den Rändern des jeweiligen Synchronisationsraumes ein Einfluss auf die Identifikation der Zeichen zu beobachten war. Es wäre jedoch vorschnell, die unterschiedlichen Effektstärken daran festzumachen, ob der jeweilige Einflussfaktor den Parameter F0 involviert. Im Rahmen der Diskussion der Ergebnisse zur Dauer und Intensität in lautlichen Elementen wurden eine Reihe von Aspekten thematisiert, die dazu geführt haben können, dass der Einfluss von Dauer und Intensität nicht in vollem Umfang aufgezeigt werden konnte (vgl. 4.2.7). Hierzu zählt unter anderem die zunächst sehr einfach gehaltene silbenweise Manipulation von Dauer und Intensität, bei der zum Beispiel die Intensitätskontur unberücksichtigt blieb bzw. mit den Dauer- und Intensitätsmanipulationen kovariierte und in der die Akzentsilbe selbst nicht verändert wurde. An die hier gewonnenen Erkenntnisse sollten sich daher weitere Perzeptionsexperimente anschließen, die auf elaborierteren Manipulationen basieren. Dies bedeutet unter anderem, die akustische Analyse weiter zu vertiefen und die dabei zutage tretenden Auffälligkeiten in stärkerem Maße als bisher in die Stimuluserzeugung einfließen zu lassen. Im Licht der hierin anklingenden experimental-phonologischen Vorgehensweise muss bei der Bewertung der dauer- und intensitätsbedingten Effekte beachtet werden, dass diese in weiten Teilen mit den Daten aus der Produktion zur Deckung gebracht werden konnten. Diese Kreuzvalidierung erhärtet die Ergebnisse, die im Perzeptionsexperiment zustande gekommen sind. Im Rahmen einer kritischen Bewertung der gewonnenen Erkenntnisse rückt besonders der Kern der experimentellen Methode, das Identifikationstest-Paradigma, ins Blickfeld. Im Rahmen der Diskussion der Ergebnisse zur Gipfelgestalt in 4.1.3 wurde bereits darauf hingewiesen, dass die Interpretation der hiermit gewonnenen Ergebnisse mit einigen impliziten Annahmen einhergeht. So setzt zum Beispiel der Rückschluss von der Beurteilung der Kontext-Stimulus-Paare als zusammenpassend oder nicht zusammenpassend auf die Identifikation eines bestimmten sprechmelodischen Zeichens voraus, dass die Kenntnisse über das Zeichenin-
216 216
Eigene Einleitung Untersuchungen
ventar und die Vorstellung von der Bedeutung der einzelnen Zeichen adäquat und umfassend sind. An dieser Stelle ist auf einen weiteren Aspekt hinzuweisen, der zugleich eine Stärke und einen Schwachpunkt des Verfahrens darstellt. Hierbei handelt es sich um die Kontextualisierung der perzeptorisch zu beurteilenden Stimuli. Der Schwachpunkt der Kontextualisierung besteht darin, dass die Ausprägung der Ergebnisse erheblich von der Güte der gewählten Kontextäußerung abhängig ist. Je nachdem, wie eindeutig ein Kontext eine bestimmte Sprecherattitüde verkörpert und damit die inhaltlichen Alternativen des nachfolgenden Stimulus einschränkt, werden die Ergebnisse zu Einflussfaktoren auf die Wahrnehmung sprechmelodischer Zeichen mehr oder weniger deutlich ausfallen. Das heißt, weniger geeignete Kontextäußerungen provozieren -Fehler (Fehler 2. Art, vgl. Sachs 1972) in der Auswertung der Ergebnisse. Ferner ist bereits in der Einleitung darauf hingewiesen worden, dass es sich bei den Bedeutungen der in dieser Arbeit erforschten sprechmelodischen Zeichen um relationale Bedeutungen handelt, die ein immenses Spektrum an spezifischen Interpretationen zulassen. Infolgedessen ist unabhängig von der Güte des Kontextes immer damit zu rechnen, dass einige Versuchspersonen die unterschiedlichen sprechmelodischen Zeichen im Stimulus erkennen und trotzdem die Kontext-Stimulus-Paare einheitlich als (nicht) zusammenpassend beurteilen oder dass sie entgegengesetzt zur prognostizierten Kombinierbarkeit von Kontext und Stimulus reagieren. In den Rohdaten der Anhänge B, E und H sind derartige Daten zu finden. Natürlich gibt es auch noch andere Erklärungen für die Entstehung eines solchen abweichenden Urteilsverhaltens. Im Rahmen des Identifikationstest-Paradigmas ist es jedoch unmöglich, im Nachhinein zwischen inhaltlichen und anderen Beweggründen zu unterscheiden. Letztlich könnte die Kontextualisierung die Versuchspersonen dazu verleiten, das Zusammenpassen von Kontext und Stimulus allein daran zu knüpfen, ob sie in beiden Äußerungen die gleichen Melodien wahrnehmen. Bei einer solchen inhaltsfreien Beurteilung wird der Identifikationstest zum Diskriminationstest. Die Gefahr hierbei ist, dass perzipierbare Unterschiede innerhalb eines sprechmelodischen Zeichens dazu führen, dass Kontext und Stimulus als nicht zusammenpassend bewertet werden. Daraus können -Fehler (Fehler 1. Art) bei der Auswertung der Ergebnisse entstehen. Im Rahmen der hier durchgeführten eigenen Experimente sollte dies dadurch verhindert werden, dass die Versuchspersonen gezielt zu einer bedeutungsbezogenen Beurteilung der Paare instruiert wurden, wobei sie in den Experimenten zur Dauer und Intensität sowie zur Gipfelhöhe zusätzlich explizit auf die Bedeutung der zu beurteilenden Zeichen hingewiesen wurden.
Zum Begriff der Sprechmelodie Zusammenfassung und Bewertung
217 217
Neben dem Identifikationstest-Paradigma haben sich zur Erforschung der Sprechmelodie einige alternative Verfahren entwickelt, wie zum Beispiel das Imitations-Paradigma bei Pierrehumbert und Steele (1989), die prosodic restoration bei Xu et al. (2004) und die interaktive Manipulation bei Ambrazaitis (2006). Ein wie das Identifikations-Paradigma bedeutungsbasiertes Verfahren, das in letzter Zeit wieder belebt wurde, ist die Beurteilung der Stimuli im Rahmen eines semantischen Differentials (vgl. Dombrowski 2003b; Ambrazaitis 2005; Kohler 2005 sowie einen der ersten Beiträge auf dieser Grundlage von Uldall 1972). Dieses Verfahren eignet sich in erster Linie dazu, die Bedeutung der sprechmelodischen Zeichen tiefergehend zu erforschen oder aber mittels des breit gefächert abgefragten Bedeutungsspektrums bislang unentdeckte Zeichen sichtbar zu machen. Für die hier vorliegende Fragestellung ist es allerdings weniger gut geeignet, insbesondere da die Stimuli zur Beurteilung jeder einzelnen Bedeutungskomponente des Differentials erneut präsentiert werden müssen, wodurch die einzelnen Hörtests des Experimentes sehr lang werden. Zudem sieht dieses Verfahren keine unmittelbare auditive Kontextualisierung der Stimuli vor. Es ist anzunehmen, dass gerade eine solche Kontextualisierung einen wichtigen Beitrag dazu leistet, den Versuchspersonen den Eindruck einer realen Kommunikationssituation zu vermitteln, sodass entsprechend aussagekräftige Reaktionen zustande kommen. Hierin liegt die Stärke des Identifikationstest-Paradigmas. Insgesamt betrachtet, zeigen die vorangehenden Ausführungen, dass sich die Erforschung der Sprechmelodie nicht nur auf die Zeichen und deren strukturelle und funktionale Eigenschaften selbst konzentrieren darf. Gleichzeitig muss die Forschungsmethode weiterentwickelt und den wachsenden Erkenntnissen angepasst werden. Neben den bereits genannten, wurden im Rahmen der Methode in den eigenen Experimenten weitere Maßnahmen getroffen, um die Reliabilität der Ergebnisse er erhöhen. Hierzu gehört unter anderem, dass die Versuchspersonen vor den eigentlichen Hörtests eine analog dazu aufgebaute Übung erhielten und dass die Präsentationsreihenfolge der Hörtests zwischen den einzelnen Untergruppen einer Versuchspersonengruppe gewechselt wurde. Dadurch sollten Lerneffekte verringert bzw. gleichmäßiger über die Daten verteilt werden. Die Permutation der Hörtests sollte darüber hinaus verhindern, dass in den Daten Effekte durch eine bestimmte Reihenfolge in der Präsentation der experimentellen Variablen auftreten. Dennoch erscheint es angesichts der recht geringen Anzahl von Versuchspersonen pro Experiment (n=20) angemessen, die gewonnenen Erkenntnisse durch die Wiederholung der Experimente mit zusätzlichen Versuchspersonen zu untermauern, ähnlich wie es im Rahmen des Experi-
218 218
Eigene Einleitung Untersuchungen
mentes zur Auswirkung der Gipfelverschiebung bei Kohler (1987, 1991c) praktiziert worden ist.
Teil B: Theoretische Überlegungen zur Wahrnehmung von Sprechmelodiegipfeln
5 Der Weg zu einer Theorie zur Wahrnehmung der Sprechmelodie Teil (B) der Arbeit ist in drei größere Abschnitte gegliedert. Zunächst wird der Weg zu einer Theorie zur Wahrnehmung der Sprechmelodie skizziert. Hierbei werden im Rahmen eines modalitätsübergreifenden Forschungsüberblicks die grundlegenden Ziele, Probleme und Strategien der Wahrnehmung dargestellt. Hierauf bauen in einem zweiten Abschnitt die theoretischen Ansätze zur Wahrnehmung der Sprechmelodie auf. Diese werden anschließend in einem dritten Abschnitt diskutiert und evaluiert. Im zweiten und dritten Abschnitt werden auch die in Teil (A) gewonnenen empirischen Erkenntnisse einbezogen.
5.1 Theorien zur tonalen Wahrnehmung Die Frage, wie wir zu einem Tonhöheneindruck gelangen, ist sehr alt. Einhergehend mit der Erforschung der Physiologie des Innenohres (siehe hierzu z.B. Pickles 1988; Denes und Pinson 1973), sind erste Theorien hierzu entwickelt worden, die sich vornehmlich damit beschäftigt haben, wie die Frequenzinformationen aus dem beim Hörer ankommenden akustischen Signal extrahiert werden. Hierbei haben sich diametrale theoretische Ansätze herausgebildet. Einer dieser theoretischen Ansätze, der die Resonanztheorie von Helmholtz (1863) aufgegriffen hat, war die Ortstheorie von Békésy (1960, 1972). Sie geht davon aus, dass die Basilarmembran als eine tonotope Karte aufzufassen ist, in der – ähnlich wie bei der Oberfläche eines Xylophons – bestimmte Orte bestimmten Frequenzen entsprechen. Der örtlichen Kodierung der Frequenz steht als der andere theoretische Ansatz die zeitliche Kodierung der Frequenz in der Tradition von Seebeck (1841) und Rutherford (1886) gegenüber. Hierin wird die jeweilige Frequenz direkt durch die Feuerungsrate im Hörnerv weitergegeben, die durch einen Verbund von zeitversetzt feuernden Nervenzellen erzeugt wird. Der derzeitige Stand der Forschung hierzu ist, dass das Gehör aufgabenspezifisch beide Strategien verwendet, um die Frequenzinformationen aus dem akustischen Signal zu extrahieren. Von primärer Relevanz ist jedoch die örtliche Kodierung der Frequenzinformation (vgl.
222 222
Der WegEinleitung zu einer Theorie
Moore 1997). Ferner wird zusätzlich zur Frequenzinformation auch die Information zur Amplitude der einzelnen Frequenzkomponenten weitergegeben. Insofern ist die Ausgabe dieser ersten Stufe der auditiven Verarbeitung mit der einer Fourieranalyse vergleichbar (vgl. Goldstein 2002). Mit dem Beginn der rechnergestützten Forschung wurden Schallsignale nicht nur zu einem akustisch leicht vermessbaren Gegenstand, sie konnten auch in bestimmten Parametern systematisch verändert werden und so als Stimuli in Hörtests dienen. In dieser Zeit sind einige einflussreiche Theorien entstanden, die beschreiben, wie aus der zuvor skizzierten Ausgabe des Cortischen Organs ein Tonhöhenperzept entsteht. Den Anstoß hierfür gaben unter anderem Experimente von Schouten (1940), Thurlow und Small (1955), Plomp (1967) sowie Ritsma (1967), die zeigten, dass das Tonhöhenperzept komplexer Signale nicht (primär) auf der Grundfrequenz (F0) basiert. Eine dieser Theorien ist die virtual pitch theory, die von Terhardt (1974) entwickelt wurde. Terhardt nimmt in dieser Theorie an, dass das Tonhöhenperzept für Sinussignale und komplexe Signale in einer zentralen Prozessoreinheit, die als zweidimensionale Frequenzwertematrix konzeptualisiert ist, zustande kommt. Innerhalb dieser Matrix ist die Verarbeitung von Sinussignalen und komplexen Signalen qualitativ unterschiedlich. Sinussignale werden im analytischen Modus verarbeitet und als spektrale Tonhöhen (spectral pitch) perzipiert. Für komplexe Signale hingegen, die neben einer Grundfrequenz F0 auch über zusätzliche Harmonische verfügen und zu denen auch das Sprachsignal zählt (vgl. Ladefoged 1996), wird eine virtuelle Tonhöhe (virtual pitch) auf Basis des synthetischen Verarbeitungsmodus erzeugt. Hierbei kreieren diejenigen ganzzahligen Vielfachen der Grundfrequenz, die im Rahmen der Transformation des akustischen Signals in ein neuronales Signal im Innenohr einzeln aufgelöst werden können (resolved harmonics in der dominant frequency region, Fletcher 1940; Ritsma 1967) und die auf bestimmte Weise in die Zeilen und Spalten der Matrix eingegeben werden, ein virtuelles pitch-Muster. Dieses Muster ist dann Gegenstand eines gelernten Gestalterkennungsprozesses, aus dem die virtuelle Tonhöhe hervorgeht (auf das Konzept der Gestalt wird in 5.4 noch detaillierter eingegangen). Hinter der differenziellen prozessoralen Behandlung von Sinussignalen und komplexen Signalen verbirgt sich eine wichtige Aussage. Während die Sinussignale quasi uninterpretiert die Frequenzmatrix durchlaufen und so auf direktem Wege in ein Tonhöhenperzept münden, sind virtuelle Tonhöhen komplexer Signale – wie die Charakterisierung als virtuell bereits impliziert – eine regelhafte Interpretation des zugrundeliegenden Reizmusters, die von einzelnen Frequenzkomponenten ausgeht (spectral cues bei Terhardt 1974). Das heißt, es handelt sich um ein Konstrukt des
Zum Begriff der Sprechmelodie Theorien zur tonalen Wahrnehmung
223 223
auditiven Wahrnehmungsapparates. Dementsprechend muss der konstruierte virtual pitch nicht zwangsläufig einer der Frequenzkomponenten des komplexen Signals entsprechen. Dass es sich bei der Tonhöhe komplexer Signale um ein Konstrukt handelt, wird auch durch Experimente von Duifhuis, Willems und Sluyter (1982) unterstrichen. Sie konnten zeigen, dass Frequenzen vom auditiven Wahrnehmungsapparat nur dann als Harmonische behandelt werden und zur Wahrnehmung einer einzigen virtuellen Tonhöhe führen, wenn die höheren Frequenzen eine kleinere Amplitude aufweisen als die niedrigeren und höchstens 3-5% voneinander abweichen. Ansonsten werden mehrere unterschiedliche Tonhöhen perzipiert. Terhardt (1974) veranschaulicht den Konstruktcharakter virtueller Tonhöhen an einem Beispiel aus der visuellen Wahrnehmung, das in Abbildung 37 wiedergegeben ist. Die Komponenten des hierin dargestellten visuellen Reizmusters bestehen (lediglich) aus räumlichen Konstellationen gerader und gekrümmter dunkler Linien vor einem hellen Hintergrund. Der visuelle Wahrnehmungsapparat konstruiert aus diesem Reizmuster Grapheme, die zusammengenommen das Wort
Abbildung 37: Die englische Wortform
224 224
Der WegEinleitung zu einer Theorie
Die virtual pitch theory von Terhardt (1974) kann als Erklärung für eine Reihe grundlegender Wahrnehmungsphänomene herangezogen werden. Hierzu zählt beispielsweise das Phänomen, dass das Tonhöhenperzept komplexer Signale mit zunehmender Anzahl von Harmonischen stabiler wird. Des weiteren sind Hörer dazu in der Lage, in komplexen Signalen zu verschiedenen Tonhöhenperzepten zu gelangen. Dem wird in der Theorie von Terhardt dadurch Rechnung getragen, dass bei der Interpretation der Frequenzkomponenten grundsätzlich mehrere Tonhöhenkandidaten entstehen. Der hierbei am stärksten gewichtete Kandidat setzt sich letztendlich als spontanes Tonhöhenperzept durch, der Hörer kann jedoch prinzipiell auch auf die anderen schwächeren Kandidaten fokussieren. Ferner ist die virtual pitch theory auch im Bereich sprachlicher Wahrnehmungsphänomene relevant. So können mit ihrer Hilfe empirisch gefundene Tonhöhenunterschiede, die trotz gleicher Grundfrequenz für unterschiedliche Vokalqualitäten entstehen, adäquat vorhergesagt werden. Sie werden auf die vokalspezifischen Formantmuster zurückgeführt, die zu Abweichungen in den einzelnen Frequenzen des komplexen Signals führen, die am Eingang der Frequenzwertematrix bei Terhardt stehen (vgl. Stoll 1984). Auf diesen sogenannten intrinsic pitch von Vokalen wird in der Diskussion der Ansätze zur Kontrast-Theorie im Kapitel 7.2.2 näher eingegangen. Die virtual pitch theory von Terhardt wurde ausführlich vorgestellt, da sie eine ganze Gruppe von Theorien der auditiven Wahrnehmung repräsentiert. Ihnen ist unter anderem gemeinsam, dass sie die vom Ohr einzeln aufgelösten Harmonischen eines komplexen Signals als Ausgangspunkt für das Tonhöhenperzept betrachten (das heißt, F0 selbst spielt eine untergeordnete Rolle) und dass die Verarbeitung dieser Harmonischen in einem zentralen Prozessor stattfindet, der nach dem Prinzip der Mustererkennung arbeitet. Neben der virtual pitch theory von Terhardt (1974) gehört zu dieser Gruppe auch das pattern transformation model von Wightman (1973), die optimum processor theory von Goldstein (1973) und das spatial pitch network model von Cohen et al. (1995) Von einem sprachlichen Gesichtspunkt aus betrachtet, konstatiert House (1990), dass die genannten Theorien zur tonalen Wahrnehmung vorrangig vor einem musikalischen bzw. einem allgemein psychoakustischen Hintergrund entwickelt worden sind. Ferner wurden ihre Aussagen in erster Linie an psychoakustischen Stimuli evaluiert. Das heißt, die Theorien beziehen sich entweder auf die Wahrnehmung von Sinussignalen, die in der Natur nicht existieren (Flötentöne mit sehr hoher (Grund-)Frequenz kommen als natürliche Signale reinen Sinussignalen am nächsten, vgl. Goldstein 2002), oder sie setzen bei der Wahrnehmung komplexer Signale voraus, dass Stimuli mit konstantem F0 und absolut rigidem Spektrum dargeboten werden, in denen die Harmonischen alle die gleiche Am-
Zum Begriff der Sprechmelodie Theorien zur tonalen Wahrnehmung
225 225
plitude haben. Solche Bedingungen sind der Sprache fremd. Stetige Bewegungen von Zunge, Kiefer und Gaumensegel variieren permanent die Intensität und Amplitude der Harmonischen. Die Spannungsverhältnisse der Stimmlippen im Kehlkopf und die artikulatorische Konfiguration sorgen für Schwankungen oder Unterbrechungen im F0. House (1990) bezweifelt daher, dass die existierenden Theorien zur tonalen Wahrnehmung auf die Sprache – also von der Psychoakustik auf die Psychophonetik – übertragen werden können, bzw. dass die existierenden Theorien die tonale Wahrnehmung in der Sprache exhaustiv beschreiben. Er verweist hierbei insbesondere auf experimentelle Untersuchungen zur Wahrnehmung kleinster hörbarer F0-Unterschiede (sogenannte just noticeable differences, JND). Sie zeigen deutlich, dass die Sensibilität für F0Unterschiede nachlässt, je mehr sich die Stimuli der multidimensionalen Dynamik sprachlicher Signale annähern (vgl. Flanagan und Saslow 1958; Klatt 1973; Isacenko und Schädlich 1970; Mack und Gold 1986). Über die von House (1990) genannten Untersuchungen hinausgehend, ist darauf hinzuweisen, dass sich auch für den Frequenzumfang eine ähnliche Desensibilisierung bei der Progression zu Stimuli mit sprachlichem Signalcharakter findet. So wurden für musikalische Stimuli bereits Unterschiede im Frequenzumfang in der Größenordnung von weniger als einem Halbtonschritt gehört (vgl. Plomp et al. 1973), während im Falle sprachlicher Stimuli von einem Schwellenwert von mindestens zwei Halbtonschritten ausgegangen werden muss, bevor zwei unterschiedliche Frequenzumfänge auch als unterschiedlich umfangreiche Tonhöhenbewegungen perzipiert werden können (vgl. u.a. ´t Hart 1981). Auch für die Detektion von unterschiedlich schnellen Frequenzveränderungen kristallisiert sich heraus, dass die zugrundeliegenden physikalischen Unterschiede im Falle sprachlicher oder sprachähnlicher Stimuli größer sein müssen (vgl. Nabelek und Hirsh 1969; Klatt 1973; Harris und Umeda 1987; ´t Hart et al. 1990). Die empirisch determinierte Diskriminationsfähigkeit von Frequenzumfängen und -veränderungen wurde auch bei der Herstellung der Stimuli zur Untersuchung des Einflusses der Gipfelhöhe und -gestalt auf die Wahrnehmung der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET in der vorliegenden Arbeit berücksichtigt (vgl. 4.1.1 und 4.3.1). House (1990, 1996) formuliert auf dieser Grundlage seine theory of optimal tonal perception, die auf zwei Säulen fußt, der spectral constraint hypothesis und der tonal movement coding hypothesis. Zusammengefasst besagt die Theorie von House, dass die F0-Bewegungen des Sprachsignals in Abhängigkeit von dessen Informationsdichte entweder als Tonhöhen oder Tonhöhenbewegungen perzipiert werden. Hat der Hörer an den akustischen Bruchstellen zwischen Lautsegmenten besonders viele neue Informationen zu verarbeiten, ist der auditive Wahrnehmungsapparat damit
226 226
Der WegEinleitung zu einer Theorie
derart ausgelastet, dass F0-Bewegungen zu Tonhöhen komprimiert werden müssen. Im anderen Fall können F0-Bewegungen ohne Reduktion als Tonhöhenbewegungen wahrgenommen werden. Dafür ist House zufolge jedoch ein spektral stabiler vokalischer Signalabschnitt von mindestens 100ms Dauer nötig. In gewisser Weise stellt House damit die Verarbeitung von Informationen des lautlichen Kanals über die Verarbeitung von Informationen des melodischen Kanals. Die Annahme der spektral bedingten Gliederung des F0-Verlaufs in eine Abfolge aus Tonhöhenebenen und Tonhöhenbewegungen ist in Abbildung 38 am Beispiel dreier F0-Verläufe über einer Konsonant-VokalKonsonant-Sequenz (CVC) illustriert, die von House (1996) übernommen wurde. Links ist hierin der Verlauf der Informationsdichte über die Segmentkette hinweg dargestellt, rechts sind die F0-Verläufe eingetragen. Der theory of optimal tonal perception zufolge kann der erste (ganz linke) F0-Verlauf nicht als fallende Bewegung wahrgenommen werden, da er sich über die CV-Grenze hinweg erstreckt, in deren Bereich die Informationsdichte des Sprachsignals – bedingt durch die rapiden Veränderungen in den spektralen Eigenschaften des Signals (hierzu zählen nicht nur Formanttransitionen, sondern auch phonatorische Veränderungen) – besonders hoch ist. Der F0-Verlauf wird daher lediglich als tiefer Ton (durch L über dem F0-Verlauf gekennzeichnet) vom Hörer perzipiert werden. Analog dazu wird der letzte (ganz rechte) F0-Verlauf, der sich über die VC-Grenze hinweg erstreckt, ebenfalls nicht als fallende Bewegung, sondern als hoher Ton (H) gehört.
Abbildung 38: Zentrales Postulat der theory of optimal tonal perception: Schematische Darstellung des Informationsdichteverlaufs über einer CVC-Sequenz (links, a) und die davon abhängige Wahrnehmung eines unterschiedlich synchronisierten fallenden F0-Verlaufs als hoher Ton H, fallende Tonhöhenbewegung F oder tiefer Ton L (rechts, b). Die Abbildung wurde von House (1996) übernommen.
Zum Begriff der Sprechmelodie Theorien zur tonalen Wahrnehmung
227 227
Nur der mittige F0-Verlauf kann den tatsächlichen physikalischen Gegenbenheiten entsprechend als fallende Bewegung wahrgenommen werden, da sich die F0-Bewegung innerhalb des Vokals vollzieht, der aufgrund seines langen spektral recht stabilen Abschnitts durch eine durchgehend niedrige Informationsdichte gekennzeichnet ist. Angesichts der Abbildung 38 ist ferner hervorzuheben, dass die Theorie von House (1990, 1996) indirekt besagt, dass die Synchronisation des F0-Verlaufs über der Segmentkette und insbesondere relativ zu den vokalischen Elementen entscheidend dafür ist, ob er als Tonhöhe oder Tonhöhenbewegung perzipiert wird. Vor dem erläuterten Hintergrund hat House (1990) Perzeptionsexperimente mit synthetischen Stimuli durchgeführt, mit denen er seine Theorie untermauern konnte. Mit dem Ziel möglichst sprachunabhängiger Ergebnisse verzichtete House allerdings bei den Experimenten auf tatsächliche sprachliche Äußerungen. Stattdessen mussten die (schwedischen) Hörer tonale Muster beurteilen, die keinen direkten Bezug zu den sprechmelodischen Zeichen ihrer Sprache hatten und die über Logatomen (wortähnlichen, aber bedeutungsfreien Einheiten) präsentiert wurden. Ihre Aufgabe war dementsprechend auch nicht eine bedeutungsbezogene Beurteilung der sprechmelodischen Muster, wie sie im Rahmen der Identifikationstests in der vorliegenden Arbeit durchgeführt wurde, sondern eine Diskrimination. Es ist daher fragwürdig, inwieweit die Postulate von House (1990, 1996) über diese artifiziellen Hörbedingungen hinaus auf echte Sprache, in der es um die Weitergabe von Informationen geht (vgl. 1.1), generalisiert werden können. Insbesondere gilt dies im Hinblick auf die Unterscheidung zwischen Tonsprachen und Intonationssprachen (vgl. 1.2.6). House geht davon aus, dass an Stellen hoher Informationsdichten segmentelle (d.h. spektrale) Informationen Vorrang vor tonalen Informationen bekommen. Für Tonsprachen, wo tonale Informationen ausschlaggebend für die Erkennung lexikalischer und grammatischer Einheiten sind, erscheint diese Annahme nicht plausibel. Es ist möglicherweise in diesem Zusammenhang zu sehen, dass die Ergebnisse experimenteller Untersuchungen zum Thai (siehe hierzu Tingsabadh und Abramson 1999) nicht vollständig mit der Theorie von House zur Deckung gebracht werden können (vgl. House und Svantesson 1996). Unabhängig von der Validität der von House (1990) erstellten Theorie, besteht meiner Meinung nach an der Existenz des Phänomens, auf das diese Theorie ausgerichtet ist, selbst kein Zweifel. Das Tonhöhenperzept über sprachlichen Äußerungen entspricht manchmal einer Tonhöhe und manchmal einer Tonhöhenbewegung. Man kann dies zum Beispiel sehr leicht feststellen, wenn man die in 1.3.1 aufgeführten Äußerungen „Eine Malerin“ (siehe Abb. 1) produziert. Hierbei ergibt sich, dass insbesondere
228 228
Der WegEinleitung zu einer Theorie
über der Akzentsilbe „Ma-“ und der phrasenfinalen Silbe „-rin“, in denen die Vokale aufgrund ihrer Akzentuierung bzw. phrasenfinalen Längung eine vergleichsweise große Dauer aufweisen, tendenziell eher Tonhöhenbewegungen wahrgenommen werden als in den übrigen Silben. Möglicherweise ist das Nebeneinander von Tonhöhen und Tonhöhenbewegungen auch in die impressionistischen phonetischen Transkriptionssysteme der Intonation aus der britischen Schule eingeflossen. Die in Abbildung 39 dargestellte phonetische Transkription einer englischsprachigen Satzreihe aus Armstrong und Ward (1967) zeigt beispielsweise, dass Tonhöhenbewegungen über phrasenfinalen und/oder nuklearen Akzentsilben eingezeichnet wurden, in denen der Vokal durch die phrasenfinale und/oder akzentgebundene Längung eine vergleichsweise große Dauer aufweist.
Abbildung 39: Phonetisch-impressionistische Transkription der Segmentkette und des darüberliegenden Melodieverlaufs einer englischsprachigen Äußerung aus Armstrong und Ward (1967:36). Vertikale Linien in der melodischen Transkription indizieren Phrasengrenzen, ein <´> in der segmentellen Transkription kennzeichnet eine Akzentsilbe. Tonhöhenbewegungen wurden dort transkribiert, wo sie nach der theory of optimal tonal perception am ehesten zu erwarten wären.
In der zuvor infrage gestellten Generalisierbarkeit der experimentell gewonnenen Ergebnisse von House (1990) klingt ein wichtiger Aspekt an. In seiner theory of optimal tonal perception macht House (1990, 1996) einen Schritt in Richtung einer Theorie zur Wahrnehmung der Sprechmelodie. Dieser Schritt besteht darin, dass er die besonderen Eigenschaften des akustischen Sprachsignals berücksichtigt, nämlich die Dynamik in Spektrum und F0. Eine Theorie zur Wahrnehmung der Sprechmelodie muss allerdings mehr leisten. Sie muss vor dem Hintergrund entstehen, dass Sprache Kommunikation und die Sprechmelodie insofern untrennbar an sprachindividuelle Akzentsysteme und Inventare sprechmelodischer Zeichen gekoppelt ist. Wahrnehmung und Verarbeitung von Sprechmelodie bedeutet somit gleichzeitig Wahrnehmung und Verarbeitung bedeutungsdifferenzierender Elemente und bedeutungstragender Einheiten. Diese Verbindung zwischen den melodischen Mustern und ihren Bedeutungen
Zum Begriff der Sprechmelodie Theorien zur tonalen Wahrnehmung
229 229
muss hergestellt werden. Hierbei müssen unter anderem Aussagen darüber getroffen werden, wie die einzelnen melodischen Komponenten zusammengesetzt werden und wie dabei sprechmelodische Zeichen erkannt und gegeneinander abgegrenzt werden. Dabei müssen Verarbeitungsschritte zur Anwendung kommen, die sich an die spectral constraint hypothesis und die tonal movement coding hypothesis von House (1990) anschließen und konzeptuell darüber hinausgehen. Die bisherige theoretische Entwicklung im Bereich der auditiven Wahrnehmung, wie sie in den Ausführungen dieses Abschnitts skizziert wurde, zeichnet – grob gesprochen – die Verarbeitungsprozesse nach, die beim Hörer mit Eintreffen des akustischen Signals stattfinden müssen. Insofern bauen die einzelnen Theorien aufeinander auf. Das heißt, zunächst hat man sich mit der Frage beschäftigt, wie die Frequenzinformation aus dem akustischen Signal extrahiert wird. Dann ist man verstärkt der Frage nachgegangen, wie aus diesen extrahierten Frequenzinformationen ein Tonhöhenperzept entsteht. Die unter diesen Fragestellungen subsumierbaren Theorien, zu denen neben der virtual pitch theory von Terhardt (1974) auch die Theorie von House (1990, 1996) gehört, können als Theorien der tonalen Wahrnehmung betrachtet werden. Für den Untersuchungsgegenstand der Sprache muss nun der nächste Schritt folgen. Dieser Schritt muss von den Theorien, die sich mit der tonalen Wahrnehmung im allgemeinen auseinandersetzen, ausgehen und hin zu einer Theorie über die Wahrnehmung der Sprechmelodie erfolgen. Das heißt, die Theorien zur tonalen Wahrnehmung und die in ihrem Rahmen empirisch gewonnenen Erkenntnisse – insbesondere die von House (1990) – stellen das Fundament für eine Theorie zur Wahrnehmung der Sprechmelodie dar, deren Entwicklung bislang noch aussteht. Kapitel 6 der vorliegenden Arbeit leistet hierzu einen Beitrag. Hierin werden Ansätze vorgestellt, aus denen eine Theorie zur Wahrnehmung der Sprechmelodie hervorgehen kann und die insofern einen Rahmen für weitere theoretische Überlegungen vorgeben.
5.2 Ziele der Wahrnehmung und die damit verbundenen Probleme Am Ende des vorangehenden Abschnitts wurde hervorgehoben, dass eine Theorie zur Wahrnehmung der Sprechmelodie konzeptuell über eine Theorie der tonalen Wahrnehmung hinausgeht. Vor allem der Rolle der Sprechmelodie als Träger von Informationen Rechnung tragend, muss die Wahrnehmungsleistung darin bestehen, sprechmelodische Zeichen zu erkennen und gegeneinander abzugrenzen.
230 230
Der WegEinleitung zu einer Theorie
Aus einem allgemeinen Blickwinkel betrachtet, gestattet uns die Wahrnehmung, unabhängig davon, ob es sich beispielsweise um taktile, auditive oder visuelle Wahrnehmung handelt, mit unserer Umwelt zu interagieren und sichert so in letzter Konsequenz auch unser Überleben. Diese Interaktion ist dann als erfolgreich zu bewerten, wenn unsere Handlungen in Bezug auf die gegebenen Umweltanforderungen angemessen sind. In diesem Zusammenhang ist es wichtig, die Verbindung zwischen Handlungen und perzeptorischen Kategorien zu sehen: Kategorien sind die Grundlage für Entscheidungsprozesse, und ohne Entscheidungsprozesse kann es nicht zu (gezielten) Handlungen kommen. Insofern besteht für das handelnde Individuum die Notwendigkeit, seine externe (d.h. distale, vgl. Goldstein 2002) Welt in perzeptorischen Kategorien zu organisieren. Handel (1986:3) sagt beispielsweise mit dem Verweis auf Noble (1983): „We hear and see things and events that are important to us as individuals, not sound waves or light rays“ (vgl. auch die „lebensrelevante Umgebung” bei Heider 1930:381). Das heißt, unabhängig vom Kategoriensystem des Individuums (oder einer Gruppe von Individuen) gibt es weder Autos, Häuser und Pferde noch Wörter oder sprechmelodische Zeichen25. Diese bedeutungsvollen, handlungsbestimmenden Kategorien sollen in den nachfolgenden Ausführungen als Entitäten bezeichnet werden. Der Begriff der Entität wird aus zwei Gründen verwendet. Erstens ist er konzeptuell weniger vorbelastet als zum Beispiel der Objektbegriff, der durch seine häufige Verwendung im alltäglichen Sprachgebrauch und in der Fachliteratur unterschiedlicher theoretischer Ausrichtungen bereits stark schillert. Darüber hinaus erscheint es für die nachfolgenden Ausführungen auch sinnvoll, einen Terminus zu verwenden, der hinsichtlich der Wahrnehmungsmodalität neutral ist. Das heißt, anstelle für die visuelle und auditive Wahrnehmung verschiedene Termini wie etwa Objekt bzw. Ding und Ereignis zu verwenden, wie es in dem vorangegangenen Zitat von Handel (1986) geschehen ist (vgl. auch Julesz und Hirsh 1972), wird modalitätsübergreifend von Entitäten gesprochen. Entsprechend umfasst der Entitätsbegriff auf der einen Seite Autos, Häuser und Pferde sowie deren Bestandteile wie zum Beispiel Fenster, Türen, Räder und Beine. Auf der anderen Seite sind auch Melodien, gesprochene Wörter und sprechmelodische Zeichen sowie deren Bestandteile Entitäten.
_____________ 25
In diesem Zusammenhang ist hervorzuheben, dass diese Auffassung nicht im Widerspruch dazu steht, dass – wie in 1.1 erläutert – prinzipiell Abbilder bedeutungstragender sprachlicher Einheiten über die Stadien der speech chain hinweg beobachtet und beschrieben werden können, da derartige Handlungen immer von internen Kategorien des Untersuchenden ausgehen müssen.
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
231 231
Aus der vorangegangenen Aufzählung ist bereits ablesbar, dass Entitäten im Kopf des perzipierenden Individuums gleichermaßen durch phänomenale wie durch funktionale Eigenschaften konstituiert sein müssen. Goldstein (2002:183) fasst dementsprechend zusammen: „Wahrnehmen ist das Erkennen von Gegenständen im Zusammenhang mit ihrer Funktion“. Hinsichtlich der phänomenalen Spezifikationen differenziert Goldstein (2002:188) ferner zwischen „wahrnehmungsnahen“ und „komplexeren kognitiven Kategorien“. Die phänomenalen Spezifikationen sprachlicher Entitäten bilden deren phonologische Form. Für eine erfolgreiche Interaktion mit der Umwelt ist es jedoch nicht nur essentiell, dass die Umwelt als Kategoriensystem repräsentiert wird26. Entscheidend ist, dass eine Verbindung zwischen den eingehenden (d.h. proximalen, vgl. Goldstein 2002) Reizen und den Entitäten hergestellt wird. Das heißt, die bedeutungsvollen, handlungsbestimmenden Entitäten müssen erkannt und gegeneinander abgegrenzt werden. Insofern stellt die Wahrnehmungsleistung, die im Rahmen der Sprechmelodie zu erbringen ist und die sich aus den beiden in prozessoraler Hinsicht miteinander verwobenen Komponenten Identifikation und Separation konstituiert, ein primäres Ziel der Wahrnehmung im allgemeinen dar. Identifikation meint in dem zuvor dargelegten Ansatz, dass proximale Reize auf die bedeutungsvollen kognitiven Kategorien der Entitäten projiziert werden (Im Rahmen der Sprache kann der Vorgang der Identifikation mit Dekodierung gleichgesetzt werden). Angesichts der hierbei auftretenden und im weiteren Verlauf noch geschilderten Probleme ist allerdings davon auszugehen, dass die Elemente des proximalen Reizmusters nicht direkt auf Entitäten projiziert werden. Vor der Projektion werden die Reizelemente noch in verschiedener Hinsicht verarbeitet. Hieraus folgt, dass sich die verarbeiteten Reizelemente (die ggf. verschiedenen Zwischenstufen der Verarbeitung zugeordnet werden können, vgl. 5.5) von den proximalen Ursprungsreizen unterscheiden. Um diesen Unterschied auch terminologisch zu berücksichtigen, werden die im Rahmen des Wahrnehmungsprozesses verarbeiteten Reizelemente als Wahrnehmungselemente bezeichnet. Das heißt, Wahrnehmungselemente sind alle Elemente, die im Laufe der Verarbeitung aus den rezipierten Reizelementen entstehen und Bestandteile des endgültigen Perzeptes sein werden. Dies schließt grundsätzlich auch mit ein, dass Wahrnehmungselemente mit den phänomenalen Spezifikationen von Entitäten kongruent
_____________ 26
An dieser Stelle soll nicht weiter auf die Frage eingegangen werden, wie die Kategoriensysteme im Individuum zustande kommen, ob sie zum Beispiel angelegt sind oder erworben werden oder ob beides zu einem bestimmten Teil zutrifft. Diese Frage wird in der Literatur kontrovers diskutiert (vgl. Sodian 2002).
232 232
Der WegEinleitung zu einer Theorie
sein können. Der Entitätsbegriff bezeichnet aber darüber hinaus auch eine bedeutungsvolle (d.h. eine funktional spezifizierte) Einheit. Um die Probleme, die mit dem Wahrnehmungsziel der Identifikation verbunden sind, klarer vor Augen führen zu können, ist es in einem ersten Schritt dennoch hilfreich, Umwelt und Entitäten unmittelbar gegenüberstellen. Aus diesem Grund sind die nachfolgenden Ausführungen zur Identifikation zunächst dahingehend vereinfacht, dass proximale Reize direkt auf Entitäten bezogen werden. Eines der Probleme, mit der die visuelle und auditive Wahrnehmung hinsichtlich der Identifikation gleichermaßen konfrontiert ist, besteht darin, dass Entitäten mehr als eine einzige proximale Manifestation haben können. Das heißt, es existiert Variation. In der visuellen Wahrnehmung beispielsweise entstehen variable Reizmuster einer Entität durch unterschiedliche Perspektiven des Betrachters sowie durch unterschiedliche Lichtverhältnisse und Entfernungen. In Verbindung mit der Entfernung verändert sich nicht nur die Größe des distalen Reizes und damit verbunden die Größe von dessen Abbild auf der Retina des Auges, auch die Zusammensetzung des Farbspektrums wird dadurch beeinflusst (vgl. Goldstein 2002). Damit die Interaktion mit der Umwelt funktioniert, müssen diese sehr unterschiedlichen Reizmuster jedoch immer als die gleiche Entität „gesehen“ werden. Auch in der auditiven Wahrnehmung kann sich die Schallquelle in unterschiedlicher Entfernung zum Hörer befinden. Analog zur visuellen Wahrnehmung verändert sich hierbei neben dem Schalldruckpegel des (komplexen) Signals auch dessen Frequenzspektrum, und zwar in der Weise, dass mit zunehmender Entfernung höherfrequente Bestandteile des Signals schwächer werden (vgl. Goldstein 2002). Diese entfernungsbedingten Veränderungen, insbesondere die spektralen, sind auch für die Sprachwahrnehmung relevant. Darüber hinaus entsteht spektrale Variation in der Sprache auch in Verbindung mit einer alters- und geschlechtsspezifischen Anatomie des supraglottalen Sprachtraktes (Ansatzrohr, vgl. z.B. Traunmüller 1984, 1985; Simpson 1998). Sprachliche Äußerungen können des weiteren mit unterschiedlichen Sprechgeschwindigkeiten gesprochen werden, was erstens zu nicht-linearen Veränderungen in der Dauerstruktur und zweitens zu unterschiedlich präzisen bzw. umfangreichen Artikulationsbewegungen führt (vgl. Klatt 1979; Laver 1994). Wie in 3.2 ausgeführt wurde, spielt die segmentelle Dauerstruktur auch bei der Variation sprechmelodischer Muster eine Rolle. Hinsichtlich der Variation in sprechmelodischen Mustern sind ferner gruppenspezifische Eigenschaften wie das Alter und Geschlecht von Sprechern zu berücksichtigen, die das F0-Niveau betreffen. Variationen im F0-Verlauf sprechmelodischer Muster entstehen zudem durch mikroprosodische Effekte bei der Einbet-
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
233 233
tung in unterschiedliche lautliche Kontexte (vgl. Kohler 1990). Letztlich sind auch koartikulatorische Effekte zu berücksichtigen (vgl. Menzerath und de Lacerda 1933; Öhman 1966, 1967; Farnetani 1997. Im Hinblick auf derartige Variationsquellen wurde in 1.1 die Vorstellung von der lautsprachlichen Kommunikation als Übertragung transformierter Abbilder bedeutungstragender Einheiten entwickelt. Ein Beispiel, an dem sich die große phonetische Variationsbreite bedeutungstragender sprachlicher Einheiten exemplifizieren lässt, ist das Wort „eigentlich“, das von Kohler (2001a) im Rahmen einer Analyse spontansprachlicher Korpusdaten untersucht wurde. Er findet, dass die kanonische Realisierung des Wortes als [!C+IPVN+%] unter allen 68 Fällen im Korpus kein einziges Mal auftritt. Stattdessen findet er Varianten, die von [!C+I0VN+%] bis [C+0+] reichen und die sich in Form unterschiedlicher Synchronisationen und Reorganisationen der Öffnungs- und Schließbewegungen der aktiven Artikulatoren im Ansatzrohr begreifen lassen. In Anlehnung an diese Befunde von Kohler zeigt Abbildung 40 die Oszillogramme und Spektrogramme zweier Varianten des Wortes „eigentlich“, die vom Autor (on) produziert wurden und die einen Eindruck von der Variation vermitteln, mit der die auditive Wahrnehmung bei der Identifikation sprachlicher Entitäten konfrontiert ist. Links ist die kanonische Realisierung dargestellt, rechts eine zu [!C+P+%] reduzierte Variante, die zudem homophon mit der kanonischen Realisierung des Wortes „einig“ ist.
Abbildung 40: Phonetische Variation am Beispiel der Oszillogramme und Spektrogramme des Wortes „eigentlich“. Die linke Darstellung (a) zeigt die kanonische Realisierung [!C+IPVN+%], die rechte Darstellung (b) zeigt die reduzierte Variante [!C+P+%], die homophon mit der kanonischen Form von „einig“ ist.
234 234
Der WegEinleitung zu einer Theorie
Ein weiteres Problem kann als teilweise Verdeckung von Entitäten beschrieben werden. Im Rahmen der visuellen Wahrnehmung kommt dieses Problem wie folgt zustande. Auf der einen Seite ist die uns umgebende Materie, die distale Reize repräsentiert, (in der Regel) nicht transparent und der Betrachter kann zu einer Zeit immer nur eine begrenzte Perspektive auf diese nicht transparente Materie einnehmen. Diesen beiden limitierenden Faktoren stehen auf der anderen Seite Entitäten gegenüber, die in einer bestimmten Weise phänomenal spezifiziert sind. Aufgrund der limitierenden Faktoren ist es nun aber a priori ausgeschlossen, dass sich die Gesamtheit der phänomenalen Spezifikationen einer Entität im proximalen Reiz simultan abbilden kann, da die zu den phänomenalen Spezifikationen einer Entität gehörige Materie sich sowohl teilweise selbst verdeckt als auch durch andere Materie, die zum Beispiel weiteren Entitäten zugeordnet werden kann, teilweise verdeckt wird. In der Folge kann eine Entität im Rahmen der visuellen Wahrnehmung nicht immer anhand der gleichen phänomenalen Spezifikationen identifiziert werden. Das Reizmuster aus Abbildung 41 illustriert die beschriebene teilweise Verdeckung. In der Abbildung wird ein Pferd hinter einem Zaun wahrgenommen. Es ist anzunehmen, dass der Betrachter mit der Entität ‚Pferd’ einen kohärenten Körper mit bestimmten Formmerkmalen verbindet (und darüber hinaus vermutlich auch eine bestimmte Farbpalette und Oberflächentextur)27. Diese zur phänomenalen Spezifikation der Entität ‚Pferd’ gehörigen Eigenschaften sind jedoch im Reiz nicht vollständig enthalten. Es sind nur Fragmente enthalten. Dennoch wird aufgrund dieser Fragmente ein Pferd identifiziert28. Insgesamt gesehen, besteht das Perzept aus einem Pferd, das hinter einem Zaun entlangläuft. Diese Interpretation auf den distalen Reiz zurückführend, würden sich (sofern die Augen des Betrachters fixiert bleiben) permanent neue Reizmuster ergeben, die der Betrachter alle als (Varianten der Entität) ‚Pferd’ identifizieren muss.
_____________ 27
Den Umstand ausnutzend, dass Entitäten häufig auch durch symbolhafte sprachliche Zeichen repräsentiert sind, wird die phänomenale Spezifikation von Entitäten z.B. aus einer sprachlichen Perspektive heraus in der Prototypensemantik erforscht (vgl. Taylor 1989; Aitchison 1994). Psychologische Ansätze wie die auf elementaren Geonen basierende Theorie von Biederman (1987) werden bei Goldstein (2002) thematisiert. In einem sprachlichen Rahmen ist es Aufgabe der Phonologie, die phänomenalen Spezifikationen sprachlicher Entitäten zu bestimmen.
28
Selbst wenn Materie transparent und demzufolge alle phänomenalen Spezifikationen der Entität ‚Pferd’ im proximalen Reiz enthalten wären, bliebe eine Diskrepanz zwischen den wohl dreidimensionalen phänomenalen Spezifikationen der Entität ‚Pferd’ und dem zweidimensionalen proximalen Reiz bestehen. Dieses weiterführende Wahrnehmungsproblem wird jedoch an dieser Stelle nicht weiter vertieft (vgl. hierzu z.B. Goldstein 2002 und Hoffman 2003).
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
235 235
Abbildung 41: Wahrnehmung eines Pferdes hinter einem Zaun. Eine Menge von Reizelementen wird als zusammenhängende Entität „Pferd“ erkannt, wobei ein Großteil des dazugehörigen Körpers durch sich selbst und den Zaun im Vordergrund verdeckt ist. Die Abbildung stammt aus Bregman (1990).
In den Ausführungen zu Abbildung 41 sind zwei wichtige Aspekte angeklungen. Erstens ist es aufgrund der Beschaffenheit der uns umgebenden Materie in Kombination mit der begrenzten Perspektive des Betrachters auf der einen Seite und der Entitätenwelt des Betrachters auf der anderen Seite zwar ein Axiom, dass teilweise Verdeckung von Entitäten als Phänomen in der visuellen Wahrnehmung prinzipiell existieren muss. Andererseits ist teilweise Verdeckung im jeweiligen Einzelfall eine post festum getroffene Schlussfolgerung des Betrachters, die insbesondere auf der Identifikation der beteiligten Entitäten basiert (und mit der entsprechende Erwartungen einhergehen). Letzteres lässt zweitens erkennbar werden, dass die in Verbindung mit teilweiser Verdeckung stehenden Anforderungen an den Wahrnehmungsapparat über die davor erläuterten Variationsprobleme konzeptuell hinausgehen, da es hierbei nicht nur um die Projektion variabler Reizmuster auf Entitäten geht, sondern darüber hinaus auch um die Einordnung von (variablen) Reizmusterelementen als Bestandteile der gleichen Entität. Obwohl somit Separationsaspekte eine Rolle spielen, kann teilweise Verdeckung in erster Linie als ein Identifikationsproblem betrachtet werden. Wenn im Rahmen der visuellen Wahrnehmung auf teilweise Verdeckung zwischen zwei oder mehreren Entitäten geschlossen wird, dann sind die als verdeckt interpretierten Bestandteile der Entitäten auch im proximalen Reiz nicht enthalten. Man kann insofern von einer prärezeptiven Verdeckung sprechen. Eine solche prärezeptive Verdeckung gibt es in der auditiven Wahrnehmung in der Regel nicht. Die zu dieser Modalität gehörenden distalen Reize überlagern sich im akustischen Signal und sind dementsprechend auch im proximalen Reiz immer präsent. Mit dieser Überlagerung geht jedoch in der auditiven Wahrnehmung vielfach ein Phänomen einher, das in der Literatur zumeist unter dem Be-
236 236
Der WegEinleitung zu einer Theorie
griff der Maskierung behandelt wird. Maskierung ist die Folge physiologischer Beschränkungen bei der Reizaufnahme und den ersten Schritten der Reizverarbeitung. Diese Beschränkungen hängen unter anderem zusammen mit den rezeptiven Feldern der entlang der Basilarmembran liegenden Haarzellen, dem Schwingungsverhalten der Basilarmembran und der Einteilung der Basilarmembran in Bereiche, in denen Frequenzkomponenten bzw. deren akustische Energie integriert wird (critical bands, vgl. hierzu z.B. Handel 1986; Moore 1997). Maskierte Signalbestandteile gehen dementsprechend nicht in die weitere Reizverarbeitung ein. So kann beispielsweise ein Signal A ein anderes Signal B teilweise maskieren, wenn die Frequenzkomponenten von A ähnliche Werte aufweisen wie die von B, allerdings mit einem größeren Schalldruck. Darüber hinaus kann sich ein Signal, wenn seine Frequenzkomponenten dicht beieinander liegen und ein entsprechendes Schalldruckmuster aufweisen, auch teilweise selbst maskieren (siehe hierzu Zwicker und Feldtkeller 1967; Moore 1997). Wird aufgrund dieser Maskierung beim Hörer auf eine teilweise Verdeckung (des Signals) einer Entität geschlossen, kann dies im Gegensatz zur prärezeptiven Verdeckung der visuellen Wahrnehmung als postrezeptive Verdeckung klassifiziert werden. Handel (1986:315) betont „masking is an important factor in the perception of speech sounds“. So haben beispielsweise die stochastischen Signalabschnitte nach der Lösung eines Verschlusslautes ebenso wie jede Formantfrequenz das Potential, andere Elemente des komplexen Sprachsignals zu maskieren. Miller et al. (1976) und Pisoni (1977) vertreten diesbezüglich zum Beispiel die Auffassung, dass es sich bei den kategorialen Wahrnehmungsveränderungen im Bereich der stimmhaft-stimmlos-Dichotomie von Plosiven (die auf Basis von VOT-Kontinua gefunden wurden) nicht um einen psychophonetischen Effekt der Organisation des Sprachsignals handelt, sondern um ein psychoakustisches Phänomen, das auf Maskierung basiert. Die bisherigen Ausführungen haben sich in erster Linie mit Identifikationsproblemen auseinandergesetzt. Im Rahmen der teilweisen Verdekkung in der visuellen und auditiven Wahrnehmung ist jedoch bereits angeklungen, dass Separationsprobleme ebenfalls eine zentrale Stellung einnehmen. Beispielsweise bedingt die Interpretation von Abbildung 41 als ein Pferd hinter einem Zaun, dass die Wahrnehmungselemente, die zum Pferd gehören von denjenigen separiert werden, die zum Zaun gehören. Hierbei wird die bereits genannte konzeptuelle Interrelation von Identifikation und Separation offenbar. Innerhalb der Separation können ferner verschiedene Probleme und somit verschiedene Separationstypen differenziert werden. In der visuellen Wahrnehmung gibt es das Problem, dass im zweidimensionalen Reizmuster auf der Retina sinnvolle Grenzen zwischen Reizelementen gezogen
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
237 237
werden müssen. Sinnvoll können Grenzen insofern sein, als dass dadurch Wahrnehmungselemente gebildet und Entitäten identifiziert werden, die ein angemessenes Handeln nach sich ziehen. Das Pendant hierzu in der auditiven Wahrnehmung ist nicht räumlicher, sondern zeitlicher Natur. In der Sprachwahrnehmung muss beispielsweise in gewissem Umfang eine Segmentierung des Signals stattfinden, um die bedeutungstragenden Einheiten (Morpheme und sprechmelodische Zeichen) identifizieren zu können. Ob diese Segmentierung, wie es für den lautlichen Kanal vielfach angenommen wird (vgl. z.B. Goldstein 2002; Handel 1986; Julesz und Hirsh 1972), tatsächlich bis auf die Ebene des einzelnen Lautsegmentes (also bis auf die Phonemebene) stattfindet, erscheint allerdings fragwürdig, denn die Erkennung jedes einzelnen Segmentes ist für die Erkennung der bedeutungstragenden Einheiten in der Regel nicht erforderlich, ganz abgesehen davon, dass das Segment selbst ohnehin ein umstrittenes Konzept ist (vgl. Fußnote 4 in 1.3.2). Hinweise darauf, dass eine gewisse Segmentierung aber wirklich stattfindet, ergeben sich aus dem Phänomen, wonach Muttersprachler in ihrer Sprache Abfolgen von Wörtern wahrnehmen, die sogar durch eine kurze Pause getrennt zu sein scheinen, während anderssprachige Hörer nur einen kontinuierlichen Sprechfluss perzipieren (vgl. hierzu Goldstein 2002; Gregory 1998). Lindblom (1990:408) schreibt mit Bezug auf das Anfertigen phonetischer Transkriptionen entsprechend: „as soon as the speech sample comes from an unkwown language subjects tend to differ more widely both with respect to segmentation and quality judgements“. Ein vergleichbares Phänomen existiert in der musikalischen Wahrnehmung zwischen Tönen (vgl. Handel 1986). Das eigentliche Problem bei der räumlichen bzw. zeitlichen Separation, die allgemein als syntagmatische Separation typologisiert werden kann, ist es demzufolge, dass sich die Bildung von Wahrnehmungselementen und die Identifikation von Entitäten weder im akustischen Signal noch im Reizmuster auf der Retina auf eine eindeutige und scharfe Begrenzung zwischen Reizelementen stützen kann. Handel (1986:185) sagt entsprechend, „the acoustic wave is a smear“ und demzufolge „inherently ambiguous“. Für Sprachsignale zeigen dies beispielsweise die Analysedarstellungen der Äußerung „Sie’s mal Malerin gewesen“ (Abb. 16 in 4.1.1) und der phonetischen Varianten von „eigentlich“ (Abb. 40) sehr deutlich. Für den Bereich der visuellen Wahrnehmung stellt Goldstein (2002) das Problem am Beispiel der Abbildung 42 dar. Im Zentrum dieses Bildes wird ein Kuppeldach wahrgenommen. Um die Entität ‚Kuppeldach’ zu perzipieren, dürfen die Bereiche unterschiedlicher Helligkeit, die innerhalb der Dachoberfläche bestehen, nicht voneinander abgegrenzt und unter-
238 238
Der WegEinleitung zu einer Theorie
schiedlichen Entitäten zugeordnet werden, obwohl die Helligkeitsunterschiede und die damit zusammenhängenden Veränderungen in den messbaren physikalischen Parametern des Reizes, die über die Rezeptoren auf der Retina hinweg auftreten, ähnlich ausgeprägt und abgestuft sind wie die zwischen (den perzipierten Entitäten) ‚Kuppeldach’ und ‚Himmel’.
Abbildung 42: Im Zentrum des Bildes wird die Entität ‚Kuppeldach’ perzipiert. Die Separation der Reiz- bzw. Wahrnehmungselemente und deren Identifikation als ‚Kuppeldach’ und ‚Himmel’ kann nicht einfach auf Helligkeitsunterschiede bzw. auf Veränderungen in den dazugehörigen physikalischen Korrelaten begründet sein, da diese in ähnlicher Ausprägung und Abstufung auch innerhalb der als Kuppeldach und Himmel identifizierten Elemente bestehen. Die Abbildung stammt aus Goldstein (2002).
In dem Umstand, dass die syntagmatische Separation in der visuellen Wahrnehmung eine räumliche ist, der in der auditiven Wahrnehmung eine zeitliche gegenübergestellt werden kann, deutet sich ein grundlegender Unterschied zwischen der auditiven und visuellen Wahrnehmung an. In der auditiven Wahrnehmung werden die Entitäten über die Zeit perzipiert, während sie in der visuellen Wahrnehmung zeitgleich auftreten. Jakobson (1964:218) beschreibt diesen Unterschied mit Bezug auf Schriftzeichen und ihre sprachliche Realisierung wie folgt: „A complex visual sign involves a series of simultaneous constituents, while a complex auditory sign consists [...] of serial sucessive constituents“. Dieser Unterschied wird im weiteren Verlauf der Ausführungen noch von Bedeutung sein. Die syntagmatische Separation bezieht sich auf die Abgrenzung von Reiz- oder Wahrnehmungselementen innerhalb der gleichen räumlichen oder zeitlichen Ebene. Sie ist insofern eindimensional. Hiervon zu unterscheiden ist eine Separation, bei der Elemente auf verschiedene Ebenen gegliedert werden, zum Beispiel auf verschiedene räumliche Tiefenebenen oder auf verschiedene Zeitstränge. In der auditiven Wahrnehmung gehört zu den Problemen, auf die dieser Separationstyp abzielt, vor allem die Aufgliederung sich auf distaler Ebene überlagernder Signale, die auf verschiedene Schallquellen zurückgehen. Doch akustische Signale können
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
239 239
nicht nur durch akustische Signale anderer Schallquellen überlagert werden. In geschlossenen Räumen treten Reflexionen des akustischen Signals einer Schallquelle auf, die sich mit dem Ursprungssignal überlagern. Beim Hörer entsteht so das Problem, das Ursprungssignal (den Primärschall) von Überlagerungen seiner selbst (dem reflektierten Schall) zu separieren (vgl. die Ausführungen zur adaptiven Echoschwelle bei Goldstein 2002). Diese Separation ist nicht nur für die Erkennung des akustischen Signals als eine bestimmte Entität relevant. Der Primärschall ist für die Lokalisation der Schallquelle wichtig (Präzedenzeffekt von Wallach et al. 1949), und das Verhältnis zwischen der Lautstärke von Primärschall und reflektiertem Schall dient der Entfernungsbestimmung zwischen Hörer und Schallquelle (vgl. hierzu Goldstein 2002). Bei Bregman (1990) findet sich unter dem Titel der auditory scene analysis eine umfangreiche und vielbeachtete Beschreibung von Separationsproblemen und Strategien aus dem Bereich der auditiven Wahrnehmung. Im Rahmen von Separation muss letztlich ein Problemkreis angesprochen werden, der insofern über die bislang dargestellten Separationsprobleme hinausgeht, als dass hierbei auch Aspekte der Aufmerksamkeitssteuerung hereinkommen und der als Herauslösen von Wahrnehmungselementen aus einer Menge von übrigen Wahrnehmungselementen beschrieben werden kann. Auf diese Weise wird im Rahmen der Verarbeitung des Reizmusters eine grundlegende Ordnung hergestellt, die für die Identifikation von Entitäten essentiell ist. Im Rahmen der auditiven Wahrnehmung ermöglicht es das genannte Herauslösen beispielsweise, in einem mehrstimmigen Musikstück die Melodie einer Stimme zu verfolgen oder die Äußerungen eines Dialogpartners zu verstehen, wenn gleichzeitig noch viele weitere Gespräche stattfinden (vgl. cocktail party effect bei Handel 1986). Ein derartiges Herauslösen bestimmter Elemente ist auch in der visuellen Wahrnehmung von großer Bedeutung. Julesz und Hirsh (1972:295) schreiben in diesem Zusammenhang: „The very essence of visual perception is to find a certain object amid a vast number of unimportant ones“. Vor diesem Hintergrund ist es auch zu sehen, dass die Beschäftigung mit diesem Problemkreis von der visuellen Wahrnehmung ausging. Entsprechend haben sich für die herausgehobenen Elemente auf der einen und die residualen Elemente auf der anderen Seite die Begriffe Figur und Grund durchgesetzt. Die Abtrennung selbst wird dementsprechend als Figur-Grund-Trennung bezeichnet. Populäre Beispiele hierfür aus der visuellen Wahrnehmung sind die Bilder von Schröder (1858) und Rubin (1915), bei denen der Betrachter zwischen mehreren Figur-Grund-Trennungen hin und her wechseln kann. Sie sind beide in Abbildung 43 dargestellt. Im Falle der Schröder-Treppe
240 240
Der WegEinleitung zu einer Theorie
(Abb. 43a) kann zum einen die weiße Fläche unten links das Fundament (die Figur) sein, in das die Stufen eingelassen sind. In diesem Fall befinden sich die beiden eingezeichneten Punkte auf einer Stufe. In einem alternativen Perzept kann die weiße Fläche oben rechts, die zuvor der Hintergrund war, als das Fundament gesehen werden, in das die Stufen eingelassen sind. In diesem Fall befinden sich die beiden Punkte auf verschiedenen Treppenstufen. In der Abbildung 43(b) auf der rechten Seite können entweder ein weißer Kelch (als Figur) vor einem schwarzen Hintergrund oder aber zwei schwarze einander zugewandte Gesichter im Profil (als Figur) vor einem weißen Hintergrund gesehen werden.
Abbildung 43: Links (a) die Schröder-Treppe und rechts (b) der Rubin-Kelch. Beide Abbildungen lassen zwei unterschiedliche Figur-Grund-Trennungen zu. Die Abbildungen wurden aus Hoffman (2003) übernommen.
In der vorangehenden Beschreibung der Perzepte wurde bereits ein weiteres Charakteristikum der Figur-Grund-Trennung angedeutet. Es ist sehr schwer – wenn nicht unmöglich – beide wahrnehmbaren Figuren in den Abbildungen 43(a) und (b) gleichzeitig zu sehen. Während einer Figurwahrnehmung erscheint der Rest des Bildes als „ungeformtes“ Material hinter der Figur. Ebenso wie in der visuellen Wahrnehmung immer nur eine Figur „ins Auge gefasst“ wird, kann auch in der auditiven Wahrnehmung nur eine Figur zurzeit „zu Ohren kommen“. Während eine Stimme eines mehrstimmigen Musikstücks verfolgt wird, werden die übrigen Stimmen zu ungeformtem Material im Hintergrund, und während auf einer Cocktailparty dem Dialogpartner zugehört wird, kann der Inhalt der übrigen Gespräche nicht verstanden werden. Indes sind einfachere Wahrnehmungsleistungen wie die Lokalisation des Sprechers oder die Identifikation seines Geschlechts immer möglich (vgl. Julesz und Hirsh 1972). Experimentelle Untersuchungen zeigen zudem, dass im Bereich der Sprachwahrnehmung auch darüber hinausgehende Leistungen bestimmter Art unter bestimmten Bedingungen vorkommen. So hat Moray (1959) im Rahmen einer Untersuchung zum dichotischen Hören beispielsweise gefunden, dass Versuchspersonen in dem Kanal, der nicht als auditive Figur
Zum Begriff der Sprechmelodie Ziele der Wahrnehmung
241 241
gewählt wurde, ihre eigenen Namen erkennen konnten. Andere Untersuchungen legen nahe, dass in sprachlichen Äußerungen, die den Grund darstellen, Wörter dann erkannt werden konnten, wenn sie in den (semantischen oder situativen) Kontext passten (vgl. Treisman 1960). Zusammenfassend wurde aus der Darstellung der in diesem Abschnitt aufgeführten Probleme erkennbar, dass modalitätsunabhängig keine eineindeutige Beziehung zwischen den Reiz- bzw. Wahrnehmungselementen und den bedeutungsvollen, handlungsbestimmenden Entitäten besteht, auf die diese Elemente projiziert werden. Diese prinzipielle Ambiguität, die zu einem Teil durch die Beschaffenheit der Umwelt bzw. der in ihr enthaltenen distalen Reize und zu einem anderen Teil durch die Beschränkungen des Wahrnehmungsapparates determiniert wird, ist die Quelle für alle genannten und grob typologisierten Probleme. In der Konsequenz bedeutet dies, Wahrnehmung beinhaltet im wesentlichen die Vorverarbeitung (d.h. insbesondere die Aufbereitung) und die Interpretation der ankommenden Reize, und das Perzept im Sinne des letztlich bewusst gewordenen Eindrucks repräsentiert eine Selektion aus indefinit vielen möglichen Interpretationen. Dem zweigliedrigen Konzept der Wahrnehmung, das hier vertreten wird, entsprechend, definieren Julesz und Hirsh (1972:285) Perzeption als „the process whereby a living organism receives and interprets information about the surrounding world“. Zimbardo (1995:159) definiert das Perzept als im Sinne der vorliegenden Arbeit „das, was wahrgenommen wird. Es ist weder der physikalische Gegenstand (distaler Reiz) noch sein Abbild in einem Rezeptor (proximaler Reiz). Vielmehr handelt es sich um das erfahrene (phänomenale) Ergebnis des gesamten Wahrnehmungsprozesses, der so unterschiedliche psychische Vorgänge wie Zusammenfügen, Urteilen, Schätzen, Erinnern, Vergleichen und Assoziieren umfaßt“. 29
_____________ 29
Aus diesen Ausführungen geht hervor, dass Identifikation in der Konzeption der vorliegenden Arbeit, was ihre grobe Einordnung in den Prozess der Wahrnehmung anlangt, im Rahmen der Interpretation stattfindet (auf den Prozess der Wahrnehmung wird in 5.5 detaillierter eingegangen). Es wird somit die Auffassung vertreten, dass das Perzept auf die Identifikation (sofern diese möglich ist) folgt und nicht als Projektionsgrundlage für die Identifikation dient. Das Perzept steht am Ende des Wahrnehmungsprozesses. Damit wird unter anderem dem Umstand Rechnung getragen, dass identifizierte Entitäten das Perzept beeinflussen können. Einige dahingehende Befunde werden in Fußnote 32, S. 263, beschrieben. Die vertretene Auffassung lässt sich ferner bereits aus der Rolle der Wahrnehmung als Bindeglied zwischen der Umwelt und dem handelnden Individuum ableiten. Damit die Wahrnehmung diese Rolle ausüben kann, ist es eine Voraussetzung, dass das bewusste Ergebnis der Wahrnehmung, das Perzept, Entitäten enthält, aus denen dann Entscheidungen und Handlungen folgen können. Dies kam bereits im ersten Teil (A) der Arbeit zum Beispiel durch Formulierungen zum Ausdruck, wonach bestimmte F0-Gipfel als bestimmte sprechmelodische Zeichen perzipiert werden.
242 242
Der WegEinleitung zu einer Theorie
Das damit skizzierte Bild der Wahrnehmung, das am Ende des Kapitels in 5.5 noch weiter ausgeführt wird, entspricht dem Bild der Wahrnehmung in der Tradition von Helmholtz, der Wahrnehmung als einen unbewussten Schluss konzeptualisiert hat. Es gilt für die Wahrnehmung im allgemeinen und steht der behavioristischen Auffassung im Sinne von Watson (1930) entgegen (Gregory 1998 gibt eine Gegenüberstellung beider Paradigmen der Wahrnehmung). Hiermit im Einklang konstatiert Hoffman (2003:10) für die visuelle Wahrnehmung: „Sehen ist nicht nur ein Vorgang passiver Resorption, sondern ein intelligenter Prozess aktiver Konstruktion“. Analog dazu unterstreicht Handel (1986:212) für die auditive Wahrnehmung den „problem-solving aspect of listening“. Darüber hinaus wurde in diesem Abschnitt deutlich, dass auditive und visuelle Wahrnehmung vergleichbare Probleme zu bewältigen haben. Die nachfolgenden Abschnitte werden zeigen, dass in solchen Fällen, in denen vergleichbare Probleme bestehen, sich beide Modalitäten auch vergleichbarer Strategien und Mechanismen bedienen, um diese Probleme anzugehen. Dabei werden zunächst Kontrastmechanismen und Gestaltgesetze als zwei essentielle und aufeinander aufbauende Komponenten in der Wahrnehmung ins Auge gefasst, die im Schwerpunkt der Vorverarbeitung zugeordnet werden können. In Verbindung mit den Gestaltgesetzen wird zudem die stetige Aktualisierung des Perzeptes im Rahmen von Konstruktionsschleifen thematisiert, die ebenfalls als ein Charakteristikum der Wahrnehmung anzusehen ist und aus der erkennbar wird, dass in der Wahrnehmung eine weitere Komponente zu berücksichtigen ist, die als Wissen umschrieben werden kann und die im Rahmen der Interpretation hinzutritt.
5.3 Kontrastbildung und Kontrastverstärkung in der visuellen und auditiven Wahrnehmung Kontrast bezeichnet einen relativen Unterschied zwischen gleichartigen Eigenschaften von Reiz- bzw. Wahrnehmungselementen. Kontrastbildung bedeutet demnach, dass die Ausprägungen gleichartiger Eigenschaften von Reiz- bzw. Wahrnehmungselementen in Relation zueinander gesetzt werden. Im Rahmen der Kontrastbildung wird der Kontrast zwischen den gleichartigen Eigenschaften verstärkt. Dies wird in der vorliegenden Arbeit mit Bezug auf die Literatur als Kontrastverstärkung bezeichnet
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
243 243
(Wendt 1989; Gregory 1998; Legewie und Ehlers 1999; Hoffman 2003)30. Wie gezeigt werden wird, ist Kontrastbildung und -verstärkung in erster Linie auf Separationsprobleme ausgerichtet. Unter temporalen, prozessoralen und phänomenalen Gesichtspunkten können verschiedene Kontrasttypen differenziert werden. Nachfolgend werden mit Bezug auf prozessorale und phänomenale Aspekte zwei verschiedene Kontraste vorgestellt. Im Rahmen der visuellen Wahrnehmung beziehen sich die Ausführungen dazu auf den simultanen Helligkeitskontrast. Der erste der beiden Kontrasttypen, auf die in diesem Abschnitt eingegangen wird, steht am Anfang der Reizverarbeitung. Der Kontrastbildung und -verstärkung liegt hier der Mechanismus der lateralen Inhibition zugrunde. Laterale Inhibition beschreibt einen bestimmten Plan für die Verschaltung der Rezeptoren mit den dahinter befindlichen (bipolaren) Nervenzellen. In diesem Schaltplan sind die genannten Nervenzellen nicht nur mit den dazugehörigen Rezeptoren verbunden, wobei eine exzitatorische Reaktion der Rezeptoren an die Nervenzellen weitergegeben wird. Jede Nervenzelle ist überdies mit ihren benachbarten Nervenzellen verbunden. Entscheidend ist dabei, dass diese letztgenannte Verbindung – anders als im Falle der Verbindung mit den Rezeptoren – nicht exzitatorischer, sondern inhibitorischer Art ist. Das heißt, eine exzitatorische Reaktion (eine hohe Feuerungsrate), die von einem Rezeptor an die dazugehörige Nervenzelle weitergegeben wird, veranlasst diese Nervenzelle dazu, die Nachbarzellen in ihrer exzitatorischen Reaktion zu hemmen. Dabei gilt, je stärker die exzitatorische Reaktion einer Nervenzelle ist, desto stärker hemmt sie die exzitatorischen Reaktionen ihrer Nachbarzellen (vgl. hierzu Hartline et al. 1956; Goldstein 2002). Abbildung 44(a) veranschaulicht die beschriebene Verschaltung und die damit einhergehende Interaktion der Nervenzellen. Dargestellt sind 6 Rezeptoren A-F. Die ersten drei dieser Rezeptoren (A, B und C) erhalten einen starken Reiz (in diesem Fall z.B. eine hohe Lichtintensität) und geben dementsprechend eine hohe exzitatorische Reaktion, deren Wert arbiträr auf 100 festgesetzt ist, an die dahinterliegenden dazugehörigen Nervenzellen weiter, die durch weiße Kreise repräsentiert sind. Die anderen drei Rezeptoren (D, E und F) erhalten einen weniger starken Reiz (eine geringe Lichtintensität). Folglich geben sie eine geringere exzitatorische Reaktion mit dem Wert 20 an die ihnen zugeordneten Nervenzellen
_____________ 30
Für das Verständnis der folgenden Ausführungen wird darauf hingewiesen, dass die eingeführte Terminologie von der abweicht, die sich an einigen Stellen in der Literatur findet und in dessen Rahmen zum Beispiel der Begriff des Kontrastes für (perzeptorische) Effekte verwendet wird, die in der vorliegenden Arbeit als Kontrastverstärkungen bezeichnet werden (vgl. z.B. Goldstein 2002). Die in der vorliegenden Arbeit verwendete Terminologie erscheint jedoch mit Blick auf die Literatur am weitesten verbreitet.
244 244
Der WegEinleitung zu einer Theorie
weiter. Weitergehend wird in Abbildung 44(a) arbiträr angenommen, dass das Ausmaß der Hemmung, die jede Nervenzelle auf ihre beidseitig angrenzenden Nachbarzellen ausübt, jeweils 10% der exzitatorischen Reaktion beträgt, die sie vom Rezeptor erhält.
Abbildung 44: In (a) ist der Schaltplan für den Kontrastmechanismus der lateralen Inhibition dargestellt, (b) zeigt die Ausgabe dieses Schaltplans für die hypothetischen Werte aus (a). Die Abbildungsteile wurden modifiziert aus Goldstein (2002) übernommen.
Die beiden unterschiedlichen Reizstärken konstituieren einen Kontrast, der auf Seiten der Rezeptoren durch die Werte 100 und 20 (Abb. 44a) und in der Ausgabe der bipolaren Nervenzellen, die in Abbildung 44(b) dargestellt ist, durch die Werte 80 und 16 repräsentiert wird. In dem in Abbildung 44(b) dargestellten Ausgabemuster ist nun weitergehend zu erkennen, dass die laterale Inhibition zu einer Überzeichnung des Kontrastes an der Grenze der Reizveränderung führt. Der starke Reiz wird im Ausgabemuster weiter verstärkt, während gleichzeitig der schwache Reiz weiter abgeschwächt wird. In der gegebenen numerischen Repräsentation erhöht sich der Kontrast dadurch von den Werten 80/16 auf 88/8. Ursächlich hierfür ist, dass die Nervenzellen, die zu den Rezeptoren C und D gehören, im Gegensatz zu den anderen asymmetrisch (d.h. durch die Werte -2 und -10, vgl. Abb. 44a) gehemmt werden. Das Gesamtmuster in Abbildung 44(b) vermittelt einen Eindruck davon, warum zum Beispiel Gregory (1998:76) die Kontrastverstärkung, die durch die laterale Inhibition im Rahmen der visuellen Wahrnehmung erzielt wird, als „neuronales Verfahren zur Bildverschärfung“ charakterisiert, das zum Auffinden von Grenzen im proximalen Reiz beiträgt, die potentiell für die Identifikation von Entitäten relevant sind. In diesem Zusammenhang ist hervorzuheben, dass die in Abbildung 44(a) dargestellte Verschaltung und die daraus resultierende Ausgabe eine Vereinfachung ist, mit der die Funktionsweise der lateralen Inhibition ver-
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
245 245
deutlicht werden soll. Die tatsächliche Verschaltung ist in vielerlei Hinsicht komplexer. Dies betrifft unter anderem die Verbindung von Rezeptoren und Nervenzellen. In der auditiven Wahrnehmung beispielsweise gibt es zwei verschiedene Rezeptortypen, die inneren und die äußeren Haarzellen. Dabei entfallen auf jede innere Haarzelle mehrere Nervenzellen, sodass die exzitatorischen Reaktionen der inneren Haarzellen divergieren. Im Falle der äußeren Haarzellen ist es gerade umgekehrt. Die Anzahl der äußeren Haarzellen übersteigt die Anzahl an Nervenzellen. Folglich müssen die exzitatorischen Reaktionen der äußeren Haarzellen konvergieren. Ähnliche Komplexität besteht im Bereich der visuellen Wahrnehmung. Hier sind es die Stäbchenzellen, deren exzitatorische Reaktionen in Nervenzellen konvergieren. Dadurch erklärt sich unter anderem die geringere Lichtempfindlichkeit und das reduzierte Auflösungsvermögen der Stäbchen gegenüber den Zapfen (Goldstein 2002; Wendt 1989). Trotz der Vereinfachung, die der Schaltplan in Abbildung 44(a) enthält, gibt dessen Ausgabe den tatsächlichen Wahrnehmungseindruck recht gut wieder. Illustrieren lässt sich dies am Beispiel eines Phänomens, das von Mach (1914) beschrieben wurde und das entsprechend als Mach’sche Bänder bezeichnet wird. Abbildung 45(a) zeigt vier vertikale Balken, die – physikalisch gesehen – eine von links nach rechts abnehmende Lichtintensität aufweisen. Da die Lichtintensität innerhalb jedes Balkens konstant ist, befinden sich die Buchstabenpaare A und B sowie C und D jeweils in einem Bereich des distalen Reizes, der durch identische Lichtintensität gekennzeichnet ist31. Dies ist in Abbildung 45(b) graphisch dargestellt. Die Darstellung der Lichtintensität in Abbildung 45(b) entspricht jedoch nicht dem Wahrnehmungseindruck. Hiernach befindet sich der Buchstabe B in einem dünnen Streifen, der heller ist als die Fläche hinter A, und C befindet sich in einem dünnen Streifen, der dunkler ist als die Fläche hinter D. Abbildung 45(c) gibt dieses Perzept als Helligkeitsverlauf wieder. Diese helleren und dunkleren Streifen, die als Mach’sche Bänder bezeichnet werden, sind eine Folge der lateralen Inhibition der Nervenzellen im Auge. Vor diesem Hintergrund ist auch die Korrespondenz zwischen der graphischen Darstellung des Wahrnehmungseindrucks in Abbildung 45(c) und dem Gesamtmuster der exzitatorischen Reaktionen in Abbildung
_____________ 31
In Verbindung mit Abbildung 45 und den nachfolgenden kontrastbezogenen Abbildungen 46 und 47 ist zu beachten, dass die Qualität der Reproduktion der visuellen Reize in dieser Arbeit nicht so hochwertig ist, dass sich der beschriebene Wahrnehmungseindruck auch für jeden Betrachter immer einstellt. Manchmal ist es dafür hilfreich, die betreffende Abbildung über einen längeren Zeitraum hinweg zu betrachten. In Anbetracht dessen wird darauf verweisen, dass die Abbildungsunterschriften die Quellen angeben, in denen die Originalreize gefunden werden können.
246 246
Der WegEinleitung zu einer Theorie
44(b), das aus der daneben skizzierten Beispielschaltung hervorging, zu beachten.
Abbildung 45: Demonstration der Wahrnehmung Mach’scher Bänder. Der linke Teil (a) der Abbildung besteht aus vier Balken mit unterschiedlicher Lichtintensität. Der mittlere Teil (b) zeigt, dass innerhalb beiden mittleren Balken die Lichtintensität jeweils konstant ist. Dennoch entspricht das Perzept der Darstellung in (c). Über dem Buchstaben B erscheint ein hellerer und über C ein dunklerer vertikaler Streifen, jeweils im Vergleich zu A und D. Die Abbildungsteile stammen aus Goldstein (2002).
In der auditiven Wahrnehmung findet sich der auf lateraler Inhibition basierende Kontrastmechanismus unter anderem in Verbindung mit den Haarzellenrezeptoren entlang der Basilarmembran. Hinsichtlich ihrer Schwingungseigenschaften und der daran geknüpften Güte der Entsprechung zwischen distalen und proximalen Reizen bemerken Julesz und Hirsh (1972:284): „The mechanical frequency tuning is very shallow“. Erste Verarbeitungsprozesse wie die laterale Inhibition „are sharpening the tuning […] (similarly to the Mach bands in vision)“ (Julesz und Hirsh 1972:284) und tragen so zu einem differenzierten Frequenzspektrum bei, das wiederum eine bessere Grundlage für Separationen von Reizelementen (insbesondere der nicht-syntagmatischen Art, vgl. 5.2) und der daran anknüpfenden Gruppierung zu Wahrnehmungselementen bietet und so letztlich auch der Identifikation von Entitäten dient. Goldstein (2002) weist mit Blick auf experimentelle Untersuchungen von Knudsen und Konishi (1978) darauf hin, dass laterale Inhibition auch im Rahmen der Lokalisation von Schallquellen eine Rolle spielt. Insgesamt gesehen, kann die laterale Inhibition als ein am Ausgangspunkt einer Wahrnehmungsleistung bzw. eines Wahrnehmungsproblems stehender Mechanismus angesehen werden, der die Signalqualität für anschließende Verarbeitungsschritte aufbereitet und der als ein in der Neuroanatomie verankerter reizbasierter Automatismus funktioniert. Dieser Kontrasttyp muss von einem weiteren Kontrasttyp abgegrenzt werden. In
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
247 247
der Abbildungen 46 sind Beispiele dieses weiteren Kontrasttyps aus der visuellen Wahrnehmung dargestellt. Abbildung 46(c) zeigt die als BenaryKreuz (Benary 1924) bekannte Flächenkonstellation. In dessen Zentrum steht ein großes dunkles Kreuz. An die obere rechte Ecke des Kreuzes grenzt ein kleineres helleres Dreieck (A) an. Zusätzlich ist in den unteren Bereich des vertikalen Balkens des Kreuzes ein weiteres Dreieck (B) eingelassen, das physikalisch gesehen mit A identisch ist. Das heißt insbesondere, von den Dreiecken A und B geht die gleiche Lichtintensität aus. Dies kann anhand der darüber angeordneten Abbildung 46(a) nachvollzogen werden, wo beide Dreiecke gleich hell aussehen. Im Zusammenhang mit dem dunklen Kreuz in Abbildung 46(c) jedoch wirkt A geringfügig dunkler als B. Es hat also eine Kontrastbildung und -verstärkung stattgefunden. Dieser Effekt tritt insbesondere dann ein, wenn man in das Zentrum des Kreuzes blickt.
B
Abbildung 46: Beispiele für Kontrastverstärkung durch höhere Mechanismen: Das BenaryKreuz (c) und die White’sche Illusion (d). Beide Abbildungsteile stammen aus Goldstein (2002). In (c) erscheint das obere Dreieck A dunkler als das untere Dreieck B. In (d) sind die vertikal ausgerichteten Balken A und B im Kontext des horizontalen Gitters aus schwarzen und weißen Streifen ebenfalls unterschiedlich hell. Balken A ist dunkler als B. Von den Dreiecken und Balken geht jedoch jeweils die gleiche Lichtintensität aus. Dies wird dann erkennbar, wenn die jeweiligen Flächen wie in (a) und (b) ohne die Kontexte des Kreuzes und des Gitters dargestellt sind.
248 248
Der WegEinleitung zu einer Theorie
Die laterale Inhibition kann diesen perzeptorischen Helligkeitsunterschied nicht erklären, denn beide Dreiecke grenzen in gleicher Weise mit den beiden kurzen Seiten (Kathete und Ankathete) an die dunkle Fläche des Kreuzes an (die in ihrer Lichtintensität konstant ist), während sich an die lange Seite (Hypothenuse) jeweils die helle Fläche (ebenfalls mit konstanter Lichtintensität) anschließt. Insofern sind die Umgebungsvoraussetzungen für die laterale Inhibition identisch und die beiden Dreiecke A und B sollten gleich hell erscheinen. In Abbildung 46(d), die von White (1981) entwickelt wurde, tritt sogar eine Helligkeitswahrnehmung ein, die dem nach der lateralen Inhibition zu erwartenden Perzept zuwiderläuft. Im Mittelpunkt der sogenannten White’schen Illusion stehen die rechteckigen grauen Flächenelemente der Muster A und B, die in Abbildung 46(b) wiedergegeben sind. Die Muster A und B sind nicht nur kongruent, auch die Lichtintensität, die von den Flächenelementen ausgeht, ist sowohl innerhalb eines Musters als auch zwischen den Mustern A und B identisch. Dementsprechend wirken sie gleich hell. Die Muster A und B sind in der darunterliegenden Figur von White in ein Gitter aus schwarzen und weißen horizontalen Streifen integriert. Zunächst einmal ist darauf hinzuweisen, dass die Muster A und B in diesem Gitter nicht länger als aus einzelnen Flächenelementen bestehend wahrgenommen werden. Vielmehr werden die Muster A und B als solide zweidimensionale Balken perzipiert. Dabei ist der Balken, dem Muster A zugrundeliegt, anders als in Abbildung 46(b) nun zudem deutlich dunkler als der Balken, der aus Muster B hervorgegangen ist. Dies gilt, obwohl die Flächenelemente des Musters A im Gitter mit ihren langen Seiten an die schwarzen und die Elemente von B mit ihren langen Seiten an die weißen Streifen angrenzen. In diesem Sinne sind die Elemente von A überwiegend von Schwarz und die Elemente von B überwiegend von Weiß umgeben. Angesichts dessen müsste die Ausgabe einer lateralen Inhibition eigentlich zu einem Perzept führen, in dem Balken A heller wirkt als Balken B. Das Gegenteil ist jedoch der Fall. Hinzu kommt, dass sowohl die Dreiecke A und B in Abbildung 46(c), als auch die Balken A und B in Abbildung 46(d) eine gleichmäßige Helligkeit bzw. einen gleichmäßigen relativen Helligkeitsunterschied aufweisen. Bei einer Kontrastbildung und -verstärkung durch laterale Inhibition wäre es – wie es im Falle der Mach’schen Bänder zu beobachten war (vgl. Abb. 45a) – lediglich an den Rändern der Flächen mit unterschiedlicher Lichtintensität zu erkennbaren Helligkeitsunterschieden gekommen. Um die in Abbildung 46(c) und (d) beobachteten Effekte zu verstehen, ist Folgendes in Betracht zu ziehen. Das Dreieck A in Abbildung 46(c) wird nicht als zum Kreuz, sondern als zur hellen Fläche neben dem Kreuz gehörig wahrgenommen. Demgegenüber ist Dreieck B Bestandteil
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
249 249
des dunklen Kreuzes. Vor diesem Hintergrund ist der Bezugsrahmen für die Kontrastbildung im Falle von Dreieck A die helle Fläche und im Falle von Dreieck B das dunkle Kreuz. Da Dreieck A dunkler ist als seine Referenz, wird es durch die Kontrastverstärkung noch dunkler erscheinen. Dreieck B, das heller ist als das Kreuz, wird im Rahmen einer Kontrastverstärkung noch heller wirken. Im Vergleich zwischen den Dreiecken hat dies somit zur Folge, dass Dreieck A dunkler wahrgenommen wird als Dreieck B. In ähnlicher Weise lässt sich auch der Wahrnehmungseindruck in Abbildung 46(d) erklären. Balken A wird in ein helles Umfeld eingebettet gesehen, wobei die Sicht auf den Balken durch die horizontalen schwarzen Streifen des Gitters teilweise verdeckt wird. Im Falle des Balkens B ist es gerade umgekehrt. Dieser befindet sich in einem schwarzen Umfeld und wird durch die weißen Streifen des Gitters teilweise verdeckt. Die Referenz für die Kontrastbildung ist somit für Balken A das weiße und für Balken B das schwarze Umfeld. Bei einer Kontrastbildung und -verstärkung zwischen Balken und Umfeld wird A gegenüber seinem Umfeld dunkler und B gegenüber seinem Umfeld heller erzeugt, sodass letztlich bei einem Vergleich zwischen den Balken A dunkler erscheint als B. Die für die beiden Beispiele aus Abbildung 46 gegebenen Erklärungen lassen die Andersartigkeit dieses Kontrasttyps zum Kontrasttyp der lateralen Inhibition sehr deutlich hervortreten. Im Falle der Kontraste aus Abbildung 46 geht es nicht um Kontraste zwischen benachbarten Elementen des proximalen Reizmusters selbst, sondern um Kontraste und Kontrastverstärkungen zwischen räumlich gegliederten Wahrnehmungselementen (die terminologische Differenzierung zwischen Reiz- und Wahrnehmungselementen wurde in 5.2 erläutert), die nachfolgend verkürzt als Gliederungseinheiten bezeichnet werden sollen (vgl. Gilchrist et al. 1999; Strategien zur Gliederung von Reizmustern werden im nachfolgenden Abschnitt 5.4 im Zusammenhang mit den Gestaltgesetzen behandelt). Dies bedeutet gleichzeitig, dass vor der Kontrastbildung bereits eine Reihe von Verarbeitungsschritten des Reizmusters stattgefunden haben müssen, in denen aus den unzusammenhängenden Elementen des Reizmusters zusammenhängende Wahrnehmungselemente gebildet und in eine räumliche Gliederung gebracht wurden (was als die Bildung noch umfassenderer Wahrnehmungselemente betrachtet werden kann). Dies beinhaltet im Falle des Benary-Kreuzes (in Abb. 46c) zum Beispiel die Bildung der geschlossenen Formen ‚Kreuz’ und ‚Dreieck’ sowie deren Gruppierung zu ‚Kreuz und Dreieck B’ gegenüber ‚weißes Umfeld und Dreieck A’. Im Rahmen der White’schen Illusion (in Abb. 46d) zählt hierzu zum Beispiel die Entstehung von zwei zusammenhängenden Balken aus den rechteckigen grauen Flächenelementen der Muster A und B (aus Abb. 46b).
250 250
Der WegEinleitung zu einer Theorie
Insofern handelt es sich bei den Beispielen in Abbildung 46 um eine Kontrastbildung und -verstärkung auf einer höheren Verarbeitungsebene, die zu unterscheiden ist von der lateralen Inhibition am (unteren) Ausgangspunkt der Verarbeitung. Wenn sich Kontrast und Kontrastbildung auf die Gliederungseinheiten als Ganze beziehen, ist ferner zu erwarten, dass dies auch für die Kontrastverstärkung gilt. Vor diesem Hintergrund erscheint es plausibel, dass die beobachteten Helligkeitsunterschiede nicht nur die Ränder der Dreiecke bzw. Balken, sondern die Dreiecke und Balken insgesamt betroffen haben, sodass die Helligkeit innerhalb der jeweiligen Flächen gleichmäßig ausgefallen ist. Trotz der skizzierten phänomenalen und prozessoralen Unterschiede zwischen dem Kontrastmechanismus der lateralen Inhibition und dem in Abbildung 46 illustrierten höheren Kontrastmechanismus ist es naheliegend, dass beiden Kontrastmechanismen im Rahmen der Herstellung eines Perzeptes eine ähnliche Aufgabe zukommt, nämlich eine prononciertere Grundlage für nachfolgende Verarbeitungsschritte bereitzustellen. Um die Aufgabe näher zu spezifizieren, ist es wichtig zu sehen, dass die Herstellung von Perzepten in der visuellen Wahrnehmung (vgl. Hoffman 2003) ebenso wie in der auditiven Wahrnehmung (vgl. Handel 1986) als ein Prozess der Synthese konzeptualisiert wird. Das heißt, die einzelnen Elemente werden sukzessive zu immer größeren Einheiten arrangiert. In der visuellen Wahrnehmung stehen am Anfang beispielsweise Umrisse (Ecken und Linien), die zu zweidimensionalen Flächeneinheiten zusammengesetzt werden, und aus diesen wiederum entstehen dreidimensionale Objekte. Somit ist die Gruppierung von Elementen ein zentraler Bestandteil des Wahrnehmungsprozesses. Es ist anzunehmen, dass die Rolle der Kontrastmechanismen in diesem Zusammenhang darin besteht, diese Gruppierung vorzubereiten und zu unterstützen, indem relative Unterschiede zwischen Elementen deutlicher herausgehoben werden. Der Kontrastmechanismus der lateralen Inhibition und der höhere Kontrastmechanismus sind dann hinsichtlich ihrer Funktion lediglich dadurch zu differenzieren, dass ersterer in die Gruppierung von Reizelementen zu Wahrnehmungselementen und letzterer in die Gruppierung von Wahrnehmungselementen zu größeren Wahrnehmungselementen involviert ist. Dem angesetzten Zusammenspiel zwischen Kontrastierung und Gruppierung entsprechend, wird im nachfolgenden Abschnitt 5.4 in Form der Gestaltgesetze ein fundamentales Instrument der Gruppierung vorgestellt. Ein weiteres Beispiel für den vorgestellten höheren Kontrastmechanismus ist der gewellte Mondrian von Adelson (1993), der in Abbildung 47 wiedergegeben ist. Der Mondrian ist insgesamt in 25 Flächen mit variierender Helligkeit gegliedert. Von den beiden Flächen, die in der verkleinerten Darstellung des Mondrians auf der rechten Seite mit A und B ge-
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
251 251
kennzeichnet sind, geht die gleiche Lichtintensität aus. Im Rahmen dieser verkleinerten Darstellung, in der die Flächen A und B isoliert stehen, wirken sie auch gleich hell. Dieses Perzept ändert sich jedoch im großen Mondrian auf der linken Seite. Fläche A sieht nun sehr viel heller aus als Fläche B, wobei gleichzeitig die Helligkeit innerhalb beider Flächen einheitlich ist. Eine Erklärung für dieses Perzept ergibt sich, wenn die dreidimensionale Wahrnehmung des Mondrians einbezogen wird. Dadurch wird der Mondrian in fünf vertikale Gruppen von Flächen eingeteilt. Die beiden Flächen A und B liegen jeweils innerhalb der Gruppen mit schrägen Flächen. Diese Gruppen stellen nun den Bezugsrahmen für die Kontrastbildung dar. Das heißt, die Flächen A und B werden jeweils mit den Flächen darüber und darunter kontrastiert, nicht mit den seitlich angrenzenden Flächen aus anderen Tiefenebenen. Hierbei geht von A die größte und von B die niedrigste Lichtintensität in der Gruppe aus. Wenn diese relativen Unterschiede zwischen den Flächeneinheiten im Rahmen einer Kontrastverstärkung überzeichnet werden, dann wirkt im Quervergleich zwischen den Gruppen A für den Betrachter heller als B. Wird der Mondrian hingegen „aufgefaltet“ und so der dreidimensionale Wahrnehmungseindruck entzogen, dann ergeben sich andere Referenzen (also andere Flächen), mit denen A und B kontrastiert werden, und der perzipierte Helligkeitsunterschied zwischen A und B verändert sich.
Abbildung 47: Darstellung des gewellten Mondrians von Adelson (1993). Von den Flächen A und B geht die gleiche Lichtintensität aus, dennoch wirkt im Kontext des gewellten Mondrians Fläche A deutlich heller als Fläche B. Die Abbildung wurde aus Hoffman (2003) übernommen.
Im Beispiel des gewellten Mondrians findet die Kontrastbildung der Flächenelemente (Gliederungseinheiten) A und B ebenso wie im Falle des Benary-Kreuzes und der White’schen Illusion aus Abbildung 46(c)-(d) nicht einfach generell mit den benachbarten Flächen statt. Vielmehr basiert das durch die Kontrastverstärkung evozierte Perzept unterschiedli-
252 252
Der WegEinleitung zu einer Theorie
cher Helligkeiten nur auf dem Kontrast mit bestimmten Flächen innerhalb des jeweiligen räumlichen Bezugsrahmens. Im Falle des gewellten Mondrians ist dies zum Beispiel dadurch nachvollziehbar, dass man die oberen und unteren beiden horizontalen Reihen (mit dem Finger) abdeckt. Der Helligkeitsunterschied zwischen A und B verschwindet, da die für die Kontrastbildung ausschlaggebenden Flächen innerhalb der gleichen räumlichen Ebene nicht mehr gegeben sind. Die relativen Unterschiede in der Lichtintensität, die A und B mit den horizontalen Flächen ausbilden, sind irrelevant. In diesem Zusammenhang ist darauf hinzuweisen, dass Goldstein (2002) und Hoffman (2003) betonen, dass die zu den Kontrasteffekten der Abbildungen 46 und 47 gegebenen Erklärungen bislang nicht in Gänze bewiesen sind. Dennoch bleibt – insgesamt gesehen – festzuhalten, dass es Kontrasteffekte gibt, für die sich der Mechanismus der lateralen Inhibition nicht als Erklärung anbietet und die durch die räumliche Wahrnehmung beeinflusst werden und insofern die Folge eines im Vergleich zur lateralen Inhibition höheren Kontrastmechanismus sein müssen. Als weitere wichtige Eigenschaft der genannten Kontrastmechanismen ist herauszustellen, dass das Ausmaß der Kontrastverstärkung von zahlreichen Faktoren abhängt (vgl. hierfür u.a. Gogel 1978; Goldstein 1989; Irtel 1991). Eine diese Determinanten ist der zugrundeliegende Kontrast und damit die Ausprägung des Reizmusters selbst. Dies kann unter anderem anhand der Mondrians aus Abbildung 47 beobachtet, wo sich nach dessen Auffaltung die Referenzen ändern, mit denen die Flächen A und B kontrastiert werden. Damit ändern sich auch die Kontraste und die perzipierten Helligkeiten von A und B. Generell weisen die Erkenntnisse zum Ausmaß der Kontrastverstärkung darauf hin, dass letztere zunimmt, je ähnlicher die miteinander kontrastierten Eigenschaften werden. Darüber hinaus zeigen experimentelle Befunde (zu höheren visuellen Kontrasten), dass das Ausmaß der Kontrastverstärkung nicht nur an den Kontrast selbst, sondern auch an die räumliche Distanz zwischen den kontrastierten Elementen gebunden ist. Dabei gilt, dass die Kontrastverstärkung mit zunehmender Distanz zwischen den Elementen schwächer wird. Weitere Einflussfaktoren auf das Ausmaß der Kontrastverstärkung sind in der visuellen Wahrnehmung die Geschlossenheit kontrastierter Flächenelemente und die Art des Übergangs zwischen ihnen. In 5.2 wurde im Rahmen der Schilderung der syntagmatischen Separation darauf hingewiesen, dass bei auditiven Entitäten im Gegensatz zu visuellen die Zeit hereinkommt. Diesem fundamentalen Unterschied zwischen visueller und auditiver Wahrnehmung Rechnung tragend, können höhere Kontrastbildungen zwischen Wahrnehmungselementen in der au-
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
253 253
ditiven Wahrnehmung auch über die Zeit hinweg stattfinden. Insofern gilt: „Hearing must bridge between the beginning and the end“ (Handel 1986:163). Es ist herauszustellen, dass derartige Kontrastbildungen kein Pendant zu dem aus der visuellen Wahrnehmung bekannten Sukzessivkontrast darstellen (vgl. Legewie und Ehlers 1999). Letzterer ist von anderer Qualität, da er in zeitlichen Abständen die gleichen Rezeptoren involviert und überdies auch auf einer anderen Verarbeitungsebene angesiedelt werden kann. Um dahingehenden Missverständnissen vorzubeugen, sollen zeitbasierte Kontraste in der auditiven Wahrnehmung als syntagmatische Kontraste bezeichnet werden. Allerdings existieren meines Wissens bislang keine Untersuchungen zur auditiven Wahrnehmung, in denen, ähnlich wie in der visuellen Wahrnehmung, die Funktionsweise syntagmatischer Kontrastbildung ausgehend von Perzepten der Kontrastverstärkung systematisch erforscht wurde. Ebenso wenig sind Studien aus der auditiven Wahrnehmung bekannt, in denen das Phänomen der Kontrastverstärkung explizit beschrieben wird. Dass allerdings syntagmatische Kontrastbildung in der auditiven Wahrnehmung eine zentrale Rolle spielt, ist durch zahlreiche Untersuchungen gut dokumentiert. Aus der musikalischen Forschung ist beispielsweise bekannt, dass Tonhöhen-, Längen- und Lautheitseigenschaften benachbarter Töne kontrastiert werden und dass dadurch Prominenzmuster entstehen (vgl. Woodrow 1951; Fraisse 1956; Povel und Okkerman 1981; Jones 1981). Aus der Sprachwahrnehmung ist syntagmatische Kontrastbildung unter anderem aus der Signalisierung des Fortis-Lenis-Unterschiedes im Deutschen bekannt. So hat Kohler (1979) zum Beispiel experimentell nachweisen können, dass Hörer für die Wahrnehmung von /t/ und /d/ im Deutschen neben Merkmalen wie der Aspiration und mikroprosodischen F0-Mustern die Segmentdauern heranziehen. Entscheidend waren hierbei allerdings nicht die Dauern von /t/ und /d/ allein, sondern der Anteil der Dauern von /t/ und /d/ an der Dyadendauer mit dem vorangehenden Vokal (bei reduzierten Vokaldauern und simultan expandierter Konsonantendauer wird /t/ wahrgenommen, bei entgegengesetzten Dauerverschiebungen /d/). In diesem Sinne findet auch hier eine syntagmatische Kontrastbildung zwischen gleichartigen Eigenschaften – den Segmentdauern – von in diesem Fall benachbarten lautlichen Elementen statt. Im Französischen hat dieses Merkmal einen ähnlichen Effekt auf die Unterscheidung von /t/ und /d/ und vergleichbaren phonologischen Kontrasten (vgl. van Dommelen 1983). Kohler (1979) und van Dommelen (1983) machen allerdings keine Angaben zu einer Kontrastverstärkung. Es wäre beispielsweise denkbar, dass die akustisch angelegten Unterschiede in der Dyadendauer von
254 254
Der WegEinleitung zu einer Theorie
Sequenzen aus Vokal und /t/ einerseits sowie Vokal und /d/ andererseits in der Perzeption überzeichnet werden. Des weiteren zeigen verschiedene Untersuchungen auf Basis von Produktionsdaten zum Holländischen und Deutschen, dass Obstruenten, die auf Kurzvokale folgen, mit größerer Dauer produziert werden als Obstruenten, die auf Langvokale folgen (wobei sich die phonologische Differenzierung zwischen Lang- und Kurzvokalen auch in entsprechender Weise in der realen phonetischen Dauer gezeigt hat, vgl. z.B. Fischer-Jørgensen 1969; Nooteboom 1972; Jongman 1998). Die Kontraste, die sich in diesen gegenläufigen Dauerveränderungen der Vokal-Konsonant-Folgen manifestieren, stellen einen weiteren Hinweis darauf dar, dass seitens des Hörers Kontrastbildungen und ggf. auch -verstärkungen in die Segmentidentifikation involviert sind. Im Rahmen der Erforschung der Sprechmelodie zeigen Perzeptionsexperimente von Rump und Collier (1996) zum Holländischen, dass im Rahmen melodischer Phrasen, die zwei Akzente mit jeweils einem F0Gipfel enthalten, eine die inhaltliche Perspektive auf das erste akzentuierte Wort einengende Hervorhebung (im Sinne eines engen Fokus, vgl. 1.3.1) dann von den Hörern korrekt erkannt wurde, wenn der F0-Gipfel über der Akzentsilbe dieses Wortes angehoben und gleichzeitig der F0-Gipfel der Akzentsilbe des jeweils anderen Wortes abgesenkt wurde. Die hierin zum Ausdruck kommende syntagmatische Kontrastbildung zwischen dem F0-Gipfel des fokussierten Wortes und dem umliegenden F0(-Niveau) wird sprachübergreifend durch akustische Analysen untermauert, die zeigen, dass auch in der Produktion entsprechende Kontraste angelegt werden. Cooper et al. (1985) sowie Xu et al. (2004) berichten zum Beispiel für das Englische und das Mandarin-Chinesische, dass F0-Bewegungen im Umfeld (insbesondere im Anschluss) der Akzentsilbe des Wortes, auf das der inhaltliche Fokus gelegt wird, auf einem insgesamt tieferen Niveau eingeebnet sind, während der F0-Gipfel, der zu dem Akzent gehört, eine umfangreichere F0-Bewegung (d.h. eine größere Gipfelhöhe) aufweist. Auch im Rahmen dieser Untersuchungen wird die Frage nicht thematisiert, inwieweit die an den gefundenen Kontrasten beteiligten relativen F0Unterschiede perzeptorisch überzeichnet werden, also Gegenstand einer Kontrastverstärkung sind. Hinweise auf eine Kontrastverstärkung im Bereich der Sprechmelodie finden sich allerdings in Form von impressionistischen Beschreibungen bei Grabe (1998). Grabe bemerkt bei ihrer vergleichenden akustischen Analyse der sprechmelodischen Zeichen NEU und UNERWARTET im Deutschen (vgl. auch 3.2.1), dass die Vorakzentsilbe durch eine tiefere Tonhöhe gekennzeichnet war, wenn über der Akzentsilbe das Zeichen NEU produziert wurde. Sie fügt ferner hinzu, dass sich die F0-Verläufe der
Zum Begriff derund Sprechmelodie Kontrastbildung -verstärkung
255 255
Zeichen NEU und UNERWARTET vor allem dadurch unterscheiden, dass in Verbindung mit dem Zeichen NEU das F0-Gipfelmaximum bereits in der Akzentsilbe erreicht wird, während sich für das Zeichen UNERWARTET das F0-Gipfelmaximum erst in der Nachakzentsilbe befindet. Dadurch entsteht in Akzentsilben mit dem Zeichen NEU ein sehr viel höherer Tonhöheneindruck als in Akzentsilben mit dem Zeichen UNERWARTET. Gleichzeitig ergibt sich aus der Beschreibung der Verlaufsqualitäten, dass für beide Zeichen über der Vorakzentsilbe keine entscheidenden Abweichungen im F0-Verlauf zustande kommen, die für den genannten Tonhöhenunterschied auf der Vorakzentsilbe verantwortlich gemacht werden könnten (Untersuchungen, die für das alignment des Anstiegsbeginns zum Gipfelmaximums keinen Unterschied zwischen beiden Zeichen zeigen, untermauern dies, vgl. u.a. Niebuhr und Ambrazaitis 2006 in 3.2.1) Das von Grabe beobachtete Phänomen könnte daher auf eine Kontrastverstärkung zwischen Tonhöheneindrücken auf der Vorakzentsilbe und der Akzentsilbe hindeuten, bei der die perzipierte Tonhöhe auf der Vorakzentsilbe in Abhängigkeit von dem auf der Akzentsilbe erreichten zeichenspezifischen Tonhöhenniveau in unterschiedlichem Umfang abgesenkt wird. Gleichzeitig ist anzunehmen, dass – analog zur visuellen Wahrnehmung – das Tonhöhenniveau der Akzentsilbe angehoben wird. Aus Grabes Beobachtungen ist dies jedoch nicht ableitbar. Eigene Perzeptionserfahrungen unterstützen diese Vermutung jedoch. Außerhalb des Phänomenbereichs der Sprechmelodie gibt es jedoch neuere Befunde zu perzeptorischen Effekten zwischen benachbarten Lautsegmenten, die explizit auf syntagmatische Kontrastverstärkung zwischen Frequenzkomponenten des Spektrums (z.B. die des zweiten und dritten Formanten) zurückgeführt werden. Siehe hierzu etwa Lotto und Kluender (1998). Die in diesem Abschnitt präsentierten Beispiele verdeutlichen, dass es sich bei Kontrastbildung und -verstärkung um eine universelle Strategie des Wahrnehmungsapparates handelt (vgl. Legewie und Ehlers 1999), die darauf ausgerichtet ist, die im Rahmen der Verarbeitung in Reizen auftretenden Strukturen zu betonen und so zur Herstellung und zur Qualität des Perzeptes beizutragen. Legewie und Ehlers (1999) weisen überdies darauf hin, dass Kontrast und Kontrastverstärkung nicht nur im Rahmen der Wahrnehmung angewandt werden, sondern auch bei den Vorgängen eine Rolle spielen, die unter dem Begriff des Denkens subsumiert sind, zum Beispiel bei der Beurteilung von Freund und Feind. Vor diesem Hintergrund ist es wichtig zu sehen, dass Kontrastbildung und -verstärkung bedeutet, dass das Perzept eines Reizelementes nur zu einem Teil durch die zum Reizmuster gehörigen Parameterwerte determiniert wird. Der Kontext spielt eine entscheidende Rolle. Dies wird anhand der nachfol-
256 256
Der WegEinleitung zu einer Theorie
gend präsentierten Gestaltgesetze in einem globaleren Rahmen noch deutlicher werden. Ferner wird deutlich werden, dass die Gestaltgesetze und die Kontrastmechanismen in der zuvor bereits skizzierten Weise bei der Herstellung eines Perzeptes eng zusammenarbeiten.
5.4 Gestaltgesetze und das Perzept als aktualisiertes Konstrukt Die Gestaltpsychologie stellt eine Gegenbewegung zum Behaviorismus (vgl. Watson 1930) auf der einen Seite und zur Assoziationspsychologie (vgl. Bühler 1927) auf der anderen Seite dar. Ersterer konzeptualisiert die Wahrnehmung als einen (konditionierten) Reiz-Reaktions-Vorgang und betrachtet so das Perzept als vollständig reizdeterminiert. Dies gilt auch für die Assoziationspsychologie. Sie zeichnet sich durch eine elementaristische Herangehensweise an die Perzeption aus. Das heißt, das komplexe Perzept ergibt sich aus der Summe der dargebotenen elementaren Reizbausteine. Dieser atomistisch-additiven Auffassung steht zum Beispiel das Perzept des Wortes
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
257 257
löst werden, geht etwas verloren, das nur im Ganzen, aber niemals in den Teilen zu finden ist. Es ist schwierig, einheitlich zu erfassen, was eine Gestalt über die Eigenschaften der sie konstituierenden Wahrnehmungselemente hinaus kennzeichnet. Aufgrund der in diesem Zusammenhang angeführten Beispiele aus der Literatur (vgl. Goldstein 2002; Gregory 1998; Legewie und Ehlers 1999; Wendt 1989) können die gestaltspezifischen Eigenschaften unter anderem in besonderen Qualitäten der Form liegen. Gestalten können aber auch phänomenal reicher sein als die Summe der zur Gestalt beitragenden Reiz- bzw. Wahrnehmungselemente (so wie zum Beispiel in Abb. 37 Gestalten in Form von Buchstaben wahrgenommen werden, die Flächenelemente und Umrisse umfassen, die im Reizmuster nicht angelegt sind). Ein häufig angeführtes und leicht nachvollziehbares Beispiel für eine Gestalt ist eine Melodie, die in ihrer Ganzheit Eigenschaften besitzt, die über die Summe der Eigenschaften der dazugehörigen Einzeltöne hinausgehen (vgl. Wendt 1989). Die übersummativen Eigenschaften der Melodie liegen unter anderem in einer bestimmten Erlebnisqualität. Einer der Begründer der Gestaltpsychologie, Max Wertheimer, schreibt: „Ich stehe am Fenster und sehe ein Haus, Bäume, den Himmel. Rein theoretisch könnte ich das alles zahlenmäßig erfassen: Es sind […] 327 Farbstufen und Helligkeitsstufen vorhanden. Sehe ich tatsächlich 327 Unterschiedsstufen? Nein: Himmel, Haus, Bäume“ (aus Legewie und Ehlers 1999:85). Dieses Zitat vermittelt einen Eindruck davon, was mit einer Aufsummierung unzusammenhängender Wahrnehmungselemente auf der einen und Gestalten auf der anderen Seite gemeint sein kann. In diesem Zusammenhang ist jedoch herauszustellen, dass die Gestalt in ihrer Eigenschaft als im Rahmen der Reizverarbeitung gebildete organisationale Einheit von der bedeutungsvollen, handlungsbestimmenden Entität prinzipiell unterschieden werden muss, die – phänomenal und funktional spezifiziert und in ein System eingebettet – unabhängig vom einzelnen Wahrnehmungsprozess im Kopf des perzipierenden Individuums vorliegt (wobei es jedoch mit Bezug auf Fußnote 26 gleichzeitig möglich ist, dass Wahrnehmungen und die darin enthaltenen Gestalten zuvor in die Entstehung von Entitäten involviert waren). Dem zentralen Konzept der Gestalt Rechnung tragend, haben sich Gestaltpsychologen primär mit der Frage der Organisation der Elemente des Perzeptes auseinandergesetzt. Das heißt, es wurde erforscht, wie Reizbzw. Wahrnehmungselemente zu Gestalten zusammengruppiert werden. Erkenntnisse darüber, aufgrund welcher Kriterien Elemente (im Rahmen des synthetisierenden Wahrnehmungsprozesses, vgl. 5.3) miteinander verbunden werden sind gleichzeitig Erkenntnisse darüber, wie sie von anderen Elementen abgegrenzt werden. Insofern hat sich die Gestaltpsycho-
258 258
Der WegEinleitung zu einer Theorie
logie vorrangig mit Separationsproblemen befasst. Die Ergebnisse, die im Licht der genannten Forschungsfrage gewonnen wurden und die hauptsächlich aus Untersuchungen zur visuellen Wahrnehmung hervorgegangen sind, wurden in Gestaltgesetzen zusammengefasst (siehe Wertheimer 1921, 1923). In Anlehnung an die Formulierungen von Goldstein (2002) und Handel (1986) sind die wichtigsten fünf Gestaltgesetze nachfolgend aufgeführt: • Gesetz der Ähnlichkeit: Wahrnehmungselemente mit ähnlichen Eigenschaften werden als zusammengehörig perzipiert. • Gesetz der Nähe: Dicht zusammenliegende Wahrnehmungselemente werden als zusammengehörig perzipiert. • Gesetz der guten Fortsetzung: Wahrnehmungselemente, deren Verbindung keinen Bruch erzeugt, werden als zusammengehörig perzipiert. • Gesetz des gemeinsamen Schicksals: Wahrnehmungselemente, die sich synchron und gleichgerichtet bewegen, werden als zusammengehörig perzipiert. • Gesetz der Symmetrie: Wahrnehmungselemente, durch deren Verbindung Symmetrien und geschlossene Formen entstehen, werden als zusammengehörig perzipiert. Später haben Palmer (1992, 1999) sowie Palmer und Rock (1994) die gegebene Liste durch weitere Gesetze ergänzt. In den genannten Gestaltgesetzen klingt bereits an, dass die Bildung von Gestalten einem übergeordneten strategischen Prinzip folgt: Die erzeugte Gruppierung repräsentiert eine gute Gestalt. Das heißt, sie stellt immer die „einfachste, einheitlichste“ Möglichkeit zur Gruppierung der Wahrnehmungselemente dar (Prinz 1990:49). Dieses Grundprinzip wird auch als Prägnanzgesetz bezeichnet (vgl. Handel 1986 und Goldstein 2002). Im Rahmen der Generalisierung der Gestaltgesetze sind Schwierigkeiten aufgetreten, die insbesondere im Zusammenhang mit der qualitativen und quantitativen Auslegung der darin enthaltenen Formulierungen stehen. Was zum Beispiel ist Ähnlichkeit oder Nähe? Und ab wann gilt etwas als ähnlich oder nah? Ferner haben die Gesetze keinen prozessoralen Bezug. Vor diesem Hintergrund erscheint ihre Einstufung als Gesetze ungerechtfertigt. Ihre Aussagen, die das Destillat einer Vielzahl von systematisch gewonnenen Beobachtungen repräsentieren, gelten allerdings bis heute als „wertvoll“ (Goldstein 2002:200). Sie sind in das gegenwärtige Bild der Wahrnehmung (das in 5.5 weiter ausgeführt wird) in Form von heuristischen Regeln integriert. Diese „spielen […] für die visuelle und akustische Wahrnehmung eine wichtige Rolle“ (Gregory 1998:17). Letzteres wird nachfolgend an Beispielen zur Gruppierung von Wahrnehmungselementen
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
259 259
demonstriert. Dabei wird der etablierte Begriff des Gestaltgesetzes auch weiterhin gebraucht. Abbildung 48 illustriert die (interdependenten) Einflüsse von Ähnlichkeit und Nähe auf das Perzept einfacher geometrischer Muster. In der oberen Reihe (a-c) sind schwarze Kreise und Vierecke zu quadratischen Gesamtmustern arrangiert. In Abbildung 48(a) sind die Kreise und Vierecke in den Zeilen abwechselnd dargeboten und so angeordnet, dass die jeweils gleichen geometrischen Elemente in den Spalten untereinander stehen. Des weiteren sind die Abstände zwischen den Elementen in den Zeilen kleiner als in den Spalten. Im Perzept dieses geometrischen Musters werden die Elemente in den Zeilen als zusammengehörig erlebt; das Gesamtmuster besteht aus 6 Zeilen. Das heißt, in diesem Fall wird das Perzept durch die Nähe in den Zeilen und nicht durch die Ähnlichkeit in den Spalten bestimmt. Eine diametral entgegengesetzte Wahrnehmung ergibt sich, wenn die Abstände zwischen den geometrischen Elementen alle äquidistant ausfallen, wie es in Abbildung 48(b) dargestellt ist. In diesem Fall wird das Perzept des Gesamtmusters durch Ähnlichkeit gegliedert, und die Spalten erscheinen als zusammengehörig. Die quadratische Anordnung insgesamt wird aus 6 Spalten bestehend erlebt. Werden nun zusätzlich zur Äquidistanz in einem dritten Schritt, der in Abbildung 48(c) wiedergegeben ist, auch die geometrischen Elemente vereinheitlicht, dann ergibt sich keine eindeutige perzeptorische Gliederung des Gesamtmusters mehr. Das Perzept scheint zwischen einer horizontalen und einer vertikalen Gliederung hin und mehr zu springen. Durch diese „dynamische Gruppierung“ (Gregory 1998:20) wirkt das Gesamtmuster unruhig. Parallele Wahrnehmungseffekte lassen sich erzielen, wenn Elemente mit unterschiedlicher Helligkeit statt der unterschiedlichen geometrischen Elemente verwendet werden. Abbildung 48(d)-(f) zeigt dementsprechend, dass unähnliche (in diesem Fall schwarze und weiße) Elemente aufgrund ihrer größeren Nähe in Spalten gruppiert wahrgenommen werden (Abb. 48d). Im Falle äquidistanter räumlicher Abstände zwischen den unähnlichen Elementen werden die ähnlichen Elemente in den Zeilen als zusammengehörig perzipiert (Abb. 48e). Ergibt sich aufgrund der Ähnlichkeitsund Nähekriterien keine Verbindung von Elementen, wird die perzeptorische Gliederung uneindeutig (Abb. 48f).
260 260
Der WegEinleitung zu einer Theorie
Abbildung 48: Gruppierung von Wahrnehmungselementen aufgrund der Gestaltgesetze Nähe und Ähnlichkeit. In (a) und (e) wird eine zeilenweise, in (b) und (d) eine spaltenweise Gliederung des Gesamtmusters vorgenommen. In (c) und (f) erfolgt keine eindeutige Gliederung. Daher wirkt das Perzept instabil. Die Abbildungselemente (a)-(c) stammen aus Goldstein (2002), (d)-(f) stammen aus Handel (1986).
Aus der auditiven Wahrnehmung sind Effekte bekannt, die ebenfalls in Form eines Zusammenspiels von Ähnlichkeit und Nähe verstanden werden können und die insofern ein Pendant zu den in Abbildung 48 dargestellten visuellen Effekten repräsentieren. Hierbei ist wie in den vorangehenden Vergleichen von Phänomenen der auditiven und visuellen Wahrnehmung zu beachten, dass räumliche Nähe in der visuellen Wahrnehmung zeitlicher Nähe in der auditiven Wahrnehmung gegenübergestellt werden kann. Hiervon ausgehend, zeigt Abbildung 49(a) zwei unterschiedliche Abfolgen von hohen und tiefen Tönen. Werden Sequenzen wie die dargestellten nun langsam dargeboten, nehmen sie die Hörer als zusammenhängende Melodien wahr, wie es in Abbildung 49(b) durch eine (lineare) Verbindung der einzelnen Töne dargestellt ist. Zusätzlich ist davon auszugehen, dass sie innerhalb der Melodien paarweise Gruppen aus hohen und tiefen Tönen perzipieren. Das beschriebene auditive Perzept ist ein Pendant zu dem visuellen Perzept der zeilenweisen Gliederung aus Abbildung 48(a) und (e). Es repräsentiert eine Gruppierung nach Nähe, da dicht aufeinanderfolgende, aber unähnliche Töne als zusammengehörig erlebt werden.
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
261 261
Abbildung 49: Gruppierung zweier unterschiedlicher Tonfolgen (obere und untere Reihe) auf Basis der Gestaltgesetze Nähe und Ähnlichkeit. In (a) sind die Tonfolgen dargestellt, (b) zeigt die Gruppierung nach Nähe bei langsamer Präsentationsgeschwindigkeit. Bei erhöhter Präsentationsgeschwindigkeit erfolgt die in (c) dargestellte Gruppierung nach Ähnlichkeit in der Tonhöhe. Die Abbildungselemente basieren auf Handel (1986, oben) und Goldstein (2002, unten).
Wird die gleiche Sequenz hingegen in schnellerem Tempo präsentiert, dann erfolgt die perzeptorische Gruppierung auf Basis des Ähnlichkeitskriteriums. Dies führt in den gegebenen Beispielen dazu, dass zwei simultane Abfolgen, eine aus hohen und eine aus tiefen Tönen, perzipiert werden, die, je nach Gesamtsequenz, absteigende Tonfolgen oder aber ihrerseits wieder neue alternierende Folgen aus hohen und tiefen Tönen bilden. Die beschriebene Wahrnehmung, die das auditive Pendant zur spaltenweisen Gliederung des visuellen Gesamtmusters in Abbildung 48(b) und (d) darstellt, ist in Abbildung 49(c) illustriert. Weiterführende Untersuchungen zu diesem auditiven Phänomen haben gezeigt, dass eine Korrelation besteht zwischen dem Grad der Ähnlichkeit der benachbarten Elemente und dem Präsentationstempo, ab dem eine Aufspaltung der Gesamtsequenz wie in Abbildung 49(c) erfolgt. Je un-ähnlicher die benachbarten Elemente zum Beispiel durch einen größeren Tonhöhenabstand werden, desto geringere Präsentationstempi sind erforderlich, um eine Wahrnehmungsveränderung der in Abbildung 49(b)-(c) dargestellten Art herbeizuführen (vgl. Handel 1986). Nooteboom et al. (1978) haben darüber hinaus gezeigt, dass die genannte Wahrnehmungsveränderung nicht nur mit (komplexen) Tönen, sondern auch auf der Grundlage unterschiedlicher Vokalqualitäten erreicht werden kann. Ferner kann der Faktor der Ähnlichkeit nicht nur durch Tonhöhenunterschiede, sondern gleichermaßen durch Unterschiede in der Lautheit (vgl. Handel 1986) oder in der Klangqualität repräsentiert sein (vgl. Wessel
262 262
Der WegEinleitung zu einer Theorie
1979). Tonhöhe gilt jedoch als der einflussreichste Ähnlichkeitsfaktor (vgl. Handel 1986). Ein anderes Beispiel für eine an die Präsentationsgeschwindigkeit gebundene Veränderung der Gruppierung der auditiven Wahrnehmungselemente kommt aus dem Bereich der Sprache. Goldstein (2002) weist auf das Phänomen hin, dass die phonetische Sequenz „Anna Mary Candy Lights Since Imp Pulp Lay Things“ bei langsamer Präsentationsgeschwindigkeit als die zuvor gegebene Abfolge von Einzelwörtern gehört werden kann. Bei erhöhter Präsentationsgeschwindigkeit kann dieses Perzept aber zu „An American delights in simple play things“ restrukturiert werden. Neben Nähe und Ähnlichkeit soll nachfolgend auf das Gestaltgesetz der guten Fortsetzung eingegangen werden. Die Anwendung des Kriteriums der guten Fortsetzung führt beispielsweise dazu, dass die in Abbildung 50(a) dargestellten Linien als zu zwei geometrischen Einheiten, einem Quadrat und einer Ellipse, gehörig wahrgenommen werden, die sich überschneiden. Alternativ dazu ist es auch vorstellbar, das Reizmuster als aus drei geometrischen Einheiten bestehend zu perzipieren, die aneinander angrenzen. In diesem Fall würden jedoch deutliche Diskontinuitäten in der Linienführung an den Grenzen der Einheiten entstehen. Dieses Perzept kommt daher (spontan) nicht zustande. Diskontinuitäten in der Linienführung kommen ebenfalls zustande, wenn die Kabelstücke A und E, D und B, E und C sowie B und F als zusammengehörig wahrgenommen werden. Eine sehr viel fließendere Linienführung ergibt sich, wenn die Kabelstücke A, B und C sowie D, E und F zusammengruppiert werden. Dies entspricht daher auch dem (spontanen) Perzept von Abbildung 50(b).
Abbildung 50: Demonstration für die Gruppierung von Wahrnehmungselementen nach dem Gestaltgesetz der guten Fortsetzung. In (a) werden die Linien zu zwei Einheiten, einem Quadrat und einer Ellipse, arrangiert. In (b) werden die Kabelstücke A, B und C sowie D, E und F als verbunden erlebt. Die Abbildungselemente (a) und (b) wurden modifiziert aus Goldstein (2002) übernommen.
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
263 263
Die Gruppierung von Wahrnehmungselementen entlang von Diskontinuitäten spielt im Rahmen der auditiven Wahrnehmung zum Beispiel beim Zustandekommen von Rhythmen eine wichtige Rolle (vgl. Handel 1986). Aus der Sprachwahrnehmung ist bekannt, dass Diskontinuitäten in der Sprechmelodie, insbesondere im Tonhöhenverlauf, zur Wahrnehmung von Einschnitten im Sprechfluss und somit zur Gruppierung von Äußerungen oder Äußerungsbestandteilen führen (vgl. z.B. Peters 2006). Sowohl im Falle des Rhythmus als auch im Falle der Sprechmelodie handelt es sich um Diskontinuitäten im Zeitbereich, also um syntagmatische Diskontinuitäten. Daneben können jedoch auch Gruppierungen entlang von Diskontinuitäten im Frequenzbereich stattfinden. So gehen beispielsweise die in 5.2 aufgeführten Figur-Grund-Trennungen wie im cocktail party effect aus der Sprachwahrnehmung oder in den visuellen Perzepten der Abbildungen 41 und 43 im wesentlichen auf das Gestaltgesetz der guten Fortsetzung in Verbindung mit den Gesetzen Nähe und Ähnlichkeit (und im Falle von Abbildung 43 auch Symmetrie) zurück. Die vorangegangenen Beispiele zur visuellen und auditiven Wahrnehmung haben die perzeptorische Relevanz von Gestalten deutlich gemacht und zudem gezeigt, dass der Kontext im Rahmen der Gestaltbildung eine zentrale Rolle spielt. Die Zugehörigkeit und damit letztlich die Bedeutung eines einzelnen Wahrnehmungselementes ergibt sich durch das Umfeld, in dem es steht. Dies kommt bereits in den Gestaltgesetzen zum Ausdruck, da zum Beispiel Nähe, Ähnlichkeit, gute Fortsetzung, gemeinsames Schicksal und Symmetrie (analog zum Kontrast in 5.3) relationale Konzepte sind. Darüber hinaus manifestiert sich der Status des Kontextes in der Entstehung von Perzepten auch in dem grundlegenden Diktum des gestaltpsychologischen Ansatzes „Das Ganze ist mehr als die Summe seiner Teile“. Es besagt, dass Gestalten das Ergebnis multipler Elemente und damit ein Produkt des globalen Kontextes sind. Eine kontextgebundene Entstehung des Perzeptes32 beinhaltet, dass das Perzept in Verbindung mit einer wachsenden Menge an Kontextinfor-
_____________ 32
Als kontextuelle Einflüsse sind auch solche zu betrachten, in denen zum Beispiel ein sich aufbäumendes Pferd in Verbindung mit einem Reiter als abbremsend und in Verbindung mit einem weiteren vorausreitenden Pferd als beschleunigend interpretiert wird (vgl. Goldstein 2002) oder in denen eine Figur im Kontext von Antilopen oder Vögeln ebenfalls als Antilope oder Vogel erkannt wird (vgl. Zimbardo und Ruch 1978). Derartige Phänomene werden zum Teil ebenfalls mit dem gestaltpsychologischen Diktum „Das Ganze ist mehr als die Summe seiner Teile“ in Beziehung gesetzt. Obwohl die Aussage des gestaltpsychologischen Diktums zu kontextuellen Einflüssen der beschriebenen Art passt und die Berücksichtigung solcher Einflüsse bei der Beschäftigung mit Wahrnehmung wichtig ist, erscheint es jedoch prinzipiell sinnvoll, die Bildung organisationaler Einheiten (d.h. Gestalten) und die damit zusammenhängenden Phänomene von der kontextspezifischen Identifikation organisationaler Einheiten oder deren funktionaler Interpretation zu differenzieren.
264 264
Der WegEinleitung zu einer Theorie
mation permanent aktualisiert bzw. korrigiert werden muss. Das heißt, die einzelnen Wahrnehmungselemente müssen in den sich entwickelnden Kontext immer neu integriert werden. Das gilt insbesondere in der auditiven Wahrnehmung, wo Wahrnehmungselemente über die Zeit hinweg entstehen und Entitäten über die Zeit hinweg identifiziert werden müssen; es trifft zeitgebunden jedoch auch auf die visuelle Wahrnehmung zu. In diesem Sinne ist das Perzept in der auditiven und visuellen Wahrnehmung nicht nur eine Konstruktion, wie es zum Beispiel im Rahmen der Kontrastverstärkung und Gestaltgruppierung ersichtlich wurde. Es kann vielmehr als aktuelle Ausgabe einer Konstruktionsschleife verstanden werden33. Die Aktualisierung von Perzepten bleibt dem Hörer bzw. dem Betrachter in der Regel verborgen, da ihm nur das jeweils aktuelle Perzept bewusst ist. Eine sehr anschauliche Demonstration für das Perzept als aktualisiertes Konstrukt in der visuellen Wahrnehmung ist das Phi-Phänomen. Dieses Phänomen wurde von Exner 1875 zuerst beschrieben (vgl. Hoffman 2003). Es beinhaltet die Konstruktion einer Bewegung auf der Grundlage zweier durch eine kurze Pause getrennter und an unterschiedlichen Stellen in Raum (A und B) präsentierter Leuchtreize. Abbildung 51 stellt dies anhand zweier leuchtender Balken graphisch dar. Das entscheidende hierbei ist, dass die Bewegung von A nach B erst dann von der visuellen Wahrnehmung konstruiert werden kann, wenn der Zielort der Bewegung bekannt, der Balken an Position B also bereits aufgeleuchtet ist. Die chronologische Reihenfolge lautet somit Perzeption von Balken an Position A, Perzeption von Balken an Position B, aktualisierte Konstruktion zu dem Perzept der Bewegung eines einzelnen Balkens von A nach B.
_____________ 33
Anstelle einer permanenten Aktualisierung des Perzeptes in Verbindung mit der Einbindung neuer Informationen wäre es auch denkbar, dass das Perzept erst im Anschluss an die Einbindung aller (notwendigen) Informationen ausgegeben wird. Gegen diese alternative Konzeption spricht unter anderem ein theoretisches Argument. Für das handelnde Individuum erscheint es günstig, in möglichst kurzen Zeitintervallen Informationen über die Umwelt zu erhalten, auch wenn diese dann gegebenenfalls aktualisiert werden müssen. Dies gilt insbesondere vor dem Hintergrund, dass Handeln – wie zu Beginn von 5.2 gesagt – auch über das Fortbestehen des Individuums entscheiden kann, also zum Beispiel bei der Erkennung und Abwehr von (Fress-)Feinden oder auf der Jagd bzw. Suche nach Nahrung. Insofern ist die sofortige Ausgabe von Perzepten und deren stetige Aktualisierung auch unter evolutionären Gesichtspunkten naheliegender. Darüber hinaus erscheint es, auch unter der Annahme eines ähnlichen Regelsystems wie es in den Gestaltgesetzen angeklungen ist, schwierig zu definieren, wann eine Informationsmenge vollständig ist. Es ist davon auszugehen, dass eine Aktualisierung des Perzeptes in jedem Fall unausweichlich ist. Letztlich sprechen auch die eigene Introspektion bei der Wahrnehmung sprachlicher Stimuli, die in Gänze gespielt oder an beliebigen Stellen abgebrochen werden können und die Reaktionszeiten hierauf für eine stetige Aktualisierung von Perzepten im Rahmen von Konstruktionsschleifen.
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
265 265
Was der Betrachter jedoch sieht, ist nur letzteres. Das heißt, die Konstruktionsschleife läuft unbewusst ab. Der Betrachter ist sich der beiden vorherigen Perzepte nicht bewusst, sondern nur der letzten (aktuellen) Ausgabe.
Abbildung 51: Darstellung des Phi-Phänomens. Der Betrachter nimmt aufgrund zweier nacheinander an unterschiedlichen Stellen im Raum aufleuchtender Reize, in diesem Fall Balken, die Bewegung eines einzelnen Balkens zwischen den Positionen wahr, an denen die beiden Reize zuvor aufgeleuchtet sind. Die Abbildung wurde aus Goldstein (2002) übernommen.
Noch deutlicher zu erkennen ist die Konstruktionsschleife, die dem PhiPhänomen zugrundeliegt, aus Modifikationen des Experimentes von Exner. Wertheimer zum Beispiel wiederholte im Jahre 1912 Exners Experiment, wobei er den beiden nacheinander aufleuchtenden Reizen zwei verschiedene Farben gab (vgl. Hoffman 2003). Was der Betrachter nun sah, war eine Bewegung eines Elementes von A nach B, das auf der Hälfte der Distanz seine Farbe wechselte; und zwar von der Farbe, mit der Reiz A präsentiert wurde zu der Farbe, mit der Reiz B präsentiert wurde. In diesem Fall ist somit nicht nur die Integration beider Reize zu der Bewegung eines einzigen Elementes das Resultat der Konstruktionsschleife, sondern auch der Farbwechsel innerhalb der Bewegung. In einer anderen Modifikation des Experimentes von Exner durch Benussi im Jahre 1916 wird in der Mitte der Distanz zwischen den beiden Positionen A und B, an denen die Reize aufleuchten sollen, ein Hindernis platziert, das für den Betrachter permanent zu sehen ist. Werden nun die Reize nach dem bekannten Prinzip dargeboten, nimmt der Betrachter ein einziges Element wahr, das sich von A aus auf einer gekrümmten Bahn um das Hindernis herum nach B bewegt. Weiterführende Untersuchungen des Phi-Phänomens haben gezeigt, dass die nachträgliche Verschmelzung der beiden nacheinander gezeigten Leuchtreize zu einem sich bewegenden Leuchtelement nur unter bestimmten Voraussetzungen stattfindet, die von Korte zusammengefasst wurden (vgl. Julesz und Hirsh 1972). Hierzu zählen zum Beispiel, dass zeitliche Intervalle und räumliche Abstände sowie die Lichtintensität zwischen beiden Leuchtreizen in bestimmter Weise aufeinander abgestimmt sein müssen. Letzteres deutet darauf hin, dass die Herstellung einer guten
266 266
Der WegEinleitung zu einer Theorie
Gestalt mit Hilfe der Gestaltgesetze (z.B. Nähe und Ähnlichkeit) in das Zustandekommen des Phi-Phänomens involviert ist. An den Phi-Phänomenen, die aus den geschilderten experimentellen Anordnungen beim Betrachter resultieren, ist bereits ablesbar, dass die im Rahmen der Konstruktionsschleifen entstehenden visuellen Perzepte als kreativ zu charakterisieren sind. In gleicher Weise sind auch Befunde zu bewerten, die sich für experimentelle Untersuchungen in der auditiven Wahrnehmung ergeben haben. Hierzu zählen beispielsweise die Experimente zur Sprachwahrnehmung unter dem Gesichtspunkt der phonemic restoration. Handel (1986) berichtet zum Beispiel von einem Perzeptionsexperiment, in dem die folgende Äußerung verwendet wurde: „It was found that the ##eel was on the ___“. Das Gitter kennzeichnet, dass in diesem Testwort ein Lautsegment – samt der angrenzenden Abschnitte, in denen das Lautsegment enkodiert ist – durch Rauschen ersetzt wurde. Diese Äußerung wurde Versuchspersonen präsentiert, wobei die äußerungsfinale Strukturstelle durch die Wörter „orange“, „table“ oder „axle“ gefüllt wurde. Es ergab sich, dass die Versuchspersonen das Rauschen wahrnahmen, aber zusätzlich hörten sie das Testwort in Abhängigkeit vom äußerungsfinalen Wort als „peel“, „meal“ oder „wheel“. Das heißt, die Versuchspersonen hörten in der Äußerung nicht nur ein physikalisch nicht vorhandenes Segment, sondern sie ergänzten gezielt ein Segment, durch das die Gesamtäußerung eine sinnvolle Bedeutung erhielt. Analog zur Bewegungswahrnehmung beim Phi-Phänomen, für die der Zielort bekannt sein muss, ist diese Aktualisierung des Perzeptes erst möglich, wenn mit dem finalen Wort der Gesamtkontext bekannt ist. Ferner ist das durch die „perceptual synthesis“ (Warren und Sherman 1974:155) erzeugte Segment perzeptorisch von den tatsächlich physikalisch vorhandenen Segmenten nicht unterscheidbar ist. Die Hörer erzeugen also das fehlende Segment mit allen dazugehörigen sprecherund kontextspezifischen Merkmalen. Vor diesem Hintergrund ist auch die anschließende Befragung der Versuchspersonen zu sehen, die ergab, dass diese sich ihrer Konstruktions- bzw. Supplementationsleistung nicht bewusst waren. Wie beim Phi-Phänomen war nur das aktuelle Perzept bewusst. Vergleichbare Experimente mit vergleichbarem Ausgang wurden unter anderem von Warren (1970) sowie von Warren und Sherman (1974) durchgeführt. Warren und Obusek (1971) sowie Bashford und Warren (1987) zeigen zudem, dass die phonemic restoration nicht nur Einzelsegmente, sondern auch Silben und ganze Wörter und somit Signalabschnitte von einigen Sekunden umfassen kann (für letzteres vgl. auch Warren und Sherman 1974). Die experimentellen Befunde von Bashford und Warren (1987) weisen ferner auf eine adaptive phonemic restoration hin, deren (maximaler)
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
267 267
zeitlicher Umfang an die durchschnittliche Wortdauer einer Äußerung geknüpft ist. Doch auch jenseits der phonemic restoration im Sinne einer Ergänzung der durch Rauschen verdeckten Signalabschnitte gibt es Hinweise auf Konstruktionsschleifen mit sehr weitreichenden Aktualisierungen von Perzepten im sprachlichen Bereich. Dies lässt sich am Beispiel der Äußerung „Nun wollen wir mal gucken“ demonstrieren. Der Äußerungsabschnitt „Nun wollen wir mal“ kann phonetisch etwa zu [P978nO,C] reduziert werden. Wird dieser Abschnitt für sich genommen Hörern präsentiert, wird er zwar als Sprache erkannt, jedoch nicht verstanden, was auch darauf zurückgeht, dass dem Perzept eine klare Gliederung des phonetischen Materials fehlt (eine Versuchsperson hat ihren Wahrnehmungseindruck z.B. als Sprachbrei umschrieben). Sobald aber der Äußerungsabschnitt durch [M*7M*0] („gucken“) ergänzt wird, hat der Hörer den Eindruck, den vorangehenden Äußerungsabschnitt von Anfang an als klar verständlich und in Form von Einzelwörtern erlebt zu haben. Diesen Effekt, der von Kohler (1998) präsentiert wurde, kann man auch im Selbstversuch sehr gut erfahren. Ähnliche kontextgestützte Rekonstruktionsprozesse sind für das Holländische und das Französische in Perzeptionsexperimenten nachgewiesen worden (vgl. Ernestus et al. 2002; Kemps et al. 2004; Duez 2001). Auf der Grundlage von Phänomenen wie diesen lässt sich nachvollziehen, warum die Sprecher/Hörer einer Sprache sich der enormen phonetischen Variation sprachlicher Einheiten in der Regel nicht bewusst sind. Eine (stetige) Aktualisierung von Perzepten findet auch im tonalen Bereich statt. Im Rahmen der Psychoakustik sind eine Vielzahl von Untersuchungen durchgeführt worden, die zeigen, dass Tonhöhenbewegungen, denen zum Beispiel ein Sinussignal zugrundeliegt und die durch Rauschen unterbrochen sind, als durchgehend perzipiert werden (vgl. Warren 1984; Ciocca und Bregman 1987; Bregman 1990). Wiederum kann diese Durchgängigkeit erst dann perzipiert werden, wenn bekannt ist, mit welcher Tonhöhe die Bewegung nach dem Rauschen fortgesetzt wird. Der fehlende Teil der Bewegung muss also nachträglich ergänzt werden. Auch hierbei wird die tonale Qualität vom Wahrnehmungsapparat mit synthetisiert, sodass der ergänzte Teil, der durchaus einige Sekunden umfassen kann (vgl. Warren und Sherman 1974), perzeptorisch nicht von den tatsächlich vorhandenen Signalbestandteilen unterscheidbar ist. Experimentelle Untersuchungen, die sich mit Konstruktionsschleifen und den daran beobachtbaren perzeptorischen Phänomenen in der Sprechmelodie auseinandersetzen, sind bislang nicht bekannt. Impressionistische Beschreibungen weisen allerdings übereinstimmend darauf hin, dass es auch im Bereich der Sprechmelodie zu einer Aktualisierung des Perzeptes kommt. So schreibt Fox (1984:7) zum Beispiel, das „pitch pattern
268 268
Der WegEinleitung zu einer Theorie
is auditorily continuous“. Für Jones (1969:275) besteht ebenfalls kein Zweifel daran, dass Hörer die Tonhöhenverläufe in der Sprechmelodie „certainly subjectively continuous“ wahrnehmen, obwohl sie an vielen Stellen durch stimmlose Segmente unterbrochen sind (im Durchschnitt trifft dies auf zirka 20% der Signaldauer zu; geschätzt von Jones für das Standardenglische).
Abbildung 52: Oszillogramme (oben), Spektrogramme (Mitte) und F0-Verläufe (unten) der beiden Äußerungen „und Ostermontag“ (links, a) sowie „Anfang Dezember“ (rechts, b). Die Akzentsilben „-mon-“ und „-zem-“ sind grau unterlegt dargestellt. Die vertikalen Linien hierin repräsentieren den Vokalbeginn. Der durch die stimmlosen Lautsegmente mehrfach unterbrochene F0-Verlauf wird als durchgehender hoch ansteigender Tonhöhenverlauf perzipiert. Die Sprachbeispiele finden sich in Dombrowski und Niebuhr (2005a).
Dies kann beispielsweise anhand der Äußerungen aus Abbildung 52(a)-(b), „und Ostermontag“ sowie „Anfang Dezember“, nachvollzogen werden. Die im unteren Fenster dargestellten F0-Verläufe sind an drei bzw. zwei Stellen für ein unterschiedliches Zeitintervall durch stimmlose Obstruenten unterbrochen. Hört man sich diese Äußerungen jedoch an (siehe hierfür Dombrowski und Niebuhr 2005a), entspricht das dazugehörige Perzept in beiden Fällen einem kontinuierlichen hoch ansteigenden Tonhöhenverlauf. Des weiteren berichtet Grabe (1998), dass äußerungsfinal fallende Tonhöhenverläufe immer ein ähnlich tiefes Tonhöhenniveau erreichen, obwohl die dazugehörigen F0-Abstiege (im Deutschen) durch äußerungsfinal stehende stimmlose Segmente zum Teil bereits auf sehr hohem Niveau enden können. Angesichts der vorangehenden Ausführungen ist es naheliegend, dass Grabes Beobachtungen eine Aktualisierung des melodischen Perzeptes und die damit einhergehende Ergänzung der fallenden Tonhöhenbewegung auf ein terminales Niveau beschreiben. Ein weiterer Phänomenbereich, der anzusprechen ist und in dem die stetige Aktualisierung von Perzepten besonders augenscheinlich wird, ist
Zum Begriff Sprechmelodie Gestaltgesetze (und der aktualisierte Konstrukte)
269 269
die Rhythmuswahrnehmung. Bei Handel (1986) findet sich ein Überblick über die hierzu gemachten Beobachtungen für musikalische und sprachliche Rhythmen, denen Handel zufolge ähnliche Wahrnehmungsmechanismen zugrundeliegen. Mit Blick auf Rhythmen im allgemeinen und sprachliche Akzentuierung im Besonderen schreibt Handel (1986:447): „We can conceptualize accenting and de-accenting as opposite sides of the same coin. De-accenting one item has the effect of emphasizing an alternate item. […] All rhythmic phenomena are relational, and changes at one point generate changes throughout the structure.” Die Effekte, die im Rahmen der Einstufung des Perzeptes als aktualisiertes Konstrukt aufgeführt wurden, betonen den kreativen Charakter von Perzepten. Bewegte Elemente werden um Hindernisse herumgeführt, und Lautsegmente sowie sprechmelodische Zeichen werden in einer solchen Form (und an solchen Stellen) in das Perzept eingefügt, dass eine sinnvolle Bedeutung für die jeweilige Äußerung entsteht. Diese Leistungen setzen neben dem Kontrast und den Gestaltgesetzen eine weitere wichtige Komponente der Wahrnehmung voraus, die im Rahmen der Interpretation der (vorverarbeiteten) Wahrnehmungselemente (vgl. hierzu die Systematisierung in 5.5) wirksam wird: Wissen. Um die sprachlichen Ergänzungen durchführen zu können, ist es beispielsweise erforderlich, das Wissen über die Form und die Bedeutung von Morphemen und sprechmelodischen Zeichen sowie über die Grammatik und den Aufbau melodischer Phrasen in die Herstellung des Perzeptes bzw. in die damit einhergehende Interpretation des Kontextes einfließen zu lassen. Auch für die Wahrnehmung des Wortes
_____________ 34
Darüber hinaus kommt bei der Wahrnehmung von Abbildung 37 das Wissen darüber herein, dass das Licht von oben kommt und spezifische Schattenmuster erzeugt. Derartiges Wissen wird von einigen Autoren unter den Gestaltgesetzen subsumiert (vgl. Goldstein 2002). Dies unterstreicht, dass die Gestaltgesetze ebenfalls als eine Form von Wissen zu behandeln sind. Es ist zudem davon auszugehen, dass das in den Gestaltgesetzen enthaltene Wissen nicht immer trennscharf von der im dargestellten Zusammenhang gemeinten prototypischen Form des Wissens abgrenzbar ist. Abschnitt 5.5 wird diesen Problemkreis aufgreifen und Kriterien für die genannte Abgrenzung formulieren.
270 270
Der WegEinleitung zu einer Theorie
stenten Ergänzens bestimmter Lautsegmente nicht mehr stattfindet, wenn Äußerungen aus Logatomen bestehen oder rückwärts gespielt präsentiert werden (vgl. Bashford und Warren 1987). Der Einfluss von Wissen manifestiert sich aber auch darin, dass Muttersprachler eine Äußerung als Abfolge von Einzelwörtern perzipieren, die durch kurze Pausen getrennt sind, während Hörer anderer Sprachen das gleiche Signal als einen kontinuierlichen phonetischen Strom wahrnehmen (vgl. 5.2). Angesichts dessen liegt es ferner nahe, dass die im Rahmen der Figur-Grund-Trennung bei sprachlichen Stimuli umfangreicheren Wahrnehmungsleistungen (vgl. 5.2) auch aufgrund des Wissens über sprachliche Bedeutungen zustande kommen (vgl. u.a. Cherry 1953).
5.5 Zusammenfassung und Schlussfolgerungen Die Ausführungen dieses Kapitels haben eines zweifelsfrei unterstrichen: „Erfahren heißt, ohne Ausnahme in jeder Sinnesmodalität, konstruieren“ (Hoffman 2003:74). Hierzu wurden im Vorangehenden vor allem die auditive und visuelle Wahrnehmung behandelt. In diesem konstruktiven Rahmen wurde Folgendes deutlich. Es ist weitgehend bekannt, wie Hörer von den rezipierten Schallsignalen zu einem Tonhöhenperzept gelangen. Ferner ist anzunehmen, dass Hörer im Falle multidimensional dynamischer komplexer Sprachsignale in Abhängigkeit von der spektralen Stabilität des Signals stationäre Tonhöhen oder Tonhöhenbewegungen erzeugen. Hiervon ausgehend, wurde argumentiert, dass die Wahrnehmung der Sprechmelodie über eine differentielle Tonhöhenwahrnehmung hinausgehen muss. Da es sich bei Sprechmelodie um ein Instrument der Kommunikation handelt, bedeutet die Wahrnehmung der Sprechmelodie das Herausarbeiten der kommunikativen Informationen im Sinne der Identifikation und Separation der sprechmelodischen Zeichen. Es ist naheliegend, dass sich dies nicht nur funktional, sondern auch prozessoral von einer rein tonalen Wahrnehmung abhebt. Bislang gibt es jedoch keine Theorie zur Wahrnehmung der Sprechmelodie. Weitergehend wurde argumentiert, dass die Abgrenzung und Identifikation bedeutungsvoller, handlungsbestimmender Entitäten modalitätsübergreifend das Ziel der Wahrnehmung darstellt. Für den visuellen und auditiven Bereich wurde anschließend illustriert, dass die Wahrnehmung hierbei vor vergleichbaren Problemen steht und dass diese Probleme in vergleichbarer Weise angegangen werden. Das heißt, es kann angenommen werden, „that the principles underlying event perception must be similar across different modalities. Thus the perceptual dispositions, rules, and strategies that lead
Zum Begriff der Zusammenfassung undSprechmelodie Schlussfolgerungen
271 271
visual elements to be seen as one or more events must be similar to those that lead auditory elements to be heard as one or more events“ (Handel 1986:185f). In diesem Zusammenhang wurden drei grundlegende Komponenten der Wahrnehmung vorgestellt und anhand von Beispielen erläutert: Kontrastmechanismen, Gestaltgesetze und Wissen. Bezüglich des Kontrastes wurde zwischen Mechanismen differenziert, die unmittelbar nach der Rezeption oder in höheren Verarbeitungsschritten ansetzen. Kontrast und Gestaltgesetze sind beim Zustandekommen des Perzeptes eng miteinander verknüpft. Die Kontrastmechanismen arbeiten Reiz- bzw. Wahrnehmungselemente heraus, die dann mit Hilfe der Gestaltgesetze nach dem Grundsatz möglichst einfacher Verbindungen zu größeren Einheiten gruppiert werden. Sowohl durch die Kontrastmechanismen, als auch durch die Gestaltgesetze kommt die zentrale Stellung des Kontextes in der Wahrnehmung zum Ausdruck. Das heißt zum Beispiel, dass die phänomenalen Eigenschaften von Wahrnehmungselementen (wie etwa Helligkeit in der visuellen oder Tonhöhen, Länge und Lautheit in der auditiven Wahrnehmung) ebenso wie die Identifikation von Wahrnehmungselementen als Entitäten nicht direkt aus den jeweils dazugehörigen Elementen des (proximalen) Reizmusters hervorgehen, sondern sowohl auf lokalerer Ebene durch die angrenzenden Reizelemente, als auch auf globalerer Ebene durch alle Wahrnehmungselemente des Gesamtperzeptes mitbestimmt werden. In diesem Zusammenhang wurde darauf hingewiesen, dass sich Kontexte – insbesondere in der auditiven Wahrnehmung – über die Zeit hinweg entwickeln. Es wurde anhand von Beispielen aufgezeigt, dass es in solchen Fällen im Rahmen von Konstruktionsschleifen zu einer (stetigen) Aktualisierung des Perzeptes kommt, wobei dem Betrachter bzw. Hörer immer nur das jeweils zuletzt ausgegebene Perzept bewusst ist. Im Rahmen der Konstruktionsschleifen hat sich besonders deutlich gezeigt, dass die zugrundeliegenden Stimuli in sinnvoller Weise ergänzt oder umstrukturiert werden können. Vor diesem Hintergrund wurde die dritte essentielle Komponente der Wahrnehmung, das Hinzuziehen von Wissen, eingeführt. Insgesamt wird aus der Kontrastbildung und -verstärkung, den Gestaltgesetzen und dem Hinzuziehen von Wissen sowie den damit jeweils zusammenhängenden Effekten zweifelsfrei erkennbar, dass Wahrnehmung immer auch Interpretation bedeutet. Das heißt, die Behandlung der in 5.2 skizzierten Identifikations- und Separationsprobleme mündet nicht in ein eindeutiges, sondern in ein mögliches perzeptorisches Ergebnis. Das Perzept repräsentiert insofern keine endgültige Lösung der Probleme. Dies steht im Einklang mit der gegenwärtigen Vorstellung von der auditiven und visuellen Wahrnehmung als Hypothesengenerator, bei dem
272 272
Der WegEinleitung zu einer Theorie
das Perzept als bester Kandidat aus einer Wahrscheinlichkeitsanalyse aller möglichen Interpretationen des Reizmusters hervorgeht (vgl. Gregory 1998; Goldstein 2002; Hoffman 2003).
Abbildung 53: Darstellung eines Entwurfs von der Organisation der auditiven Wahrnehmung in Anlehnung an Gregory (1998). Das Perzept geht aus einem Hypothesengenerator hervor, der das rezipierte und im Rahmen automatischer Prozesse vorverarbeitete Signal mit Hilfe von heuristischen Regeln und verfügbarem Wissen interpretiert und modifiziert. Entsprechend findet auch die Identifikation von Entitäten im Hypothesengenerator statt. Das Organigramm ist horizontal in zwei Hälften eingeteilt. Die untere gibt den Verarbeitungsabschnitt wieder, der durch die Theorien zur tonalen Wahrnehmung abgedeckt ist. Die obere kommt bei der Wahrnehmung der Sprechmelodie hinzu.
Zum Begriff der Zusammenfassung undSprechmelodie Schlussfolgerungen
273 273
Abbildung 53 illustriert diese Vorstellung in groben Zügen anhand ei-nes Organigramms, das auf einer Darstellung von Gregory (1998) basiert. Es wurde auf den zentralen Gegenstand dieser Arbeit, die Sprechmelodie, adaptiert. Ferner wurden die im Rahmen dieses Kapitels vorgestellten Mechanismen und Phänomene in die gegebenen Strukturen integriert. In diesen Strukturen ist die Chronologie der Verarbeitung ferner dahingehend vereinfacht worden, dass einzelne Schritte an prozessoralen Knotenpunkten zusammengefasst wurden. Dies trägt dem bislang tentativen Charakter der Strukturen Rechnung und resultiert in einem klareren Gesamtüberblick. Hierin kristallisiert sich heraus, dass dem Wahrnehmungsprozess ein Stufenkonzept zugrundegelegt wird, wie es bereits von Donders 1860 entworfen wurde (siehe hierzu Sternberg 1969) und nachfolgend in zahlreiche Wahrnehmungsmodelle eingeflossen ist (z.B. Marr 1982 und Treisman 1987). Für den Rahmen der vorliegenden Arbeit soll jedoch offen gelassen werden, wie dieses Konzept im Detail auszusehen hat. Der Hypothesengenerator, der im Mittelpunkt des dargestellten Wahrnehmungsprozesses steht, erhält die aufbereiteten und vorverarbeiteten Wahrnehmungselemente. Er interpretiert und modifiziert diese unter Bezugnahme auf heuristische Regeln wie die Gestaltgesetze sowie mit Blick auf zur Verfügung stehendes Wissen und gibt ein Perzept aus. Metaphorisch werden die Vorverarbeitungsstufen, die als Automatismen arbeiten und aus denen das „von unten kommende“ Eingangssignal für den Hypothesengenerator entsteht, als bottom-up Verarbeitung bezeichnet. Die Kontrastmechanismen können diesem Verarbeitungszweig zugeordnet werden. Das Eingangssignal wird mit Bezug auf das „von oben kommende“ top-down Wissen interpretiert. Hieraus resultieren Erwartungen. Diese bilden die Basis für Modifikationen. Letzteres repräsentiert die als kognitiv zu charakterisierende Komponente in der Wahrnehmung. Hierin und in den damit zusammenhängenden perzeptorischen Phänomenen deutet sich an, dass die Unterscheidung zwischen bottom-up und top-down in gewissem Maße mit der Unterscheidung zwischen Separation und Identifikation korrespondiert. Während im Rahmen der bottom-up Prozesse Separationsaspekte behandelt werden, spielt top-down Wissen insbesondere bei der Identifikation von Wahrnehmungselementen eine Rolle. Zu top-down Wissen zählt im Falle der Wahrnehmung der Sprechmelodie zum Beispiel das Wissen über die Form und die Bedeutung sprechmelodischer Zeichen sowie über den Aufbau einer melodischen Phrase. Der Vorgang der Identifikation wird im Rahmen der hier gegebenen Strukturen im Hypothesengenerator angesiedelt. Heuristische Regeln wie die Gestaltgesetze nehmen in der skizzierten prozessoralen bzw. funktionalen Differenzierung zwischen bottom-up Signalen und top-down Wissen eine Zwitterstellung ein. Einerseits repräsentie-
274 274
Der WegEinleitung zu einer Theorie
ren Gestaltgesetze eine Art von Wissen, und die Gruppierung von Wahrnehmungselementen zu geschlossenen größeren Einheiten kann als eine Form von Interpretation aufgefasst werden. Andererseits stellen die Gestaltgesetze ein feststehendes inflexibles (also zum Beispiel nicht erweiteroder veränderbares) Wissensgebilde dar. Dementsprechend ergibt sich aus der Anwendung der Gestaltgesetze immer ein klar umrissenes Spektrum von Effekten. Insofern können sie als ein Automatismus charakterisiert werden, mit dem kreative Interpretationen wie kontextbasierte Ergänzungen bzw. Vervollständigungen von Entitäten wie Wörtern oder sprechmelodischen Zeichen nicht zu leisten sind. Ferner gehen Gestaltgesetze in die gesamte Verarbeitungskette aus Vorverarbeitung und Interpretation ein. Was die Vorverarbeitung anlangt, so sind die Gestaltgesetze den Theorien der tonalen Wahrnehmung zufolge bereits in die Bildung von Tonhöhen aus den rezipierten Frequenzspektren involviert (vgl. 5.1). In der weiteren Verarbeitung dieser Tonhöhen zu sprechmelodischen Zeichen müssen die Gestaltgesetze angesichts beobachteter Phänomene erneut zur Anwendung kommen. Julesz und Hirsh (1972) sind ebenfalls der Auffassung, dass die Gestaltgesetze für die Entstehung von Mikro- und Makromustern gleichermaßen relevant sind. Diesem Umstand, der abermals die Zwitterstellung der Gestaltgesetze herausstellt, Rechnung tragend, kommen die Gestaltgesetze in Abbildung 53 auf Seitenwegen in die Verarbeitungskette. Dabei wird, über die bottom-up Verarbeitung hinweg betrachtet, die beschriebene enge Verflechtung von Kontrastmechanismen und Gestaltgesetzen sehr gut erkennbar. Es muss unterstrichen werden, dass das moderne Bild von der auditiven (und visuellen) Wahrnehmung, das in dem Organigramm aus Abbildung 53 reflektiert wird, nicht nur eine strukturelle, sondern auch eine konzeptuelle Vereinfachung darstellt. Beispielsweise sind die angesprochenen Konstruktionsschleifen hierin nicht enthalten. Ferner ist auf dem derzeitigen Forschungsstand unklar, wie genau bottom-up und top-down Prozesse beim Zustandekommen des Perzeptes interagieren. Findet eine modalitäts- und/oder reizspezifische Interaktion statt? In welchem Ausmaß kann das top-down Wissen das bottom-up Signal modifizieren? Der angesprochene bidirektionale Informationsfluss, der im Rahmen des Wahrnehmungsprozesses angenommen werden kann (vgl. Fußnote 32), erfordert zudem eine nicht lineare Konzeption, der in einem Stufenmodell nur schwer Rechnung getragen werden kann. Dennoch soll das Organigramm aus Abbildung 53, insbesondere die darin enthaltenen Komponenten und ihre Beziehungen, für die nachfolgend dargestellten Ansätze einer kontrastbasierten Theorie zur Wahrnehmung der Sprechmelodie berücksichtigt werden. Vor diesem Hinter-
Zum Begriff der Zusammenfassung undSprechmelodie Schlussfolgerungen
275 275
grund ist es horizontal in zwei Hälften eingeteilt. Die untere Hälfte repräsentiert den Verarbeitungsabschnitt, der durch die bisherigen Theorien zur tonalen Wahrnehmung abgedeckt ist und aus dem die tonalen Elemente (Tonhöhen und Tonhöhenbewegungen) hervorgehen, die am Eingang der Kontrast-Theorie stehen werden. Die obere Hälfte stellt die Verarbeitungsschritte und -mechanismen dar, die in der Kontrast-Theorie von Bedeutung sein werden. Im Zusammenhang mit dieser Einteilung ist die bereits angesprochene strukturelle Vereinfachung zu berücksichtigen. Diese Einteilung kann durch eventuell ausgesparte Zwischenschritte in gewissem Maße unpräzise sein. Dies ist durch gepunktete Linien, die über die horizontale Einteilung hinweg führen, kenntlich gemacht. Wie aus der oberen Hälfte des Organigramms ersichtlich wird, beinhaltet die Kontrast-Theorie zur Wahrnehmung der Sprechmelodie die drei prozessoralen Komponenten, die für die Wahrnehmung charakteristisch sind und die zuvor bereits explizit vorgestellt wurden: (höhere) Kontrastmechanismen, Gestaltgesetze und top-down Wissen. Dies bedeutet auch, dass die Kontrast-Theorie die für die (auditive) Wahrnehmung charakteristische Aktualisierung von Perzepten im Rahmen von Konstruktionsschleifen berücksichtigt. In diesem Sinne liegt der Kontrast-Theorie die fundamentale Ansicht zugrunde, „dass Wahrnehmungen nur locker mit der Wirklichkeit verknüpft sind“ (Gregroy 1998:309).
6 Ansätze einer Kontrast-Theorie zur Wahrnehmung der Sprechmelodie Nachfolgend werden theoretische Überlegungen zur Wahrnehmung der Sprechmelodie präsentiert. Diese theoretischen Überlegungen werden zu Ansätzen einer Theorie formiert. Es ist folglich nicht das Ziel dieses Kapitels, ein fertiges, geschlossenes Theoriegebilde darzulegen. Vielmehr soll ein erster Entwurf für eine Denkrichtung aufgezeigt werden, bei der die sprechmelodischen Phänomene und offenen Fragen von einem perzeptorischen Blickwinkel aus angegangen werden. Gestaltet wurde der Entwurf, indem die Ergebnisse experimenteller Untersuchungen und ohrenphonetischer Analysen zur Sprechmelodie vor dem Hintergrund des in 5.5 vorgestellten und in Abbildung 53 skizzierten Konzeptes der (auditiven und visuellen) Wahrnehmung verschmolzen werden. Diesem Konzept Rechnung tragend, wird auf einen Konstruktionsprozess hingearbeitet, der Kontrastbildung und -verstärkung an den Ausgangspunkt der Wahrnehmung stellt. Aus den durch die Kontrastverstärkung expandierten Kontrasten werden unter Einbeziehung von Wissen Prominenzen konstruiert, die mit Hilfe von Gestaltgesetzen die Entstehung ganzheitlicher Konstruktionseinheiten bestimmen. Diese Konstruktionseinheiten werden als Grundlage für die Kodierung zweier zentraler sprechmelodischer Bedeutungstypen erachtet: Hervorhebung und attitudinale Bedeutung. Im Anschluss an die Entwicklung der theoretischen Ansätze und den damit einhergehenden allgemeinen phonologischen Implikationen werden spezifische phonologische Überlegungen formuliert, die sich vor dem Hintergrund der beiden Forschungsfragen (vgl. 1.4) auf den attitudinalen Bedeutungstyp beziehen und hierin zunächst nur die behandelte Zeichentriade bzw. dessen phonetisches Spektrum berücksichtigen (vgl. 2.2 und 2.5). Demzufolge werden unter anderem solche Bedeutungen nicht mit einbezogen, die durch den Melodieverlauf am Ende einer Äußerung oder einer melodischen Phrase zum Ausdruck gebracht werden. Beispiele für diesbezügliche Bedeutungsunterschiede wurden in 1.3.1 vorgestellt. Diese Einschränkung ist auch deswegen sinnvoll, da die Ansätze zur KontrastTheorie noch kein geschlossenes Theoriegebilde darstellen, das breit angelegten phonologischen Überlegungen zugrundegelegt werden kann. Letzteres gilt ferner auch für den Bedeutungstyp der Hervorhebung.
278 278
Einleitung Ansätze zu einer Kontrast-Theorie
6.1 Die Grundlagen der Ansätze zur Kontrast-Theorie Im fünften Kapitel wurde erläutert, dass die Wahrnehmung im allgemeinen darauf ausgerichtet ist, bedeutungsvolle, handlungsbestimmende Entitäten zu erkennen und gegeneinander abzugrenzen, um auf diese Weise eine erfolgreiche Interaktion des Individuums mit seiner Umwelt zu ermöglichen. Im Falle der Sprechmelodie sind diese Entitäten Träger kommunikativer Bedeutungen. Einer Theorie zur Wahrnehmung der Sprechmelodie muss das genannte Wahrnehmungsziel zugrundegelegt werden. Das heißt, um zu erklären, wie das sprechmelodische Perzept zustande kommt, ist es essentiell zu verstehen, wie auf Basis der eingehenden Reize bedeutungstragende Einheiten der Sprechmelodie identifiziert und separiert werden. Hierfür ist es wiederum zuvor erforderlich, grundlegende Überlegungen zur phonologischen Form dieser Einheiten anzustellen. Bezüglich der Identifikation und Separation wurde im fünften Kapitel anhand von Beispielen dargelegt, dass keine direkte Verbindung zwischen den ankommenden Reizen und den Entitäten im Kopf des Sprechers hergestellt werden kann. Die dafür notwendigen Strukturen und Eindeutigkeiten sind weder in visuellen noch in auditiven Reizen per se gegeben. Dass dies folglich auch für Sprachsignale gilt, ist unter anderem in dem unter 1.1 entwickelten Abbildkonzept angeklungen. Dementsprechend kann die Identifikation und Separation von Entitäten nicht im Rahmen eines (zeitlich linearen) Automatismus stattfinden. Vielmehr bedarf es eines aktiven, interpretativen Konstruktionsprozesses. Hinsichtlich dieses Konstruktionsprozesses wurde argumentiert, dass die visuelle und auditive Wahrnehmung grundsätzliche strategische Parallelen aufweisen. Hierzu zählen unter anderem die Bildung und Verstärkung von Kontrasten zwischen Wahrnehmungselementen als Vorbereitung für die Gruppierung dieser Elemente zu größeren Einheiten mit Hilfe eines Inventars heuristischer Regeln, der sogenannten Gestaltgesetze. In die Konstruktion dieser Einheiten (ebenso wie in deren Identifikation) fließt ferner top-down Wissen ein. Das letztlich ausgegebene Perzept repräsentiert somit kein Faktum, sondern eine auf den zur Verfügung stehenden (Reiz-)Informationen basierte Schlussfolgerung. Im Rahmen eines sich über die Zeit entwickelnden Kontextes – eine Bedingung, die insbesondere in der auditiven Wahrnehmung und somit auch in der Wahrnehmung der Sprechmelodie relevant ist – kann diese Schlussfolgerung und damit das Perzept revidiert werden. Das heißt, die Konstruktionseinheiten und die sie konstituierenden Wahrnehmungselemente werden reorganisiert und ggf. als andere Entitäten identifiziert. Diese Konstruktionsschleifen bleiben dem perzipierenden Individuum in der Regel verborgen, Es ist sich immer nur des gerade aktuellen Perzeptes bewusst.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
279 279
Abbildung 54: Der für die Wahrnehmung der Sprechmelodie relevante Auszug aus dem gegenwärtigen Bild der auditiven und visuellen Wahrnehmung, das in Abbildung 53 wiedergegeben ist. Hiernach ist Sprechmelodie ein Konstrukt, das auf den folgenden drei Säulen fußt: höheren Kontrasten, Gestaltgesetzen und Wissen.
Vor dem Hintergrund des zuvor zusammengefassten Forschungsüberblicks wird angenommen, dass das skizzierte, aus der Empirie abgeleitete allgemeine Grundprinzip der Konstruktion, das in Abbildung 54 schematisch dargestellt ist, auf die Wahrnehmung der Sprechmelodie angewandt werden kann. Demzufolge beruht die Wahrnehmung der Sprechmelodie auf drei Säulen: Kontrast, Gestaltgesetze und Wissen. Dabei klingt in der Abbildung bereits an, dass Kontraste die Grundlage für alle folgenden Arbeitsschritte bilden und somit letztlich für die Wahrnehmung der Sprechmelodie insgesamt essentiell sind. Mit dieser fundamentalen Rolle des Kontrastes konform gehend, betont Gregory (1998:238): „Wahrnehmung und Sprache brauchen Kontrast, um eine Bedeutung zu haben“. Dies wird auch durch die Bezeichnung der Ansätze als ‚Kontrast-Theorie’ zum Ausdruck gebracht. Die Annahmen aus Abbildung 54 werfen zudem eine Reihe von Fragen auf. Worüber zum Beispiel werden die Kontraste gebildet, und worauf beziehen sich die Gestaltgesetze? Um diese Fragen anzugehen, werden im Einklang mit den Ausführungen zu Beginn dieses Abschnitts phänomenale und funktionale Aspekte der Sprechmelodie betrachtet. Vorweg wird geschildert, was am Ausgangspunkt des Konstruktionsprozesses steht.
280 280
Einleitung Ansätze zu einer Kontrast-Theorie
6.1.1 Der Ausgangspunkt bei der Wahrnehmung der Sprechmelodie In 5.3 wurde bereits darauf hingewiesen, dass die auditive und visuelle Wahrnehmung als synthetisierende Abläufe konzeptualisiert werden, an deren Anfängen fundamentale Elemente stehen, die sukzessive zu größeren Einheiten zusammengefügt werden. Bezogen auf die visuelle Wahrnehmung unterstreicht Hoffman (2003:33) die Mehrstufigkeit des Vorgangs wie folgt: „Eine visuelle Szene konstruieren Sie nicht in einem Schritt, sondern etappenweise. Meist beruht die Konstruktion einer Stufe auf den Ergebnissen anderer Stufen, das heißt, die Konstruktionen der vorangegangenen Stufen sind ihr Ausgangspunkt“. Analog zur visuellen Wahrnehmung sind die Konstruktion der Sprechmelodie und der hierfür skizzierte Konstruktionsprozess in der auditiven Wahrnehmung ebenfalls Bestandteil einer mehrstufigen übergeordneten Verarbeitung, der auf früheren Stufen aufbaut (vgl. Abb. 53 in 5.5). Hieraus resultiert die Frage, was den Ausgangspunkt zur Konstruktion der Sprechmelodie darstellt. Gemäß den Ausführungen in 5.1 handelt es sich bei der Konstruktion der Sprechmelodie um eine höhere Stufe innerhalb der Verarbeitung insgesamt. Zwischen der Konstruktion der Sprechmelodie und der Rezeption des akustischen Signals steht unter anderem die Konstruktion der Tonhöhe. Der theoretische Rahmen hierzu besagt, dass diese tonale Konstruktion mit Hilfe der Gestaltgesetze auf Basis eines in einer zentralen Matrix analysierten Frequenzspektrums abläuft. Unabhängig von diesem theoretischen Konzept wurde gezeigt, dass das Profil des Frequenzspektrums zuvor durch den Kontrastmechanismus der lateralen Inhibition deutlicher herausgearbeitet wurde (vgl. 5.3; hierin kommt erneut das enge Zusammenwirken von Kontrastmechanismen und Gestaltgesetzen und die grundlegende Relevanz dieser Strategie zum Ausdruck). In einem sprachlichen Zusammenhang ist des weiteren zu beachten, dass die tonalen Konstrukte über unterschiedlich stabilen spektralen Abschnitten vorkommen. Die Variabilität des Spektrums entsteht in erster Linie infolge der Artikulation zur Kodierung der bedeutungstragenden Einheiten im lautlichen Kanal (vgl. 1.2.4). Der theory of optimal tonal perception von House (1990) zufolge werden in Abhängigkeit von der spektralen Stabilität des Signals entweder Tonhöhenbewegungen oder stationäre Einzeltöne konstruiert. In spektral stabilen Abschnitten werden Tonhöhenbewegungen, sonst einzelne Tonhöhen erzeugt. Diese Sequenzen aus stationären Tonhöhen und Tonhöhenbewegungen stehen am Ausgangspunkt der Konstruktion der Sprechmelodie. Diesbezüglich wird auf einige experimentelle Untersuchungen hingewiesen, die dem Zusammenhang zwischen dem F0-Verlauf und den konstruierten Tonhöhenereignissen nachgegangen sind. So haben zum Beispiel d’Alessandro et al. (1995) und House (1999) Perzeptionsexperimente durchgeführt, die auf die Bezie-
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
281 281
hung zwischen der Tonhöhe stationärer Einzeltöne in Silben und dem F0Inhalt dieser Silben ausgerichtet waren. Rossi (1971) hat untersucht, in welchem Umfang F0-Bewegungen auf wahrgenommene Tonhöhenbewegungen abgebildet werden. Neben der Tonhöhe stehen auch die Konstrukte von Dauer und Intensität, d.h. Länge und Lautheit, am Ausgangspunkt der Wahrnehmung der Sprechmelodie. Die Einzelheiten zur Konstruktion beider perzeptorischer Größen und ihre Beziehung zu den akustischen Korrelaten sollen an dieser Stelle nicht weiter ausgeführt werden. Es ist allerdings darauf hinzuweisen, dass in dieser Beziehung intrinsische Variationen, die im akustischen Reizsignal enthalten sind, auf perzeptorischer Seite (partitiell) kompensiert werden. Dies gilt auch in der Beziehung zwischen F0 und Tonhöhe. Daneben bestehen Interaktionen zwischen Tonhöhe, Länge und Lautheit. Diese Aspekte werden in 7.2.2 weiter aufgeschlüsselt und mit dem entwickelten theoretischen Rahmen in Beziehung gesetzt. Wenn wie erläutert – neben Länge und Lautheit – stationäre Einzeltöne und Tonhöhenbewegungen am Ausgangspunkt der Wahrnehmung der Sprechmelodie stehen, ergibt sich die Frage, welche zeitlichen Einheiten als Träger dieser Größen fungieren. Hierbei ist es sinnvoll von einer Einheit auszugehen, die im Hinblick auf die Dekodierung sprachlicher Informationen eine sinnvolle Größe hat. Die Silbe wird vor dem Hintergrund empirischer Untersuchungen und theoretischer Überlegungen vielfach als zentraler Baustein des sprachlichen Informationsaustauschs im allgemeinen und damit als die maßgebliche Bezugsgröße für die Dekodierung bedeutungstragender Einheiten betrachtet. Dieser Annahme liegen unter anderem informationale Gesichtspunkte zugrunde. Hierbei wird argumentiert, dass die Silbe einen direkteren Zugang zu sprachlich kodierten Informationen bietet als beispielsweise das Einzelsegment (vgl. Rubin 1974). Als direkter ist der Zugang anzusehen, da bedeutungstragende Einheiten wie Morpheme und Lexeme vielfach Einsilbler sind. Dies trifft nach einer Analyse von Kucera und Francis (1967), auf die Rubin (1974) verweist, zum Beispiel auf die 57 häufigsten englischen Wörter zu. Demgegenüber sind Lautsegmente „with few exceptions […] totally neutral with respect to syntax and semantics” (Rubin 1974:193). In diese Argumentationslinie passt auch der Hinweis von Ohala (1992), dass die kodierten sprachlichen Informationen nicht (nur) in stationären Abschnitten des Signals zu suchen sind, sondern (vor allem) in den Bewegungen zwischen den stationären Abschnitten. Eine für die Dekodierung sinnvolle sprachlich-segmentelle Referenz ist folglich eine Einheit, die sich aus mindestens zwei traditionellen Lautsegmenten konstituiert. Auch hierhinter steckt die Erkenntnis, dass einzelne Lautsegmente
282 282
Einleitung Ansätze zu einer Kontrast-Theorie
einen weniger direkten Zugang zu sprachlich kodierten Informationen herstellen. Vor dem Hintergrund der genannten Argumente gibt Rubin (1974) allerdings zu bedenken, dass mit zunehmender Größe der sprachlichen Referenzelemente die Menge dieser Referenzelemente, die für die Kodierung der sprachlichen Informationen notwendig sind, anwächst. Aufgrund desselben Zusammenhangs brauchen auch Wortschriften aus Logogrammen und Silbenschriften ein größeres Symbolinventar als Alphabetschriften, um alle bedeutungstragenden Einheiten der jeweiligen Sprache repräsentieren zu können (vgl. hierzu Crystal 1995). Die prozessorale Belastung, die mit einer anwachsenden Menge an Referenzelementen einhergeht, insbesondere bezüglich der paradigmatischen Entscheidungsfindung bei der Bestimmung dieser Elemente im Sprechfluss, wird unter anderem von Liberman et al. (1967) als ökonomisches Argument gegen die Silbe und für das Segment als sprachliches Grundelement ins Feld geführt. Rubin (1974) stellt diesem Einwand jedoch experimentelle Befunde entgegen, die zeigen, dass Hörer in die paradigmatische Entscheidungsfindung die relative Auftretenshäufigkeit der Silben mit einfließen lassen. Dies senkt die prozessorale Belastung entscheidend ab. Darüber hinaus kann die Silbe sogar als das ökonomischere Referenzelement angesehen werden, da sie weniger anfällig für kontextuelle Variation ist als das Segment (vgl. Clark und Yallop 1995). Die Ergebnisse der akustischen und perzeptorischen Untersuchungen, die im dritten Kapitel zu den drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET wiedergegeben wurden, weisen darauf hin, dass die Silbe auch aus sprechmelodischer Sicht eine sinnvolle Informationseinheit darstellt. Dies ist beispielsweise an der Synchronisation der F0Gipfel zu signifikanten Punkten der Silbe abzulesen. Unter anderem hat sich gezeigt, dass der Anstieg zum F0-Gipfel für das Zeichen NEU mit dem Beginn der Akzentsilbe einsetzt. Analog dazu wird der Abstieg vom F0-Gipfel für GEGEBEN so koordiniert, dass dessen Endpunkt mit dem Ende des Nukleus der Akzentsilbe zusammenfällt. Ferner hat sich die Position des Gipfelmaximums in Relation zum Beginn des Silbenkerns als relevant für die Unterscheidung der beiden Zeichen GEGEBEN und NEU herausgestellt. Letztlich ist auch zu berücksichtigen, dass sich in den Experimenten, die im Rahmen der vorliegenden Arbeit durchgeführt wurden, die silbenweise Variation von Dauer und Intensität in lautlichen Elementen als effektiv für die Wahrnehmung aller drei genannten Zeichen erwiesen hat. Zusätzlich zu den informationalen Gesichtspunkten werden psychologische Erkenntnisse zur Untermauerung der zentralen Stellung der Silbe in der Wahrnehmung von Sprache angeführt. Hiernach zum Beispiel harmo-
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
283 283
nieren die prozessoralen Eigenschaften des auditiven Wahrnehmungsapparates sehr gut mit den phonetischen Eigenschaften der Silbe. So liegt unter anderem das bei der auditiven Verarbeitung integrierte Zeitintervall im Bereich der durchschnittlichen Silbendauer (vgl. Lenneberg 1967; Massaro 1972). Auch bei der systematischen Untersuchung von Versprechern kristallisiert sich die Bedeutung der Silbe heraus. Tent und Clark (1980) demonstrieren beispielsweise, dass Hörer eingebaute Fehler auf der Silbenebene schneller und zuverlässiger erkennen als auf der Segmentebene. Experimentelle Untersuchungen von Savin und Bever (1970) haben zuvor bereits ergeben, dass Silben schneller identifiziert werden als Einzelsegmente. Wird die kognitive Verarbeitung in einer zeitlichen Perspektive gesehen, so sind Befunde der beschriebenen Art Indikatoren dafür, dass die Verarbeitungseinheit der Silbe grundlegender ist (d.h. z.B. in einem frühen Stadium vorliegt) als die des Segmentes, die somit erst aus einer weiteren Analyse der silbischen Einheiten hervorgehen muss. Damit stehen empirisch basierte Erkenntnisse im Gegensatz zur traditionellen linguistischen Denkweise, in der das Segment am Ausgangspunkt der Sprache steht. In Anbetracht der zahlreichen Hinweise für ihre fundamentale Bedeutung in der Sprachwahrnehmung wird die Silbe in den Ansätzen zur Kontrast-Theorie als Basiseinheit für den in Abbildung 54 skizzierten Konstruktionsprozess der Sprechmelodie postuliert. Dies steht unter anderem im Einklang mit der von Handel (1986) vertretenen Auffassung. Nicht nur die Tonhöhe ist ein Konstrukt, das im Laufe der Verarbeitungsstufen in der auditiven Wahrnehmung entsteht. Auch die Silbe bzw. Silbigkeit an sich ist konstruiert. Besonders deutlich wird der Konstruktcharakter der Silbe in den Berichten von perzeptorischen Veränderungen sichtbar, die an die Geschwindigkeit der Präsentation sprachlicher Stimuli gebunden sind. Im Zusammenhang mit der Aktualisierung von Perzepten wurde in 5.4 zum Beispiel erläutert, dass die Wortsequenz „Anna Mary Candy Lights Since Imp Pulp Lay Things“ als Äußerung „An American delights in simple play things“ perzipiert werden kann, wenn die Präsentationsgeschwindigkeit eine bestimmte Schwelle nach oben überschreitet. Mit dieser perzeptorischen Veränderung geht eine Reorganisation der Silbenstruktur einher35. In anderen Experimenten konnte gezeigt werden, dass _____________ 35
Es ist denkbar, dass der Grund für die von der Präsentationsgeschwindigkeit abhängige Konstruktion der Silben mit dem Intervall zusammenhängt, über das hinweg die auditive Wahrnehmung das eintreffende Sprachsignal integriert. Die Variation der Geschwindigkeit führt dazu, dass mehr oder weniger phonetisches Material in das integrierte Zeitintervall fällt und so eine unterschiedliche Ausgangsbasis für die Herstellung von Silben geschaffen wird. Da ferner die Sprechgeschwindigkeit sprachindividuellen Konventionen unterliegen
284 284
Einleitung Ansätze zu einer Kontrast-Theorie
Versuchspersonen Einzelsilben wie [5a] ab einer bestimmten Präsentationsgeschwindigkeit als zwei aufeinander folgende Silben wahrnehmen, wobei zudem in der zweiten Silbe ein [d] vor dem vokalischen Nukleus [a] eingefügt wird (vgl. Handel 1986). Mit diesen experimentellen Befunden zur Konstruktion der Silbe steht ferner im Einklang, dass Sprecher unterschiedlicher Sprachen – gegebenenfalls aufgrund sprachspezifischer rhythmischer oder phonotaktischer Regularien – zu unterschiedlichen Silbeneinteilungen für vergleichbare phonetische (Laut-)Sequenzen gelangen. In Anbetracht dessen ist es nicht verwunderlich, dass Tamburini (2006:57) vor dem Hintergrund maschineller Sprachverarbeitung konstatiert: „Unfortunately, the automatic segmentation of an utterance into syllables is a challenging task“.
Abbildung 55: Schematische Darstellung möglicher Tonhöhenkonstrukte in Silben unter Berücksichtigung der Theorie von House (1990). Sequenzen aus solchen silbenweisen Tonhöhenkonstrukten stehen – zusammen mit den dazugehörigen Längen und Lautheitsmustern – am Ausgangspunkt zur Wahrnehmung der Sprechmelodie.
Zusammenfassend besagen die vorangegangenen Ausführungen, dass die Tonhöhen und Tonhöhenbewegungen gemeinsam mit (den dazugehörigen) Längen und Lautheitsmustern silbenweise in den Konstruktionsprozess der Sprechmelodie eingegeben werden. Im Hinblick auf Abbildung 54 bedeutet dies, dass sie zunächst in einen höheren Kontrastmechanismus eingehen. Abbildung 55 enthält auf der Basis von House (1990) einen schematisch dargestellten Auszug aus dem Inventar denkbarer silbenbezogener Tonhöhenkonstrukte, der mit Blick auf meine eigenen Erfahrungen für das Standarddeutsche als besonders charakteristisch angesehen werden kann (vgl. hierzu auch Stock und Zacharias 1973; Adriaens 1991 und von Essen 1964).
_____________ kann, scheint auch die sprachspezifische Wahrnehmung von Silben über das genannte prozessorale Merkmal erklärbar.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
285 285
6.1.2 Phänomenale Aspekte der Sprechmelodie Für den phänomenal orientierten Betrachter nimmt das Tonhöhenmuster eine zentrale Stellung innerhalb der Sprechmelodie ein. Darüber hinaus besteht Sprechmelodie jedoch auch aus Prominenzen (siehe hierzu 1.2.3). So treten zum Beispiel im Tonhöhenmuster unterschiedliche Töne unterschiedlich deutlich hervor36. Der Bezug zu Tönen darf nicht dahingehend missverstanden werden, dass sich Sprechmelodie ausschließlich aus stationären Einzeltönen zusammensetzt. Von einem perzeptorischen Blickwinkel aus gesehen sind Tonhöhenbewegungen ein wichtiger und möglicherweise sogar dominierender Bestandteil der Sprechmelodie. Dass Tonhöhenbewegungen – neben stationären Einzeltönen – innerhalb der Sprechmelodie grundsätzlich vorkommen, geht ferner konform mit dem in 6.1.1 umrissenen theoretischen Hintergrund zur tonalen Wahrnehmung in Sprachsignalen (vgl. auch Abb. 55 und die theory of optimal tonal perception von House 1990 in 5.1). Allerdings ist es für den aufmerksamen Beobachter der Sprechmelodie ebenfalls leicht nachvollziehbar, dass auch innerhalb der wahrgenommenen Tonhöhenbewegungen bestimmte tonale Momente ein stärkeres perzeptorisches Gewicht erhalten. Hierbei handelt es sich in der Regel um die Tonhöhen an den Enden der jeweiligen Tonhöhenbewegungen. Bekräftigt wird diese Beobachtung wie im Falle der Koexistenz von stationären Tönen und Tonhöhenbewegungen zuvor (vgl. 5.1) unter anderem durch die impressionistischen Transkriptionen des Tonhöhenverlaufs in der Sprechmelodie, die in der Tradition der Britischen Schule zum Beispiel für Varietäten des Englischen von Jones (1969) und O’Connor und Arnold (1970) angefertigt wurden. Abbildung 56 zeigt eine solche Transkription von Jones (1969) für die Aufzählung „one, two, three, four, five“ (‚eins, zwei, drei, vier, fünf’) im Englischen. Sie zeigt insgesamt vier steigende Tonhöhenbewegungen und eine final fallende Tonhöhenbewegung über den fünf einsilbigen Zahlwörtern der Aufzählung. Zudem geht aus der Darstellung hervor, dass Jones in den steigenden Bewegungen den tiefen und in der fallenden Bewegung den hohen Ton am Beginn als besonders prominent empfunden hat. Dies ist in seiner Transkription durch einen Punkt gekennzeichnet, der „on the appropriate part of the curve“ (Jones 1969:217) platziert wurde. _____________ 36
Damit soll nicht gesagt werden, dass Länge und Lautheit im Perzept der Sprechmelodie nicht auch mit Prominenz verbunden sein können. In der Tat erscheinen die beiden letztgenannten Größen jedoch subtiler als die Tonhöhe zu sein. Stock und Zacharias (1973:6) formulieren dies so: „Im Deutschen tritt besonders die Melodiebewegung […] hervor“. Entscheidend ist aber, dass die Tonhöhe bzw. der Tonhöhenverlauf aufgrund der zentralen Bedeutung für die Kodierung der sprechmelodischen Zeichen im Rahmen der Ansätze zur KontrastTheorie gesondert betrachtet wird (vgl. hierzu 6.1.4).
286 286
Einleitung Ansätze zu einer Kontrast-Theorie
Abbildung 56: Impressionistische phonetische Transkription des Tonhöhenverlaufs und der darin enthaltenen und durch einen Punkt gekennzeichneten besonders prominenten tonalen Schwerpunkte in der englischen Äußerung „one, two, three, four, five“ (‚eins, zwei, drei, vier, fünf’). Jedes einsilbige Zahlwort verfügt über eine gleichwertig starke Prominenz, die durch <’> indiziert wird. Die Transkription wurde auf Basis des Systems der Britischen Schule von Jones (1969) erstellt.
In Anbetracht von Abbildung 56 und der eigenen ohrenphonetischen Analyse kann angenommen werden, dass Tonhöhenbewegungen grundsätzlich neben der Bewegung selbst auch tonale Elemente am Ende und/oder am Anfang der Bewegung aufweisen, die über eine erhöhte Prominenz verfügen und diesbezüglich als gleichwertig mit stationären Einzeltönen gelten können. Entgegen der Darstellung bei Jones (1969) ist jedoch zumindest für das Standarddeutsche davon auszugehen, dass die unter prominenzbezogenen und strukturellen Gesichtspunkten signifikanten tonalen Elemente obligatorisch an beiden Enden einer Tonhöhenbewegung vorkommen37. Bezogen auf die in Abbildung 55 schematisch dargestellten Verläufe bedeutet dies zum Beispiel, dass steigende und fallende Bewegungen jeweils insgesamt zwei tonale Elemente aufweisen, eines am Anfang und eines am Ende der Bewegung. Steigend-fallende und fallendsteigende Muster bestehen aus zwei Tonhöhenbewegungen. Entsprechend finden sich hierin drei tonale Elemente, eines am Anfang, eines am Ende und eines am Punkt des Richtungswechsels der Tonhöhenbewegung. Stationäre Einzeltöne repräsentierten ein einzelnes tonales Element. Untermauert wird das genannte Postulat etwa durch die Fähigkeit von Hörern, unterschiedlich umfangreiche Tonhöhenbewegungen zu diskriminieren. Ein Perzeptionsexperiment hierzu, das auf sprachlichen Stimuli basiert, in denen sowohl fallende, als auch steigende F0-Bewegungen generiert wurden, stammt von ´t Hart (1981). Eine naheliegende Mög_____________ 37
Aus den Ausführungen zum Transkriptionssystem von Jones (1969) geht implizit hervor, dass aus strukturellen Gründen generell nur der jeweils markanteste Prominenzschwerpunkt einer Tonhöhenbewegung (also nur ein tonales Element in der Terminologie der vorliegenden Arbeit) markiert wurde. Insofern ist es möglich, dass der eigene für das Standarddeutsche gewonnene Perzeptionseindruck zwar auch für das Englische gültig, aber in der Transkription von Jones nicht festgehalten ist.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
287 287
lichkeit, solche Diskriminationen zu leisten, besteht darin, dass die Endpunkte der Tonhöhenbewegungen beim Hörer gesondert repräsentiert sind und so unterschiedliche Tonhöhendistanzen zwischen den Endpunkten erkannt werden können (die Diskrimination anhand anderer sekundärer Merkmale wie der Dauer der F0-Bewegung hat ´t Hart durch seine Versuchsanordnung weitgehend ausschließen können; die Steilheit der Bewegung wurde konstant gehalten und so vollständig als Diskriminationsfaktor ausgeschlossen). Insgesamt gesehen, stellen die postulierten tonalen Elemente melodische Einheiten dar, die an strukturell signifikanten Punkten des sprachlichen Tonhöhenmusters stehen und die sich durch eine besondere Prominenz aus diesem herausheben. Hierin ist bereits impliziert, dass diese Einheiten nicht nur rein tonaler Natur sind. Wie jedes auditiv erlebte Ereignis müssen diese tonalen Elemente – parallel zur mehrdimensionalen räumlichen Ausdehnung visueller Elemente – über eine Länge verfügen. Es ist naheliegend, dass die Tonhöheneigenschaften tonaler Elemente in Beziehung zum akustischen F0 stehen. In 6.1.1 wurden beispielsweise Untersuchungen genannt, die sich mit der Quantifizierung der Tonhöhe von stationären Einzeltönen aufgrund des in den Silben gegebenen F0-Verlaufs befasst haben. Es erscheint jedoch weniger einfach, die Längeneigenschaften tonaler Elemente Eigenschaften des Sprachsignals zuzuordnen. Hinsichtlich der tonalen Elemente, die den stationären Einzeltönen in Silben mit hoher spektraler Variation entsprechen (vgl. 6.1.1), ist es beispielsweise plausibel anzunehmen, dass deren Länge in einer Beziehung zu der Dauer der Silbe oder der Dauer des stimmhaften Anteils in der Silbe steht. An dieser Stelle fehlt die empirische Grundlage, um die Längeneigenschaften tonaler Elemente näher zu spezifizieren. Für die noch folgenden Ausführungen ist es auch lediglich wichtig zu sehen, dass tonale Elemente über eine – variable – Länge verfügen. Darüber hinaus kann jedoch auf Grundlage der eigenen ohrenphonetischen Analyse eine grundlegende Differenzierung durchgeführt werden. So handelt es sich vom Standpunkt der Perzeption aus gesehen bei den tonalen Elementen in der Regel um punktuelle Ereignisse. Dies gilt insbesondere für die tonalen Elemente, die als stationäre Einzeltöne für Silben konstruiert werden. Dieser Charakter tonaler Elemente spiegelt sich auch in den Transkriptionen der Britischen Schule wider. Zum Beispiel sind die Tonhöheneindrücke über Silben, die aufgrund ihrer fehlenden Akzentuierung und komplexen Silbenstruktur mit hoher Wahrscheinlichkeit stationäre Einzeltöne enthalten, als Punkte dargestellt (vgl. z.B. Abb. 39 in 5.1). Tonale Elemente in Tonhöhenbewegungen können Ausnahmen zu dem punktuellen Charakter tonaler Elemente bilden. Dass solche Ausnahmen entstehen, geht unter anderem auf die physiologischen Beschrän-
288 288
Einleitung Ansätze zu einer Kontrast-Theorie
kungen in der F0-Variation zurück. Die Abbildung 57 aus Xu und Sun (2002) soll dies illustrieren. Sie zeigt, dass Richtungsänderungen im F0Verlauf nicht abrupt erfolgen können, sondern im Rahmen einer Verzögerung und Beschleunigung vollzogen werden38. Dabei kommt es am Punkt der Richtungsumkehr zu Plateaubildungen bzw. zu größeren Bereichen, in denen sich F0 nur sehr langsam ändert (infolgedessen fällt, wie Abbildung 57 zeigt, die für das gesamte überbrückte F0-Intervall benötigte Zeit ungefähr doppelt so groß aus wie die response time, die bereits 75% dieses Intervall umfasst).
Abbildung 57: Darstellung einer steigend-fallenden F0-Bewegung aus Xu und Sun (2002). Aufgrund physiologischer Beschränkungen in der F0-Dynamik kommt es zwischen der steigenden und der fallenden Bewegung zu einer annähernden Plateaubildung.
In diesem Zusammenhang sind nun experimentelle Untersuchungen zu berücksichtigen, die zeigen, dass in der auditiven Wahrnehmung ein bestimmtes Fenster existiert, innerhalb dessen F0-Bewegungen auf Tonhöhenbewegungen abgebildet werden (vgl. u.a. Sergeant und Harris 1962; Pollack 1968; Rossi 1971; ´t Hart et al. 1990 geben hierzu einen Forschungsüberblick). F0-Bewegungen, deren Dynamik oberhalb oder unter_____________ 38
Dementsprechend können die im Rahmen der Perzeptionsexperimente in Teil (A) verschobenen stilisierten F0-Gipfel, bei denen der Anstieg direkt in einen Abstieg übergeht, in dieser Form natürlich produziert nicht vorkommen (vgl. z.B. Abb. 15 und 16 in 4.1.1). Perzeptionsexperimente, die von Pijper (1983) sowie Willems et al. (1988) durchgeführt wurden und die eine wichtige Säule in der IPO-Theorie der Sprechmelodie bilden (vgl. ´t Hart et al. 1990), belegen allerdings, dass derartig stilisierte F0-Verläufe vom Hörer nicht von natürlich produzierten unterschieden werden können. Insofern ist nicht anzunehmen, dass die im Rahmen des vierten Kapitels verwendeten F0-Verläufe aufgrund ihrer Stilisierung zu Artefakten in der Beurteilung der Stimuli geführt haben.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
289 289
halb dieses Fensters liegt, werden als stationär perzipiert. Hierfür wurde der Begriff der glissando threshold geprägt (vgl. ´t Hart et al. 1990)39. Auf der Basis dieser Untersuchungen ist anzunehmen, dass die bei Richtungsänderungen im F0-Verlauf entstehenden plateauartigen Gipfelbildungen in einem bestimmten Zeitintervall auf eine stationäre Tonhöhe eingeebnet werden. Davon ausgehend, dass der F0-Verlauf in gewissem Umfang mit dem Tonhöhenverlauf korrespondiert, entsprechen die Richtungsänderungen im F0-Verlauf auch Richtungsänderungen im Tonhöhenverlauf, was aber nicht zwangsläufig eine völlige chronologische Parallelität voraussetzt. Das heißt, die Tonhöhenplateaus, die aus Richtungsänderungen im F0-Verlauf resultieren, stehen mit tonalen Elementen in Verbindung. Tonale Elemente, die sich in (silbenweise) konstruierten Tonhöhenbewegungen auf solche Plateaus beziehen, werden perzeptorisch zumeist nicht als punktuelle, sondern als anhaltende Tonhöhenereignisse erlebt. Die genannten Plateaus können vom Sprecher auch über den physiologisch determinierten zeitlichen Umfang hinaus weiter ausgedehnt werden. Auf diese Weise können zum Beispiel Hutmuster im Sinne von ´t Hart et al. (1990) entstehen. Plateaus können aber auch völlig unabhängig von Richtungsänderungen im F0-Verlauf erzeugt werden. Dies kann zu stufigen F0-Verläufen führen, die beim Hörer in besonderer musikalischer Weise hervortreten und in der Literatur oft – separat von der Sprechmelodie bzw. Intonation behandelt – als Rufkonturen oder stilisierte Konturen bezeichnet werden (vgl. Ladd 1996). Vor dem erläuterten Hintergrund wird somit postuliert, dass tonale Elemente im Rahmen von Tonhöhenbewegungen, denen (annähernde) Plateaus im F0-Verlauf zugrundeliegen, tendenziell über eine größere Länge verfügen als zum Beispiel tonale Elemente, die stationäre Einzeltöne repräsentieren. Den Beschreibungen der tonalen Elemente ist abschließend hinzuzufügen, dass sie neben Tonhöhen- und Längeneigenschaften auch Lautheitseigenschaften umfassen, die mit der Intensität des akustischen Signals korrespondieren. Insofern sind tonale Elemente multidimensional aufgebaut. In einer phonetisch-perzeptorischen Beschreibung der Sprechmelodie muss darüber hinaus Berücksichtigung finden, dass die lokalen, an einzelne tonale Elemente gebundene Prominenzen von globaleren Prominenzen unterschieden werden können, die sich auf die Silbe beziehen. Zum Beispiel im Rahmen einer melodischen Phrase können die aufeinanderfolgenden _____________ 39
Hierbei kann es sich entweder um eine aktive Abstraktion der auditiven Wahrnehmung oder um Beschränkungen des Wahrnehmungsapparates handeln. Die Frage nach der genauen Ursache dieses Phänomens ist bislang noch nicht beantwortet.
290 290
Einleitung Ansätze zu einer Kontrast-Theorie
Silben mehr oder weniger auffällig sein. Auch dieser Prominenztyp wird in der Transkription von Jones (1969), die in Abbildung 56 dargestellt ist, berücksichtigt und durch ein <’> vor jedem Einsilber indiziert. Zusammengenommen, stützt die phonetisch-perzeptorische Beschreibung der Sprechmelodie zum einen die Erkenntnis, dass sprechmelodische Tonhöhenverläufe aus Abfolgen von einzelnen Tönen und Tonhöhenbewegungen bestehen. Diese Auffassung wurde bereits in 5.1 mit Bezug auf experimentelle Befunde vorgestellt. Zum anderen ist die Prominenz neben dem Tonalen ein weiteres Charakteristikum der Sprechmelodie. Diesbezüglich kristallisieren sich zwei unterschiedliche Ebenen der Prominenz heraus. Einerseits gibt es lokale Prominenzen, die sich auf tonale Elemente beziehen. Letztere entsprechen (in Silben) entweder stationären Einzeltönen oder finden sich an den Extrema von Tonhöhenbewegungen. Andererseits variiert in einer melodischen Phrase auch die globalere Prominenz auf Silbenebene. Beobachtungen weisen darauf hin, dass zwischen diesen globaleren Prominenzen der Silben und den lokalen Prominenzen der tonalen Elemente ein positiver Zusammenhang besteht. Dies wird unter Bezugnahme auf experimentelle Untersuchungen in 6.1.4 noch untermauert. 6.1.3 Bedeutungstypen in der Sprechmelodie: Hervorhebung und attitudinale Bedeutung Sprechmelodie umfasst im Standarddeutschen wie auch in vielen anderen nicht nur verwandten Sprachen zwei wichtige kommunikative Bedeutungstypen: Hervorhebung und attitudinale Bedeutung. In 1.3.1 wurde erläutert, dass das phonologische Kategoriensystem der Hervorhebung auf Prominenz, insbesondere auf Prominenzspitzen (vgl. 1.2.3), fußt. Diesbezüglich wird des weiteren angenommen, dass es hinsichtlich der in diesem System zusammengefassten bedeutungstragenden Einheiten eine Grundeinheit gibt, die phonetisch genau eine Prominenzspitze einschließt und deren kontextunabhängig verstehbare Funktion darin besteht, Informationsschwerpunkte zu kennzeichnen. Weitere und größere Hervorhebungseinheiten basieren auf dieser Grundeinheit, und die Interpretation ihrer Bedeutungen kann kontextabhängig variieren, zum Beispiel in Verbindung mit der grammatischen Struktur der Äußerung. Vom Kategoriensystem der Hervorhebung wurde das Kategoriensystem der attitudinalen Bedeutungen differenziert, die im Rahmen sprechmelodischer Zeichen (z.B. GEGEBEN, NEU und UNERWARTET) kodiert werden. Ein Charakteristikum der attitudinalen Bedeutungen ist, dass sie relationaler Natur sind. Das heißt, ihre spezifische Bedeutung variiert in jedem Fall in Abhängigkeit vom Kontext, und zwar in Verbindung mit kommunikativen Faktoren
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
291 291
wie der Gesprächssituation und den übrigen Bedeutungskomponenten der betreffenden Äußerung. Nachfolgend wird auch unter Berücksichtung der in der vorliegenden Arbeit experimentell gewonnenen Erkenntnisse ein neuer Entwurf für die Kodierung beider Bedeutungstypen entwickelt. Das heißt, dieser Entwurf ist in seiner letztendlichen Zielsetzung nicht auf einzelne bedeutungstragende Einheiten ausgerichtet, sondern vielmehr darauf, ein Fundament allgemeiner Kodierungsmechanismen zu legen. Für den Bedeutungstyp der Hervorhebung heißt dies in der Konsequenz, dass er im Folgenden von seiner Grundfunktion und –einheit ausgehend betrachtet wird, die der Kennzeichnung von Informationsschwerpunkten dient, da auf deren Kodierungsprinzipien auch allen anderen, größeren bedeutungstragenden Einheiten der Hervorhebung aufbauen müssen. 6.1.4 Zur Kodierung von Hervorhebung und attitudinaler Bedeutung Es besteht kein Zweifel, dass Hervorhebung und attitudinale Bedeutung nicht nur mit Blick auf den strukturbezogenen Charakter ersterer und den relationalen Charakter letzterer (vgl. 1.3.1 und 6.1.3) qualitativ andersartige Informationsfelder repräsentieren und die Differenzierung zwischen beiden auf einer funktionalen Ebene notwendig ist. Einhergehend mit dieser funktionalen Differenzierung wird jedoch im Rahmen der Kodierung beider Bedeutungstypen auch eine phonetische Differenzierung vorgenommen. In der AM-Phonologie beispielsweise ergibt sich durch die Abfolge von starken und schwachen Silben eine Gewichtungsstruktur, die als abstraktes Prominenzmuster bezeichnet wird (vgl. 2.4). Auf der phonetischen Ebene spiegelt sich dieses abstrakte Muster in stress wider. Bei stress handelt es sich um ein Bündel phonetischer Merkmale, zu dem unter anderem Dauer und Intensität gehören. Das stress-Muster kann dem Hörer dazu dienen, auf die abstrakten Silbengewichte zurückzuschließen. Hierüber ergeben sich beim Hörer auch konkrete Prominenzwahrnehmungen im Sinne der in 1.2.3 gegebenen Definition. Insofern kann die Kodierung der Hervorhebung im AM-Rahmen als stress-basiert betrachtet werden. F0 zählt im AM-Rahmen nicht zu den stress-Merkmalen, sondern transportiert innerhalb der Sprechmelodie (unter anderem) die Bedeutungen des attitudinalen Typs. Im KIM hingegen sind sowohl Dauer und Intensität als auch F0 gleichwertig in die Wahrnehmung phonetisch konkreter Prominenz involviert und können somit auch gleichermaßen als relevante Merkmale für die Kodierung der Hervorhebung angesehen werden (vgl. 2.3). Ferner sind diese Merkmale anders als im AM-Rahmen nicht prominence-cueing, sondern prominence-lending. Das heißt, sie sind direkt für die wahrgenomme-
292 292
Einleitung Ansätze zu einer Kontrast-Theorie
ne Prominenz verantwortlich (vgl. Fußnote 7 in 2.4.1). Demgegenüber werden die durch die sprechmelodischen Zeichen repräsentierten attitudinalen Bedeutungen allein mit F0 verbunden. Funktional gesehen ist F0 im KIM somit in gewissem Maße janusköpfig besetzt. Zum einen ist es in die Kodierung von Hervorhebung und zum anderen in die Kodierung von attitudinalen Bedeutungen involviert. Eingeschränkt wird der bilaterale Einsatz von F0 im KIM allerdings dadurch, dass Hervorhebung und attitudinale Bedeutung sich anderer Eigenschaften von F0 bedienen. Während die Kodierung attitudinaler Bedeutung zum Beispiel über die Synchronisierung von F0-Gipfelkonturen zum Akzentvokal stattfindet, wird bezüglich der Hervorhebung auf die Gipfelhöhe zurückgegriffen. Betrachtet man also die Menge an Kodierungsmöglichkeiten, die durch die sprechmelodische Phonetik insgesamt zur Verfügung gestellt wird, dann stimmen der AM-Ansatz und das KIM zusammengefasst darin überein, dass für die Kodierung attitudinaler Bedeutungen im Rahmen sprechmelodischer Zeichen auf der einen und für die Kodierung von Hervorhebungen auf der anderen Seite unterschiedliche phonetische Mittel eingesetzt werden, sodass sich beide Kodierungssysteme nicht überschneiden. Hierbei sind seitens der Perzeption für die Hervorhebung Prominenz und insbesondere lokale Prominenzspitzen (vgl. 1.2.3) maßgeblich, während sprechmelodische Zeichen rein tonaler Natur sind und sich demzufolge in der Akustik nur auf F0 bzw. insbesondere den F0-Verlauf beziehen. Dies ist in Abbildung 58(a) dargestellt. Die Ergebnisse der experimentellen Untersuchungen, die im vierten Kapitel diskutiert wurden, geben nun Anlass dazu, die in Abbildung 58(a) veranschaulichte Auffassung zu revidieren. Es hat sich nicht nur gezeigt, dass die Synchronisation eines F0-Gipfels und dessen Verlaufsqualität einen Einfluss auf die Wahrnehmung der sprechmelodischen Zeichen ausgeübt haben. Auch die Dauer und Intensität spielten bei der Wahrnehmung der sprechmelodischen Zeichen eine Rolle und sind dementsprechend ebenso wie F0 in die Kodierung der Zeichen involviert. Im Hinblick auf die phonetischen Mittel, die das KIM für die Kodierung der Hervorhebung ansetzt, ist zudem darauf hinzuweisen, dass auch die Gipfelhöhe zur Wahrnehmung der sprechmelodischen Zeichen beigetragen hat und somit nicht nur der Kodierung von Hervorhebung vorbehalten ist. Insgesamt gesehen kann davon ausgegangen werden, dass bei der Kodierung attitudinaler Bedeutungen durch sprechmelodische Zeichen und bei der Kodierung der Hervorhebung die gleichen phonetischen Mittel eingesetzt werden. Vor diesem Hintergrund wird angenommen, dass sprechmelodische Zeichen bzw. deren Zeichenformen nicht nur tonale Spezifikationen, sondern auch prominenzbezogene Spezifikationen umfassen. Prominenzmu-
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
293 293
ster sind in die Kodierung und demzufolge in die Identifikation sprechmelodischer Zeichen ebenso involviert wie Tonhöhenmuster. In diesem Sinne verfügen Hervorhebungen und attitudinale Bedeutungen nicht nur über eine gemeinsame phonetische Grundlage. Sie sind über die Prominenz zudem phänomenal verbunden. Hieraus ergibt sich ferner die Konsequenz, dass das sprechmelodische Prominenzmuster einer Äußerung somit nicht nur durch Hervorhebungen, sondern auch durch sprechmelodische Zeichen gestaltet wird. Die erläuterte Annahme ist in Abbildung 58(b) schematisch dargestellt. Daneben hebt Abbildung 58(b) jedoch gleichzeitig hervor, dass trotz der gemeinsamen phonetischen Grundlage, auf denen die Kategoriensysteme der sprechmelodischen Zeichen und der Hervorhebung gegründet sind, Trennung beider Systeme auf einer funktionalen Ebene weiterhin sinnvoll und wichtig ist.
Abbildung 58: Schematische Darstellungen. Links (a) die gegenwärtige Auffassung der Organisation der Kodierungssysteme zu den Bedeutungstypen der Hervorhebung und attitudinalen Bedeutung (sprechmelodischer Zeichen). Lediglich F0 kann sich janusköpfig verhalten und sowohl bei der Hervorhebung als auch bei den attitudinalen Bedeutungen eine Rolle spielen. Seitens der Perzeption bezieht sich das Kodierungssystem der Hervorhebung somit nur auf Prominenz und das der attitudinalen Bedeutungen nur auf Ton. Demgegenüber steht rechts (in b) die alternative Auffassung, die im Rahmen der Ansätze zur Kontrast-Theorie vertreten wird, bei der alle drei phonetischen Parameter, F0, Dauer und Intensität, in beide Kodierungssysteme involviert sind. Die Formen sprechmelodischer Zeichen sind bikomponential und umfassen in der Perzeption Ton und Prominenz.
Für die in Abbildung 58(b) dargestellten Kodierungskonzepte wird weitergehend angenommen, dass die Prominenz, die sowohl in die Kodierung der Hervorhebung als auch im Rahmen sprechmelodischer Zeichen in die Kodierung attitudinaler Bedeutungen eingebunden wird, nicht auf derselben Ebene angesiedelt ist. Die Prominenzmuster, die im Rahmen der Hervorhebung eine Rolle spielen, sind globalerer Natur und beziehen sich auf die Silbenebene, während es sich bei den Mustern sprechmelodischer Zeichen um Abfolgen lokaler Prominenzen handelt, die von den tonalen
294 294
Einleitung Ansätze zu einer Kontrast-Theorie
Elementen ausgehen. Diese Annahme greift die im Zusammenhang mit den phänomenalen Aspekten in 6.1.2 geschilderten impressionistischen Beschreibungen zur Prominenz in der Sprechmelodie auf. Sie lässt sich zudem durch funktionale Argumente und experimentelle Befunde untermauern. Die zentrale Funktion des strukturbezogenen Bedeutungstyps der Hervorhebung ist die Kennzeichnung von Informationsschwerpunkten innerhalb sprachlicher Äußerungen. Diese Kennzeichnung wird in der phonetischen Literatur typischer Weise auf Informationen des lautlichen Kanals bezogen. O’Connor and Arnold (1970:5) schreiben beispielsweise „accent [...] brings important words into prominence“. Vergleichbares gilt für den „accent of importance“ bei Bolinger (1972:24)40. Handel (1986:427) zufolge wird Hervorhebung „on the point of information focus“ angewandt. Unter diesem funktionalen Gesichtspunkt ist die Hervorhebung dann besonders effektiv, wenn sie auf einer sprachlichen Einheit basiert ist, die ihrerseits eine wichtige informationale Stellung im Sprachkode einnimmt. Unter 6.1.1 wurde geschildert, dass dies auf die Silbe zutrifft. So ist unter anderem in zahlreichen Sprachen wie zum Beispiel dem Englischen und Deutschen ein erheblicher Anteil der bedeutungstragenden Einheiten des lautlichen Kanals (der Morpheme) durch Einsilbler repräsentiert (vgl. auch Crystal 1995). Ein weiterer Aspekt des Bedeutungstyps der Hervorhebung, in dem der strukturbezogene Charakter besonders deutlich erkennbar wird, ist die Organisation sprachlicher Äußerungen, zum Beispiel über die Herstellung eines rhythmischen Musters. Rhythmus macht den Informationstransfer mittels des Sprachkodes nicht nur robuster gegenüber Unterbrechungen. Er bringt darüber hinaus auch Zusammenhänge zwischen den im Sprachkode transportierten Informationen zum Ausdruck und trägt so gleichzeitig zu einer effizienteren Kodierung der zu übertragenden Informationen bei (vgl. hierzu unter anderem die guide function bei Barry 1981 und Kohler 2004b, sowie sentence accent bei Bolinger 1972; siehe auch 1.3.1). Auch bezüglich dieses weiteren funktionalen Gesichtspunktes führt Handel (1986) unter anderem empirische Argumente an, auf deren Grundlage er postuliert, „that the rhythm of speech should be based on the syllable“ (Handel 1986:452). Unterstützt werden die angeführten Argumente, die für die Kopplung der Prominenz von Hervorhebung an die sprachliche Bezugsgröße der Silbe sprechen, auch durch die deskriptive perzeptorische Analyse der Sprechmelodie. Beides kann dazu beigetragen haben, dass die Silbe in der _____________ 40
Anders als in 1.2.3 erläutert, beschreibt Akzent in den genannten Fällen die phonetischen Mittel zur Erzeugung eines Prominenzperzeptes beim Hörer.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
295 295
phonetischen Literatur als gängige Basiseinheit der hervorhebungsbezogenen Prominenz erachtet wird (vgl. hierzu die Forschungsüberblicke bei Laver 1994 und Fox 2000; vgl. auch Jones 1969; Lehiste 1970; Ladd 1996). Dies gilt auch für die in dieser Arbeit betrachteten phonologischen Theorien des KIM und der AM-Phonologie bzw. der zugrundeliegenden metrischen Phonologie (siehe 2.3 und 2.4; vgl. auch Liberman 1975 sowie Liberman und Prince 1977). Anders als im Falle der Hervorhebung ist anzunehmen, dass im Falle sprechmelodischer Zeichen, von denen die attitudinalen Bedeutungen getragen werden, nicht die Prominenzmuster auf Silbenebene, sondern die Prominenzmuster über die tonalen Elemente relevant sind, wobei letztere in Form der stationären Einzeltöne und der Enden von Tonhöhenbewegungen vorliegen (vgl. 6.1.2). Das heißt, das durch die tonalen Elemente repräsentierte Tonhöhenmuster wird im Rahmen des dazugehörigen Prominenzmusters interpretiert; wobei zu beachten ist, dass das Tonhöhenmuster dabei selbst einen Beitrag zum Prominenzmuster leistet. Infolgedessen kann ein Tonhöhenmuster in Verbindung mit unterschiedlichen Prominenzmustern unterschiedliche attitudinale Bedeutungen kodieren und so unterschiedliche sprechmelodische Zeichen repräsentieren. Unterstützt wird dies unter anderem durch die Experimente zur Synchronisierung. Hierin hat sich gezeigt, dass die Verschiebung eines F0Gipfels über die Akzentsilbe hinweg in einer Wahrnehmungsveränderung von GEGEBEN, über NEU zu UNERWARTET resultiert (vgl. 2.3.2 und Kapitel 4). Es ist wichtig zu sehen, dass eine solche Verschiebung als eine Strategie aufgefasst werden kann, um die tiefen und hohen Frequenzen im Bereich der Extrema der Gipfelkontur in unterschiedliche Positionen zu dem Intensitätsverlauf zu bringen, der durch die Struktur der darunterliegenden Lautsegmente in einem gewissen Rahmen prädeterminiert ist. Letzteres äußert sich insbesondere darin, dass der Vokal im Silbenkern ein durchgehend höheres Intensitätsniveau aufweist als die umliegenden Konsonanten (vgl. die Ausführungen zur Intensität in 4.1 und Abb. 3). Ein solcher Intensitätsverlauf lag in allen genannten Untersuchungen zum Einfluss der Gipfelsynchronisation auf die Wahrnehmung sprechmelodischer Zeichen vor. Auf der perzeptorischen Ebene hat eine Veränderung in der Synchronisation des Gipfels somit zur Folge, dass die tonalen Elemente des Tonhöhenmusters, das aus dem F0-Gipfel erzeugt wird, im Rahmen des gegebenen Lautheitsmusters unterschiedlich prominent erscheinen. Dies wird in 6.3 und 6.6 detaillierter ausgeführt. Die perzeptorischen Veränderungen gehen konform mit eigenen ohrenphonetischen Beobachtungen und informellen Versuchen, die im Rahmen der Gipfelsynchronisation gemacht wurden.
296 296
Einleitung Ansätze zu einer Kontrast-Theorie
In diesem Zusammenhang ist ein Perzeptionsexperiment von Niebuhr (2006) zu berücksichtigen. Hierin wurden Stimuli verwendet, in denen alle Parameter des akustischen Signals bis auf den Intensitäts- und F0-Verlauf konstant waren. Das heißt, die F0- und Intensitätsvariationen fanden innerhalb einer gleichbleibenden Lautqualität statt, die einem [] ähnelte. Die Intensitäts- und F0-Verläufe wurden aus einer bereits vorliegenden sprachlichen Stimulusserie übernommen, die auf Basis der Äußerung „Sie war mal Malerin“ generiert wurde und der eine 11 Schritte umfassende Gipfelsynchronisation von GEGEBEN zu NEU über der Akzentsilbe „Ma-“ zugrundelag (hierbei handelt es sich um die s/s-Serie aus Niebuhr 2003a, b, vgl. 3.1). Im Vergleich der Ergebnisse beider Stimulusserien, die im Rahmen eines Identifikationstests gewonnen wurden, hat sich herausgestellt, dass das Urteilsverhalten zu der sprachlichen Originalserie mit der Serie repliziert werden konnte, in der lediglich die originalen F0- und Intensitätsverläufe über einem konstanten [] präsentiert wurden. Hieraus kann gefolgert werden, dass die Wahrnehmung der Zeichen GEGEBEN und NEU in den sprachlichen Originalen auf einem Zusammenwirken von F0 und Intensität beruht (in die Verlaufseigenschaften beider Parameter geht zudem auch die Dauer ein). Hinsichtlich dieses Zusammenwirkens hat sich des weiteren gezeigt, dass diejenigen Stimuli der Serie, bei denen die Wahrnehmung und die damit einhergehende Beurteilung zwischen den melodischen Kategorien umgeschwenkt ist (im Falle der sprachlichen Originale sind dies die Zeichen GEGEBEN und NEU), genau den Bereich des akustischen Signals betreffen, in dem das F0-Gipfelmaximum über den Intensitätsanstieg hinweg vom niedrigen Intensitätsniveau des nasalen Konsonanten [m] zum hohen Intensitätsniveau des Vokals [a:] geschoben wurde. Zusammengenommen stützen diese experimentellen Befunde somit die Auffassung von einer zweigliedrigen Kodierung sprechmelodischer Zeichen, die zum einen tonale Elemente umfasst, die ein Tonhöhenmuster bilden, und die zum anderen diese tonalen Elemente mit lokalen Prominenzen verbindet, aus denen ein spezifisches Prominenzmuster entsteht. In diesem Rahmen unterstreichen die Befunde zudem die Interpretation der Gipfelsynchronisation als ein strategisches Instrument, um mit Hilfe der lautlich vorgeformten Parameter die entsprechenden Kombinationen aus Tonhöhen- und Prominenzmuster zur Wahrnehmung der jeweiligen sprechmelodischen Zeichen herzustellen. Die vorangehenden Ausführungen sprechen dafür, dass sich die zwei Prominenzebenen, die sich in der Wahrnehmung der Sprechmelodie im Standarddeutschen herauskristallisieren, jeweils der Kodierung einer der beiden zentralen kommunikativen Bedeutungstypen der Sprechmelodie, Hervorhebung und attitudinale Bedeutung, zuordnen lassen. Neben dieser
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
297 297
funktionalen Trennung der beiden Prominenzebenen, wird jedoch durch experimentelle Untersuchungen sowie den eigenen Perzeptionseindruck gleichzeitig nahegelegt, dass die lokalen Prominenzmuster, die im Rahmen sprechmelodischer Zeichen relevant sind, mit den globaleren silbenbezogenen Prominenzen im Zusammenhang stehen, mit denen die Hervorhebung kodiert wird. Diesbezüglich sind zum Beispiel die Experimente von Kohler und Gartenberg (1991) anzuführen. Kohler und Gartenberg führten auf Basis der Äußerung „Sie hat ja gelogen“ (mit „-lo-“ aus „gelogen“ als einziger Akzentsilbe) Perzeptionsexperimente durch, die sich der Frage widmeten, ob sprechmelodische Zeichen einen Einfluss auf die Prominenz der Akzentsilbe ausüben. Als unabhängige experimentelle Variable diente dabei die sprechmelodische Zeichentriade aus GEGEBEN, NEU und UNERWARTET. Kohler und Gartenberg gingen von drei natürlich produzierten Äußerungen aus, die jeweils eines der drei Zeichen (über „-lo-“) enthielten. Hierin variierten sie in mehreren – auf einer linearen Hz-Skala äquidistanten – Frequenzschritten die Höhe des produzierten F0-Gipfels. Die so gewonnenen Stimuli wurden zu Paaren arrangiert und von Versuchspersonen dahingehend beurteilt, welcher der beiden Stimuli die größere Prominenz enthält. Im Rahmen dieser Methode kristallisiert sich aus den Experimenten von Kohler und Gartenberg für die im Wort „gelogen“ enthaltene Akzentsilbe eine Prominenzhierarchie heraus, innerhalb derer das Zeichen NEU bei gleicher Gipfelhöhe wie GEGEBEN und UNERWARTET einen stärkeren Prominenzeindruck hervorruft als die beiden letztgenannten Zeichen. Auf das Zeichen NEU folgte in der Prominenzbewertung das Zeichen UNERWARTET. Das Zeichen GEGEBEN verursachte bei gleicher Gipfelhöhe wie NEU und UNERWARTET entsprechend die schwächste Prominenz. Darüber hinaus fanden Kohler und Gartenberg (1991), dass die Gipfel der Zeichen GEGEBEN und UNERWARTET für Gipfelmaxima zwischen 100Hz und 180Hz mindestens 20Hz, in vielen Fällen jedoch etwa 60Hz höher liegen mussten, um den gleichen Prominenzeindruck wie das Zeichen NEU hervorzurufen. Mein eigener Perzeptionseindruck bestätigt die von Kohler und Gartenberg gewonnenen experimentellen Befunde. Insbesondere der Prominenzunterschied zwischen NEU auf der einen Seite sowie GEGEBEN und UNERWARTET auf der anderen Seite ist erheblich. So ist es auch nicht verwunderlich, dass einige Versuchspersonen zu den AXDiskriminationstests, denen Äußerungspaare mit unterschiedlich synchronisierten F0-Gipfeln zugrundelagen und die von Niebuhr (2003a, b) im Rahmen der Experimente zur Gipfelgestalt durchgeführt wurden, in anschließenden informellen Gesprächen angaben, sich bei ihrer Aufgabe we-
298 298
Einleitung Ansätze zu einer Kontrast-Theorie
niger auf tonale Kriterien als vielmehr auf die Prominenz gestützt zu haben. Dass eine Vergrößerung der F0-Gipfelhöhe bzw. die Ausdehnung von F0-Bewegungen im Umfeld der Akzentsilbe, wie von Kohler und Gartenberg (1991) gezeigt, die Prominenz der Akzentsilbe erhöhen, ist im Rahmen des KIM auch in die Modellierung von phonologischen Kategorien der Hervorhebung eingegangen (die zwar von den in 1.3.1 skizzierten Überlegungen zur sprachlichen Struktur der Hervorhebungen abweicht, damit aber auch nicht unvereinbar ist, vgl. 2.3 und Kohler 1991a, b). Es steht ferner im Einklang mit den Ergebnissen der Perzeptionsuntersuchungen von Ladd und Morton (1997) sowie von Gussenhoven (1984). Bei Grabe (1998) und Kohler (1991a) finden sich entsprechende impressionistische Beschreibungen hierzu. Angesichts dessen ist zu berücksichtigen, dass eine Modifikation der F0-Gipfelhöhe die Voraussetzungen für die Wahrnehmung der lokalen Prominenzen in den tonalen Elementen des Tonhöhenmusters verändert. Aus Abschnitt 6.3 wird ersichtlich werden, dass eine Vergrößerung der Gipfelhöhe die Prominenzen der damit verbundenen tonalen Elemente erhöht. Ausgehend von dem darin zum Ausdruck kommenden positiven Zusammenhang zwischen der Prominenz der tonalen Elemente und der Prominenz der Silbe, die diese Elemente enthält, ergibt sich folgende Annahme: Das Prominenzmuster, das die Kategorien der Hervorhebung auf der Silbenebene kodiert, ist rechnerisch aus den lokalen Prominenzen der tonalen Elemente in den jeweiligen Silben ableitbar. In diesem Sinne kann das Prominenzmuster, das zur Kodierung der Hervorhebung eingesetzt wird, nicht unabhängig von dem Prominenzmuster der sprechmelodischen Zeichen betrachtet werden. Der rechnerische Zusammenhang zwischen der Prominenz einer Silbe und den Prominenzen der darin enthaltenen tonalen Elemente könnte beispielsweise in Form einer Summenbildung konzeptualisierbar sein. Das heißt, die Prominenz einer Silbe entspräche der Summe der damit einhergehenden lokalen Prominenzen. Für die genannte Annahme spricht unter anderem auch die Beobachtung, dass Silben, in denen ein steigend-fallender Tonhöhenverlauf perzipiert wird und die somit drei tonale Elemente mit jeweils einer lokalen Prominenz enthalten (gemäß 6.1.2 werden diese Elemente an den beiden Enden und am Maximum des Verlaufs angesetzt), insgesamt oft prominenter wirken als Silben, die nur einen steigenden oder fallenden Tonhöhenverlauf beinhalten und in denen folglich nur die lokalen Prominenzen zweier tonaler Elemente addiert werden können. Silben der letztgenannten Art sind wiederum in vielen Fällen prominenter als Silben, die nur stationäre Einzeltöne enthalten.
Zum Begriff der Sprechmelodie Die Grundlagen der Ansätze
299 299
Die skizzierte Prominenzhierarchie, die anhand von Vergleichen zwischen Einzelsilben introspektiv leicht nachvollziehbar ist, gilt in der tatsächlichen sprachlichen Kommunikation nur in der Tendenz, da sie voraussetzt, dass die lokalen Prominenzen keine größeren Unterschiede aufweisen, was angesichts der multifaktoriellen Variabilität im Sprachsignal und der Verwendung von Prominenz zur Kodierung attitudinaler Bedeutungen und Hervorhebungen nur äußerst selten auftreten wird. Sie spiegelt sich allerdings in den Befunden von Kohler und Gartenberg (1991) wider, da das Zeichen NEU aufgrund der F0-Gipfelsynchronisation zur Wahrnehmung einer steigend-fallenden Tonhöhenbewegung (mit drei tonalen Elementen) in der Akzentsilbe führt, wohingegen die Zeichen GEGEBEN und UNERWARTET F0-bedingt nur fallende bzw. steigende Tonhöhenbewegungen (mit jeweils zwei tonalen Elementen) in der Akzentsilbe hervorrufen (vgl. auch Abb. 3 in 2.2). Bezüglich des letztgenannten Aspektes folgt aus der rechnerischen Herleitung der silbenbezogenen und für die Kodierung der Hervorhebung relevanten Prominenz aus den lokalen Prominenzen der tonalen Elemente, dass diese lokalen Prominenzen durch die Kodierung der Hervorhebung modifiziert werden. Das heißt, die phonetischen Eigenschaften der tonalen Elemente ergeben sich nicht nur durch die sprechmelodischen Zeichen. Gleichzeitig greift auch der Bedeutungstyp der Hervorhebung in die Ausprägung der tonalen Elemente ein, um die für die jeweilige phonologische Kategorie der Hervorhebung erforderlichen Prominenzmuster auf Silbenebene, insbesondere die genannten Prominenzspitzen, herzustellen. Vor dem Hintergrund der Ausführungen in diesem Abschnitt sind noch zwei Aspekte anzusprechen. Erstens ist zu berücksichtigen, dass die im vierten Kapitel gewonnenen Erkenntnisse ausschließlich anhand der drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET gewonnen wurden. Das in Abbildung 58(b) dargestellte Konzept generalisiert jedoch sowohl hinsichtlich des Einflusses von Dauer und Intensität als auch bezüglich der darauf basierten bikomponentialen Zeichenform über diese sprechmelodischen Zeichen hinaus. Diese Generalisierung ist schlüssig, da sie ein Kodierungspotential beschreibt und so eine allgemeine Aussage zum Kodierungssystem macht. Die dahinterstehende Argumentation ist gegebenenfalls leichter nachzuvollziehen, wenn sie am Beispiel der Morpheme als Pendants sprechmelodischer Zeichen im lautlichen Kanal illustriert wird. Eine phonetische Untersuchung, die für eine Sprache nachweisen würde, dass Rundungs- und Stimmhaftigkeitseigenschaften die Wahrnehmung innerhalb einer Gruppe von Morphemen beeinflussen, hätte damit gleichzeitig gezeigt, dass Rundung und Stimmhaftigkeit grundsätzlicher Be-
300 300
Einleitung Ansätze zu einer Kontrast-Theorie
standteil des Kodierungssystems der Morpheme in dieser Sprache sind und vom Hörer entsprechend bei der Wahrnehmung von Morphemen berücksichtigt werden. Das bedeutet jedoch weder, dass die Rundungsund Stimmhaftigkeitseigenschaften nur in der gefundenen Weise zur Wahrnehmung bzw. zur Differenzierung von Morphemen verwendet werden, noch ist damit gesagt, dass Rundung und Stimmhaftigkeit immer in die Unterscheidung von Morphemen involviert sind. Eine diesbezügliche Generalisierung wäre nicht zulässig. Der Befund, wonach die Wahrnehmung der drei behandelten sprechmelodischen Zeichen nicht nur durch F0, sondern auch durch Dauer und Intensität determiniert wurde, lässt in analoger Weise darauf schließen, dass letztere prinzipiell in das Kodierungssystem sprechmelodischer Zeichen integriert sind. Dies besagt nicht, dass zum Beispiel die gefundenen Restriktionen in der Kombination von Intensitäts- und Dauerrelationen in dieser Form für alle sprechmelodischen Zeichen gültig sind, noch dass Dauer- und Intensitätsrelationen immer die Wahrnehmung zweier benachbarter sprechmelodischer Zeichen beeinflussen. Gleiches gilt im übrigen auch für die Gipfelgestalt und die Gipfelhöhe. Der zweite anzusprechende Aspekt betrifft die Zeichenformen innerhalb der AM-Phonologie. In 2.4 wurde erläutert, dass der Tonakzent mit der metrisch starken Silbe assoziiert ist, die eine herausragende abstrakte Prominenz aufweist, was sich auf phonetischer Seite dementsprechend durch stress widerspiegeln kann. Im Falle von bitonalen Akzenten gilt diese Assoziation nur für eines der melodischen Elemente, das durch einen Stern gekennzeichnet ist. So kommen beispielsweise die Tonakzente H+L* und L*+H zustande. Insofern berücksichtigen die Tonakzente neben dem tonalen Muster in der AM-Phonologie auch ein Prominenzmuster. Dieses Konzept weist jedoch einen fundamentalen Unterschied zu der in dieser Arbeit vertretenen Auffassung von der Kodierung im Rahmen sprechmelodischer Zeichen auf. So sind die Prominenzmuster und deren Umsetzung durch phonetische stress-Merkmale wie Dauer und Intensität im Rahmen der AM-Phonologie unabhängig vom Tonakzent gegeben, und die tonalen Elemente werden auf dieses Prominenz- bzw. stress-Muster aufgesetzt. Demgegenüber besagt das in Abbildung 58(b) dargestellte Konzept, dass die sprechmelodischen Zeichen das Prominenzmuster (das in diesem Fall perzeptorisch konkret verstanden wird) selbst aktiv mitgestalten und infolgedessen neben F0 auch Dauer und Intensität modifizieren. Insofern ist die damit einhergehende Zeichenform tatsächlich bikomponential. Für die AM-Zeichenformen gilt dies nicht in gleicher Weise. Ferner können die für die sprechmelodischen Zeichen relevanten Prominenzmuster im Rahmen des eigenen Konzeptes aus Abbildung 58(b) komplexere Formen annehmen als in der AM-Phonologie.
Zum Begriff der Sprechmelodie Kontrastbildung und -verstärkung in den Ansätzen
301 301
6.2 Kontrastbildung und -verstärkung im Rahmen der Wahrnehmung der Sprechmelodie Im Folgenden wird auf die einzelnen Komponenten des Konstruktionsprozess der Sprechmelodie eingegangen. Dabei wird mit der Kontrastbildung und -verstärkung begonnen, die als die initialen Schritte dieses Prozesses gesehen werden und in die bottom-up Vorverarbeitung eingeordnet wurden (vgl. Abb. 54). Die einzelnen Merkmale dieses Verarbeitungsschrittes werden unter Berücksichtigung der in 6.1 entwickelten Grundlagen vorgestellt. Im vorangegangenen Abschnitt 6.1.4 wurde erläutert, dass die Sprechmelodie im Standarddeutschen zwei zentrale kommunikative Bedeutungstypen umfasst, die Hervorhebung und die attitudinale Bedeutung, die durch die sprechmelodischen Zeichen getragen wird. Es wurde argumentiert, dass Hervorhebung durch Prominenzmuster auf Silbenebene kodiert ist, während die attitudinalen Bedeutungen sprechmelodischer Zeichen aus bikomponentialen Zeichenformen bestehen, die ein Tonhöhenmuster lokaler tonaler Elemente umfassen, das in ein ebensolches lokales Prominenzmuster eingebettet ist. Das Ziel der Kontrastbildung muss – im Einklang mit der Aufgabe der Kontrastbildung in der visuellen und auditiven Wahrnehmung im allgemeinen – nun darin bestehen, die Prominenz- und Tonhöhenmuster prononcierter herauszuarbeiten, um deren Gruppierung und die daran gekoppelte Separation gruppierter Einheiten mit Hilfe der Gestaltgesetze vorzubereiten und so letztlich die Identifikation bedeutungstragender Einheiten zu ermöglichen. Da in 6.1.4 dafür argumentiert wurde, dass die für die Hervorhebung relevanten silbenbezogenen Prominenzen aus den lokalen Prominenzen der tonalen Elemente sprechmelodischer Zeichen gebildet werden, kann sich die Kontrastbildung und -verstärkung prinzipiell auf das Herausarbeiten der lokalen Prominenz- und Tonhöhenmuster beschränken. Das heißt, der Kontrastmechanismus arbeitet auf Basis der tonalen Elemente41. _____________ 41
Diese Annahme erscheint auch aus anderen strukturellen Gründen sinnvoll. So ist es essentiell für die Kontrastbildung, dass die miteinander kontrastierten Eigenschaften gleichartig sind. Stationäre Töne und Tonhöhenbewegungen erfüllen diese Voraussetzung nicht. Wenn der Kontrastmechanismus hingegen prinzipiell mit tonalen Elementen operiert, besteht dieses Kompatibilitätsproblem nicht. Ferner stellt die Kontrastbildung zwischen tonalen Elementen (die entweder ohnehin in der Silbe vorliegen oder aber aus den silbeninternen Tonhöhenbewegungen herausragen) die einfachste denkbare Form der Kontrastbildung dar. Letztlich ist auch zu bedenken, dass zwar jede komplexere Struktur in eine einfachere überführt werden kann, umgekehrt ist dies aber nicht möglich. Das heißt, aus Tonhöhenbewegungen können zwar tonale Elemente herausgelöst werden, Einzeltöne können jedoch nicht in Tonhöhenbewegungen überführt werden.
302 302
Einleitung Ansätze zu einer Kontrast-Theorie
Sie repräsentieren das sprechmelodische Pendant zu den Flächeneinheiten in der visuellen Wahrnehmung, wie etwa die grauen Dreiecke A und B und das dunkle Kreuz in Abbildung 46(c) oder die unterschiedlich hellen viereckigen Flächen des gewellten Mondrians in Abbildung 47. Ebenso wie die genannten Flächen in den Kontrast-Beispielen aus der visuellen Wahrnehmung Konstrukte darstellen, sind auch die tonalen Elemente, auf die der sprechmelodische Kontrastmechanismus zurückgreift, (zuvor) konstruierte Einheiten. In allen Fällen handelt es sich, der höheren Ebene der Kontrastbildung entsprechend, also um Wahrnehmungselemente im Sinne von 5.2. Um weitergehend dem Phänomen der Prominenz als einem Amalgam mehrerer Größen Rechnung zu tragen (vgl. Abb. 58), muss die Kontrastbildung multidimensional angelegt sein. Da sie zudem auf einer höheren Verarbeitungsebene anzusiedeln ist, handelt es sich bei den einzelnen kontrastierten Dimensionen nicht um F0, Dauer und Intensität, sondern um (interne) perzeptorische Repräsentationen dieser Größen, also um Tonhöhe, Länge und Lautheit. Das heißt, für jedes tonale Element, das in den Kontrastmechanismus eingeht, wird dessen Tonhöhe sowie die Länge und Lautheit dieser Tonhöhe herangezogen und mit den Tonhöhen, Längen und Lautheiten anderer vorangehender tonaler Elemente kontrastiert. Die in jeder Dimension entstandenen Kontraste werden verstärkt. Sie leisten einen individuellen Beitrag zur Prominenz (siehe 6.3). In 5.3 wurde mit Bezug auf die impressionistischen Beschreibungen bei Grabe (1998) ausgeführt, dass Hinweise auf eine Kontrastverstärkung der beschriebenen Art im Phänomenbereich der Sprechmelodie für den Parameter der Tonhöhe vorliegen. Der eigene Perzeptionseindruck geht mit diesen Hinweisen konform und legt darüber hinaus auch nahe, dass für Länge und Lautheit eine Kontrastverstärkung durchgeführt wird. In diesem Zusammenhang ist zu beachten, dass die höhere Kontrastbildung bestimmten Beschränkungen unterliegt. Dies wurde in 5.3 zum Beispiel anhand der Perzepte zu den visuellen Stimuli des Benary-Kreuzes und des gewellten Mondrians (siehe Abb. 46c und 47) und der damit verbundenen Erklärungen deutlich. Letztere führen den Helligkeitsunterschied zwischen den beiden Dreiecken A und B im Benary-Kreuz darauf zurück, dass das eine Dreieck mit dem hellen Umfeld, der das Kreuz umgibt, kontrastiert wird, während für das andere Dreieck eine Kontrastbildung mit dem dunklen Kreuz selbst stattfindet. Das heißt, der Kontrast wird nicht generell in jeder Richtung zwischen den benachbarten Flächen gebildet und verstärkt. Vielmehr beschränkt sich die Kontrastbildung und -verstärkung auf Flächeneinheiten innerhalb räumlicher Gliederungsebenen. Vergleichbare Beschränkungen wurden für die Kontrastbildungen im gewellten Mondrian postuliert. Der perzipierte Helligkeitsunterschied zwi-
Zum Begriff der Sprechmelodie Kontrastbildung und -verstärkung in den Ansätzen
303 303
schen den als A und B gekennzeichneten Flächen wurde darauf zurückgeführt, dass beide Flächen jeweils ausschließlich mit den benachbarten Flächen innerhalb derselben dreidimensionalen Ebene kontrastiert werden. Die Flächen anderer räumlicher Ebenen finden bei der Kontrastbildung der Flächen A und B keine Berücksichtigung, obwohl sie in gleicher Weise als räumlich benachbart gelten können. Werden diese räumlichen Beschränkungen auf die zeitlichen Elemente der auditiven Wahrnehmung übertragen (und wegen der grundsätzlichen Parallelität zwischen beiden Wahrnehmungsmodalitäten erscheint dieser Transfer zulässig), bedeutet dies, dass die auditive Kontrastbildung auf Wahrnehmungselemente innerhalb einer zeitlichen Ebene beschränkt wird. Im Falle der Sprechmelodie handelt es sich bei diesen Wahrnehmungselementen um die beschriebenen tonalen Elemente. Zeitliche Ebenen existieren in der auditiven Wahrnehmung als ineinander verschachtelte Konstruktionseinheiten mit unterschiedlicher zeitlicher Extension. In der Musik sind dies beispielsweise Takte, Themen und Melodien; in der Sprachwahrnehmung zählen zu den möglichen Konstruktionseinheiten – im Rahmen der genannten Verschachtelung von innen nach außen gesehen – unter anderem Silben, sprechmelodische Zeichen (bzw. Einheiten, die als solche identifiziert werden) und melodische Phrasen. Die Beschränkung der Kontrastbildung auf die jeweiligen Konstrukte entspricht einem bestimmten Zeitfenster für die Kontrastbildung. Dabei ist analog zur visuellen Wahrnehmung davon auszugehen, dass das Ausmaß der Kontrastverstärkung – neben dem Einfluss der Größe des Unterschieds selbst – mit zunehmender zeitlicher Distanz zwischen kontrastierten Elementen schwächer ausfällt (vgl. hierzu 5.3). Den tonalen Elementen, die im Rahmen der Sprechmelodie den Gegenstand der Kontrastbildung und -verstärkung darstellen, ist die Konstruktionseinheit der Silbe direkt übergeordnet. Wie in 6.1.1 erläutert, werden jedoch auch Silben konstruiert, die nur ein tonales Element enthalten. In solchen Einheiten, die im Rahmen der Sprachwahrnehmung nicht selten auftreten (vgl. auch 5.1), ist keine Kontrastbildung möglich. Eine für die Kontrastbildung vor diesem Hintergrund sinnvolle Einheit ist die den Silben übergeordnete Konstruktionseinheit, deren Entstehung im Zusammenhang mit den Gestaltgesetzen in 6.4 detaillierter beschrieben wird und die im Rahmen der Kontrast-Theorie als die primäre Domäne für die (De-)Kodierung der sprechmelodischen Zeichen betrachtet wird. Diese Konstruktionseinheit wird daher auch als die Einheit des sprechmelodischen Zeichens umschrieben, obwohl das sprechmelodische Zeichen im Sinne einer bedeutungstragenden Einheit erst im Anschluss an die Identifikation im endgültigen Perzept vorliegen kann.
304 304
Einleitung Ansätze zu einer Kontrast-Theorie
Vor dem Hintergrund der vorangegangenen Argumentation ist erneut herauszustellen, dass die Wahrnehmungselemente in der visuellen Wahrnehmung, und damit einhergehend der Kontext, in dem die einzelnen Wahrnehmungselemente stehen und kontrastiert werden, simultan verfügbar sind. In der auditiven Wahrnehmung indes entwickelt sich dieser Kontext über die Zeit. Aus dieser Sukzessivität heraus ergibt sich für den prozessoralen Ablauf des Kontrastmechanismus in der Sprechmelodie die folgende Konsequenz. Die tonalen Elemente treten (einzeln oder in Gruppen) sukzessive in den Mechanismus aus Kontrastbildung und -verstärkung ein. Jedes neu hinzutretende Element repräsentiert eine Erweiterung des für die Kontrastbildung relevanten Kontextes und wird rückwärtsgerichtet mit den vorangehenden tonalen Elementen, die sich innerhalb der gleichen Konstruktionseinheit eines sprechmelodischen Zeichens befinden, multidimensional kontrastiert. In Abhängigkeit von dem Ausmaß des Unterschiedes und der zeitlichen Entfernung werden die dabei gebildeten Kontraste innerhalb jeder Dimension verstärkt. Hierbei ist besonders zu beachten, dass die durch Kontrastverstärkung modifizierten Tonhöhen-, Längen- und Lautheitseigenschaften der vorangehenden tonalen Elemente ihrerseits ebenfalls andere Kontrastverstärkungen mit deren vorangehenden tonalen Elementen nach sich ziehen. Insofern löst jedes neu hinzutretende Element in gewisser Weise eine Kettenreaktion innerhalb der Konstruktionsebene des sprechmelodischen Zeichens aus, durch die sich die multidimensionalen Kontraste deutlich verändern können. Im Laufe des Kapitels wird noch deutlich werden, dass jedes neu hinzutretende tonale Element damit nicht nur Veränderungen innerhalb der Tonhöhenmuster, sondern darüber hinaus auch eine weitgehende Reorganisation der Prominenzmuster bewirken und so erhebliche Auswirkungen auf die Identifikation von Hervorhebungskategorien (über die Grundeinheiten hinaus, vgl. 1.3.1 und 6.1.3) und sprechmelodischen Zeichen haben kann. Insofern wird der Konstruktionsmechanismus einer Charakteristik der auditiven Wahrnehmung gerecht, die Handel (1986) im Rahmen musikalischer Melodien beobachtet hat und die der Zeitdimension in auditiven Entitäten geschuldet ist: „changes at one point generate changes throughout the structure“ (Handel 1986:447). Gemäß den Ausführungen in 6.1.1 stehen am Ausgangspunkt der Kontrastbildung die konstruierten Einheiten der Silben, die je nach ihrer spektralen Struktur entweder Tonhöhenbewegungen oder stationäre Einzeltöne enthalten. Aus letzterem ergibt sich, dass in Abhängigkeit von der Beschaffenheit der Silbe unterschiedlich viele tonale Elemente gleichzeitig in den Kontrastmechanismus eintreten. Silben mit stationären Einzeltönen beinhalten nur ein tonales Element, Silben mit Tonhöhenbewegungen umfassen hingegen mindestens zwei tonale Elemente (vgl. auch 6.1.2).
Zum Begriff derKontrast Sprechmelodie Prominenz zwischen und Wissen
305 305
Dies lässt jedoch den zuvor beschriebenen Ablauf der Kontrastbildung und -verstärkung unberührt.
6.3 Prominenz als Konstrukt zwischen Kontrast und Wissen Aus den nachfolgenden Ausführungen wird ersichtlich werden, dass die Kontrastbildung die Grundlage für die Entstehung von Prominenz bildet und Prominenz somit auf der bottom-up Vorverarbeitung basiert. In diesem Sinne ist Kontrast auch als Kern der vorgestellten theoretischen Ansätze anzusehen. Die letztlich wahrgenommene Prominenz selbst ist jedoch – insbesondere im Rahmen der Sprache bzw. der Sprechmelodie – ein auf top-down Wissen zurückgehendes Konstrukt. Diese Auffassung weist deutliche Parallelen zu Stock und Zacharias (1973) auf, die aufgrund ihrer phonetischen Beobachtungen das Zustandekommen von Prominenz wie folgt zusammenfassen, wobei sie in ihrer Arbeit anstelle von Prominenz den Begriff des Akzentes verwenden: „Die Akzentwirkung wird vor allem dadurch erreicht, daß durch das Zusammenwirken der intonatorischen Merkmale innerhalb einer Silbe diese in Kontrast zu anderen Silben gebracht wird und dadurch aus ihnen herausgehoben wird. Dabei spielt die Melodie eine entscheidende Rolle. Aber auch die Lautheit und die temporale Struktur sind wichtig“ (Stock und Zacharias 1973:12). Kontrastbildung wurde in 5.3 so definiert, dass Ausprägungen gleichartiger Eigenschaften von Reiz- bzw. Wahrnehmungselementen in Relation zueinander gesetzt werden. Sie repräsentiert ein Grundphänomen der Wahrnehmung, dessen Funktion vor allem darin gesehen werden kann, relative Unterschiede aufzuspüren und zu verstärken. Auf diese Weise werden Grenzen zwischen Reiz- und Wahrnehmungselementen hervorgehoben und so deren anschließende Gruppierung durch die Gestaltgesetze unterstützt. Aus der Funktion der Kontrastbildung wird die Verbindung zur Prominenz erkennbar: Prominenz bedeutet in erster Linie Auffälligkeit. Auffälligkeit kommt durch Unterschiede zustande, und das Erkennen von Unterschieden wiederum bedingt, dass Ausprägungen gleichartiger Eigenschaften von Elementen in Relation zueinander gesetzt werden. Das bedeutet, dass Prominenz ohne Kontrastbildung bzw. ohne Kontraste nicht existieren kann. Gleichzeitig ist damit gesagt, dass es sich bei Prominenz um ein relationales Phänomen handelt, ebenso wie auch Kontrastbildung ein relationales Konzept darstellt. Prominenz definiert sich über Prominenzrelationen, für sich genommen existiert sie nicht. Bezogen auf die Silbe hat dies zum Beispiel zur Folge, dass „the stress of one syllable must be
306 306
Einleitung Ansätze zu einer Kontrast-Theorie
defined in terms of the stress of other syllables; the stress of one syllable in isolation is unknwon and undefinable” (Handel 1986:429)42. Im Falle des Benary-Kreuzes aus Abbildung 46(c) beispielsweise sticht das helle Dreieck B vor dem Hintergrund des dunklen Kreuzes sofort ins Auge. Es ist sehr prominent. Dieses Prominenzperzept käme nicht zustande, wenn das Dreieck nicht in Bezug zu dem Kreuz gesetzt und so der Helligkeitskontrast zwischen beiden Flächeneinheiten berücksichtigt werden würde. Gleiches gilt unter anderem für die beiden dunklen Rechtecke in der ganz rechten vertikalen Gruppierungseinheit des gewellten Mondrians aus Abbildung 47. Ihre dunklen Flächen fallen deswegen auf, da sie sich deutlich von den sie umgebenden hellen Flächen abheben. Prominenz als Folge relativer Unterschiede zwischen gleichartigen Eigenschaften gibt es auch in der auditiven Wahrnehmung. Der Bezugsrahmen hierbei ist allerdings syntagmatischer (d.h. zeitlicher) Natur. Perzeptionsexperimente zur rhythmischen Gliederung von tonalen Elementen zeigen, dass Kontraste in der Intensität, Dauer und (Grund-)Frequenz dazu führen, dass tonale Elemente einer melodischen Einheit gegenüber anderen prominenter werden (vgl. Fraisse 1956; Woodrow 1951; Jones 1981). Handel (1986) gibt hierzu einen Forschungsüberblick. Im Rahmen der Sprachwahrnehmung sind es im Einklang mit Abbildung 58(b) ebenfalls Kontraste in F0, Dauer und Intensität, auf denen die Prominenzwahrnehmung hauptsächlich gegründet ist. Dies belegen die Perzeptionsexperimente von Fry (1955, 1958) anhand von zweisilbigen Minimalpaaren wie „digest“ (Substantiv) und „digest“ (Verb) aus dem Englischen, die sich durch die Position des lexikalischen Akzentes unterscheiden. Anders als Fry haben Nakatani und Aston (1978) sowie Isenberg und Gay (1978) in ihren Perzeptionsexperimenten keine echten Wortformen, sondern zweisilbige Logatome dahingehend beurteilen lassen, welche Silbe gegenüber der anderen prominenter hervortritt. Sie finden mit diesem Ansatz ebenfalls, dass alle drei Parameter, nämlich F0, Dauer und Intensität in die Prominenzwahrnehmung involviert sind. Im Rahmen sprachlicher bzw. sprechmelodischer Prominenzen ist nun nicht davon auszugehen, dass Kontrast und Prominenz unmittelbar aneinander geknüpfte Konzepte sind. Das heißt, aus einem bestimmten Kontrastmuster kann nicht automatisch ein dazugehöriges Prominenzmu_____________ 42
Diese Sichtweise ist durchaus kritisch zu diskutieren. So kann beispielsweise in Erwägung gezogen werden, dass die auditive Wahrnehmung ein Prominenzperzept auch für isolierte Elemente konstruiert, indem sie es auf Basis von (Erfahrungs-)Wissen (z.B. durch die Kenntnis der vorherigen Äußerungen des jeweiligen Sprechers) aus den verfügbaren absoluten Werten der Tonhöhe, Länge und Lautheit abschätzt. Bereits der Begriff der Schätzung impliziert jedoch, dass diese Art der Prominenz qualitativ von anderen relativen Prominenzen unterschieden werden muss.
Zum Begriff derKontrast Sprechmelodie Prominenz zwischen und Wissen
307 307
ster vorhergesagt werden. Vielmehr kann die Kontrastbildung bzw. deren Ausgabe, der (verstärkte) Kontrast, als Grundlage für das Prominenzperzept begriffen werden. Diese Grundlage ist dann Gegenstand einer Interpretation durch top-down Wissen. Prominenz geht so als konstruiertes Ergebnis aus dieser Interpretation hervor. Insofern ist Prominenz in erster Linie als ein kognitives Phänomen anzusehen. Handel (1986:419) betont in einem ähnlichen Zusammenhang: „There is no automatic correspondence between the perceived stress and any acoustic measure. This is true for speech as it is true for music”. Abschließend führt Handel die in diesem Rahmen angeführten empirischen Untersuchungen in der Erkenntnis zusammen: „Finally, stress and accent are in the ‚head’“ (Handel 1986:449; stress und accent stellen bei Handel die sprachlichen und musikalischen Formen der Prominenz dar).
Abbildung 59: Schematische Darstellung der Prominenzwahrnehmung als Konstrukt auf Basis von Kontrastbildung und Wissen.
Abbildung 59 fasst die Anbindung von Prominenz an bottom-up Kontraste und top-down Wissen und die damit einhergehende indirekte Beziehung zwischen Kontrast und Prominenz in einer schematischen Darstellung zusammen. Im Rahmen dieser Darstellung werden anders als zum Beispiel
308 308
Einleitung Ansätze zu einer Kontrast-Theorie
in Abbildung 58 die perzeptorischen Größen Tonhöhe, Länge und Lautheit anstelle ihrer akustischen Korrelate F0, Dauer und Intensität verwendet. Damit wird dem Umstand Rechnung getragen, dass die Kontrastbildung, die im Rahmen der Sprechmelodie durchgeführt wird, auf einer höheren Verarbeitungsebene angesiedelt ist, auf der die akustischen Korrelate bereits zu internen Repräsentationen von Tonhöhe, Länge und Lautheit verarbeitet sind. Mit Bezug auf die in Abbildung 59 gegebene schematische Darstellung ist nachfolgend eine Auswahl an Wissensbereichen zusammengestellt, die an der Interpretation der Kontrastgrundlage und somit an der Konstruktion von Prominenz beteiligt sind. Die aufgelisteten Wissensbereiche basieren zu einem Teil auf Befunden aus experimentellen Untersuchungen. Ein anderer Teil geht auf eigene informelle Beobachtungen und Annahmen zurück. Ein zentraler Punkt ist das Wissen darüber, wie die Kontraste in den einzelnen Parametern mit Prominenz zu verknüpfen sind. Die zuvor genannten Perzeptionsexperimente von Fry (1955, 1958), Nakatani und Aston (1978) sowie Isenberg und Gay (1978) lassen auf folgende Verknüpfungen schließen. Es besteht ein positiver Zusammenhang zwischen der Richtung der Veränderung von Länge und Lautheit und der Stärke der Prominenz. Erhöhungen in Länge und Lautheit steigern die Prominenz, ein Rückgang in Länge und Lautheit senkt die Prominenz. Im Falle der Tonhöhe sind neben den genannten Untersuchungen noch andere wie die von Rietveld und Gussenhoven (1985), Gussenhoven et al. (1997) sowie von Hermes (1997) zu berücksichtigen, die im Einklang mit den eigenen Beobachtungen nahelegen, dass es generell das Ausmaß der Tonhöhenveränderung ist, das positiv mit der Prominenz korreliert, unabhängig davon, ob die Tonhöhe ansteigt oder abfällt. Das heißt, je umfangreicher die Tonhöhenveränderung ist, desto stärker fällt die Prominenz aus43. _____________ 43
Innerhalb dieser Konzeption gibt es allerdings Anlass zu der Annahme, dass für hohe Töne (bzw. tonale Elemente), die aus einem Anstieg der Tonhöhe hervorgehen, eine größere Prominenz konstruiert wird als für tiefe Töne, die in Verbindung mit einer fallenden Tonhöhenbewegung stehen. Hermes (1997) zeigt beispielsweise anhand einer Verschiebung von an- und absteigenden F0-Bewegungen innerhalb einer global fallenden F0-Kontur, dass Silben im Zusammenhang mit der ansteigenden Bewegung schneller prominent wirken und im Rahmen der Verschiebung länger prominent bleiben als im Zusammenhang mit der fallenden Bewegung. Daneben hat `t Hart (1981) für Unterschiede in ansteigenden F0Bewegungen eine niedrigere Diskriminationsschwelle (just noticeable difference, JND) gefunden als für Unterschiede in fallenden F0-Bewegungen. Gregory (1998) argumentiert, dass solche JNDs in erster Linie keine physiologischen Beschränkungen widerspiegeln, sondern als das Ergebnis einer aktiven Filterung des Wahrnehmungsapparates nach relevanter Information aufzufassen sind. Vor diesem Hintergrund ist der Befund von `t Hart so auszulegen, dass der (in diesem Fall auditive) Wahrnehmungsapparat einer Veränderung hin zur Höhe größere Relevanz beimisst als einer Veränderung hin zur Tiefe. Dies könnte mit all-
Zum Begriff derKontrast Sprechmelodie Prominenz zwischen und Wissen
309 309
Darüber hinaus lässt sich aus den Experimenten von Fry (1958) sowie von Nakatani und Aston (1978) ableiten, dass nicht alle Parameter gleichwertig das Prominenzperzept determinieren. Fry (1958) gründet auf seinen Ergebnissen eine Hierarchie, in der die Tonhöhe der wichtigste Prominenzfaktor ist. Nakatani und Aston (1978) stellen aufgrund ihrer Daten nicht die Tonhöhe, sondern die Länge als primären Prominenzfaktor dar. Jenseits dieser Diskrepanz ist beiden Forderungen gemeinsam, dass die Lautheit weniger zur Prominenz beiträgt als Tonhöhe und Dauer. Da diese Forderungen auf Basis des Englischen bzw. anhand englischsprachiger Hörer aufgestellt wurden und das Standarddeutsche zahlreiche Parallelen zum Englischen aufweist, wird davon ausgegangen, dass sie auch für das Standarddeutsche gelten. Dabei wird die Diskrepanz zwischen beiden Forderungen im Rahmen der Ansätze der Kontrast-Theorie dadurch aufgelöst, dass sowohl Tonhöhe als auch Länge als äquivalente primäre Prominenzfaktoren angesehen werden, während die Lautheit als ein sekundärer Prominenzfaktor betrachtet wird. Durch die vorangehende Argumentation ist bereits implizit gesagt, dass grundsätzlich davon auszugehen ist, dass es sich bei dem Wissen über die Art und Weise der Verknüpfung der Kontraste mit Prominenz und über den Beitrag der einzelnen Kontraste zur Prominenz um sprachspezifisches Wissen handelt. Hörer verschiedener Sprachen können also für dieselbe Äußerung (bzw. dasselbe Sprachsignal) zu verschiedenen Prominenzwahrnehmungen gelangen. Fox (2000) verweist in diesem Zusammenhang auf die Arbeit von Chiba (1935), in der auf der Grundlage perzeptorischer Untersuchungen die Hörer elf verschiedener Sprachen klassifiziert wurden. Neue Experimente bestätigen das sprachspezifische Hören von Prominenz (vgl. u.a. Peperkamp et al. 1999; Eriksson et al. 2002). Auf der anderen Seite ergibt sich daraus, dass unterschiedliche Sprachen verschiedene phonetische Mittel einsetzen, um Prominenz zu erzeugen. Dies steht im Einklang mit der Auffassung von Stock und Zacharias (1973). _____________ gemeinen Signalisierungsmechanismen zusammenhängen, die sich aufgrund allgemeiner biologischer Grundlagen oder evolutionärer Konventionen herausgebildet haben (vgl. hierzu z.B. den frequency code von Ohala 1983, 1984 und den Deklinationseffekt bei Ladd und Morton 1997). Man bedenke zum Beispiel den allgemeinen Zusammenhang zwischen größerer Lautheit und höherer Grundfrequenz über den subglottalen Druck (vgl. Ladefoged 1967). Dadurch weisen Schreie, die als Hilferuf oder als Alarmsignal dienen können (vgl. Aitchison 1998), eine höhere Grundfrequenz und damit in der Regel auch eine höhere Tonhöhe auf, deren Beachtung für das Individuum von lebenswichtiger Bedeutung sein kann. In der Sprache stellt eine Veränderung der Tonhöhe nach oben zudem ein Abweichen von der Deklination dar, die vielfach als der physiologisch determinierte default-Fall für den Tonhöhenverlauf in sprachlichen Äußerungen betrachtet wird (vgl. Fußnote 19). Hiervon ausgehend, ist es nachvollziehbar, dass Ausreißern aus der Deklination nach oben eine besondere Signalwirkung zukommt.
310 310
Einleitung Ansätze zu einer Kontrast-Theorie
Anstelle des Prominenzbegriffs verwenden sie den Terminus des Akzentes und stellen Folgendes fest: „Die Akzentuierung erfordert im Deutschen eine bestimmte Kombination der intonatorischen Merkmale. Nur bei dieser Kombination entspricht die Akzentuierung den Normen der deutschen Hochlautung“ (Stock und Zacharias 1973:12). In den Phänomenkreis sprachgebundener Prominenzperzepte sind jedoch auch noch andere Wissensbereiche involviert. Hierzu zählt zum Beispiel das Wissen über die lexikalischen Akzentpositionen, die Wortklasse und die Bedeutung der Äußerung. Auf Basis der Befunde von Shinya (2006) und eigener informeller Beobachtungen an systematisch variierten Stimuli ist davon auszugehen, dass ein Kontrast, wenn er mit lexikalischen Akzentpositionen zusammenfällt, eine geringere Prominenz erzeugt als wenn er außerhalb solcher Positionen liegt. Analog zu einer solchen „accentual boost subtraction“ (Shinya 2006:89) ist auch für Kontraste über Inhaltswörtern im Vergleich zu identischen Kontrasten über Funktionswörtern ein geringerer Prominenzeffekt anzusetzen. Im Umkehrschluss bedeutet dies, dass für eine gleich starke Prominenz im Rahmen von lexikalischen Akzentpositionen und Inhaltswörtern stärker ausgeprägte Kontraste erforderlich sind. Den Einfluss des Wissens über die Bedeutung der Äußerung auf die Prominenz schildert Handel (1986) am Beispiel der englischen Äußerung „the white house“. In solchen Fällen, in denen die Prominenzstruktur der Äußerung ambig ist, wird der Hörer dazu tendieren, entweder „the white house“, „the white house“, oder „the white house“ wahrzunehmen, je nachdem, in welchem inhaltlichen Rahmen die Äußerung steht. Des weiteren ist das Wissen über geschlechtsspezifische Prädispositionen und den Aufbau der melodischen Phrase in die Interpretation der Kontrastgrundlage und die Konstruktion von Prominenz involviert. Zu ersterem zeigen Rietveld und Gussenhoven (1985) experimentell, dass Hörer Tonhöhenveränderungen von Männern und Frauen hinsichtlich der Prominenz unterschiedlich beurteilen. Dabei wird berücksichtigt, dass Frauen aufgrund ihrer Kehlkopfanatomie ein größerer Tonraum zur Verfügung steht als Männern. Entsprechend müssen Tonhöhenveränderungen bei Frauen umfangreicher ausfallen, um die gleiche Prominenz hervorzurufen wie bei Männern. In einem anderen Perzeptionsexperiment zeigen Pierrehumbert (1979) sowie Gussenhoven et al. (1997), dass Tonhöhenveränderungen, je weiter sie sich zum Ende der melodischen Phrase bewegen, geringer ausfallen können, um die gleiche Prominenz zu evozieren. Es ist anzunehmen, dass in diese Wahrnehmung das Wissen über den Aufbau einer melodischen Phrase eingeht, die durch Absenkung und sukzessive Einengung des verwendeten Tonraumes gekennzeichnet ist (vgl. Deklination in Fußnote 19 in 4.1.1). Auch letzteres ist prinzipiell
Zum Begriff der SprechmelodieElemente Die Gruppierung sprechmelodischer
311 311
sprachspezifisches Wissen. Es kann jedoch angenommen werden, dass es in der beschriebenen Weise für das Standarddeutsche vorliegt. Abschließend ist eine Form von Wissen zu nennen, die sich in ihrer Qualität von dem zuvor aufgeführten Wissen unterscheidet, da sie sich erst über den Konstruktionsprozess hinweg entwickelt. Gemeint ist rhythmisches Wissen. Hierbei erzeugt das vorangehende Prominenzmuster eine Erwartung, die in die Konstruktion nachfolgender Prominenzen einfließt. Daneben gibt es wohlmöglich aber auch prominenzrelevante und kontextfreie Formen rhythmischen Wissens, wie das Wissen über den Rhythmustyp der jeweiligen Sprache (vgl. hierzu die Übersicht bei Ramus 2002). In den aufgeführten Wissensbereichen ist die zuletzt genannte rhythmische Wissensform die einzige, die in der zeitlichen Perspektive nach vorn gerichtet ist. Bereits vorhandene Prominenzmuster beeinflussen die Konstruktion der noch folgenden Prominenzmuster. Im Gegensatz dazu ist zum Beispiel das Wissen darüber, wie die Kontraste in den einzelnen Parametern mit Prominenz zu verknüpfen sind, eine zeitlich gesehen zurückgerichtete Wissensform, da sie sich auf die ebenfalls rückwärts gebildeten Kontraste bezieht (vgl. 6.2). Die anderen vorgestellten Wissensbereiche sind diesbezüglich nicht spezifizierbar.
6.4 Die Gruppierung sprechmelodischer Elemente zu Konstruktionseinheiten Im Rahmen von 5.4 wurde dargelegt, dass experimentelle Befunde dafür sprechen, dass die auditive und visuelle Wahrnehmung auf ein Inventar heuristischer Regeln, die sogenannten Gestaltgesetze, zurückgreifen, um Wahrnehmungselemente zu größeren Einheiten, den Gestalten, zusammenzustellen. Diese Zusammenstellung hat gleichzeitig zur Folge, dass Wahrnehmungselemente verschiedener Einheiten voneinander abgegrenzt werden. Die Ordnung, die über diesen Vorgang entsteht, bildet die Grundlage für die spätere Identifikation von Entitäten, zu denen auch die beiden sprechmelodischen Bedeutungstypen Hervorhebung und die attitudinalen Bedeutungen sprechmelodischer Zeichen gezählt werden können. Die Gestaltgesetze kommen nicht nur modalitätsübergreifend bei der Konstruktion von Perzepten zur Anwendung. Auch innerhalb einer Modalität spielen sie auf verschiedenen Verarbeitungsstufen eine Rolle (vgl. Abb. 53 in 5.5). Ihnen kommt somit in der Wahrnehmung eine zentrale Stellung zu. Aufgrund dieser zentralen Stellung ist es sehr wahrscheinlich, dass die Gestaltgesetze gemäß dem Schema in Abbildung 54 auch in die Wahrnehmung der Sprechmelodie involviert und hierin für die Gruppierung von Wahrnehmungselementen zu größeren Konstruktionseinheiten
312 312
Einleitung Ansätze zu einer Kontrast-Theorie
verantwortlich sind, aus denen heraus anschließend die bedeutungstragenden Einheiten erkannt werden. Letzteres unterstreicht, dass die Anwendung der Gestaltgesetze im Wahrnehmungsprozess nicht unmittelbar darauf abzielt, identifizierbare Einheiten zu generieren. Gestaltgesetze geben den Elementen im Wahrnehmungsprozess in erster Linie eine Ordnung, die dann ihrerseits als Basis für Identifikationsleistungen genutzt werden kann. Vor diesem Hintergrund muss nun die übergeordnete Frage beantwortet werden, auf welche Weise die Gestaltgesetze Ordnung in die sprechmelodischen Wahrnehmungselemente bringen. Dieser Frage sind mehrere Fragen untergeordnet. Mit welchen Wahrnehmungselementen operieren die Gestaltgesetze innerhalb der Sprechmelodie? Was dient als Bezugsgröße für die Anwendung der Gestaltgesetze und welche Gestaltgesetze kommen zur Anwendung? Um Antworten auf diese Fragen zu finden, muss die Struktur des Bildes betrachtet werden, das bislang für die Sprechmelodie entworfen wurde. Als zentrale perzeptorische Größen in der Sprechmelodie wurden Ton und Prominenz vorgestellt. Hierbei wurde erläutert, dass beide Größen nicht unabhängig voneinander sind. Vielmehr ist Ton auch ein Bestandteil der Prominenz. Daneben wurden die Silbe und das (multidimensionale) tonale Element als die zentralen Wahrnehmungselemente in der Sprechmelodie bzw. am Ausgangspunkt ihrer Konstruktion dargestellt. Ähnlich wie bei Ton und Prominenz zuvor wurde in diesem Zusammenhang ausgeführt, dass tonale Elemente in eine Substruktur der Silbe einzuordnen sind. Angesichts der gegebenen Darstellung besteht der effizienteste Weg, die sprechmelodischen Elemente zu ordnen, darin, die Gestaltgesetze auf die Wahrnehmungselemente der Silben anzuwenden und hierbei auf die Bezugsgröße der Prominenz zurückzugreifen. Eine Gruppierung der Silben führt gleichzeitig zu einer Gruppierung der tonalen Elemente. Unabhängige Gruppierungen sind dadurch, dass die tonalen Elemente Bestandteile der Silben sind, ohnehin ausgeschlossen. Mit der Prominenz wird dabei ein Kriterium verwendet, das alle sprechmelodischen Größen, Ton sowie auch Länge und Lautheit, umfasst und das zudem sowohl eine Eigenschaft der Silben als auch der tonalen Elemente ist. Zudem wird angenommen, dass die globale Prominenz der Silben rechnerisch aus den lokalen Prominenzen der tonalen Elemente in der Silbe hervorgeht. Insofern ist die genannte Strategie auch unter dem Gesichtspunkt der Robustheit des Sprachkodes plausibel, da sich das Prominenzmuster auf Silbenebene so sehr viel differenzierter ausprägt als das lokale Prominenzmuster. Dem skizzierten Weg folgend, wird im Rahmen der Ansätze zur Kontrast-Theorie angenommen, dass die Gestaltgesetze bei der Konstruktion
Zum Begriff der SprechmelodieElemente Die Gruppierung sprechmelodischer
313 313
der Sprechmelodie Silben mit Bezug auf deren Prominenz zu größeren Konstruktionseinheiten zusammengruppieren. Dabei muss die Gruppierung dem Umstand Rechnung tragen, dass es sich im Rahmen der Sprechmelodie um auditive Wahrnehmungselemente handelt. Es sind somit zeitliche und nicht räumliche Elemente. In der Konsequenz bedeutet dies, dass die zu gruppierenden Wahrnehmungselemente anders als in der visuellen Wahrnehmung nicht simultan gegeben sind, sondern sukzessive über die Zeit hinweg auftreten. Da dies in entsprechender Weise auch für die Prominenzen gilt, müssen die Gestaltgesetze in einem zeitlichen Rahmen angewandt werden. Es ist ferner darauf hinzuweisen, dass dies auch vor einem funktionalen Hintergrund sinnvoll ist, da zum Beispiel die Bezugsgröße der Prominenz ein Bindeglied zwischen der Kodierung attitudinaler Bedeutung im Rahmen sprechmelodischer Zeichen auf der einen und der Kodierung von Hervorhebungskategorien auf der anderen Seite darstellt. Wie allerdings die prominenzbezogene Gruppierung der Silben darüber hinaus aussieht, ist mit der Frage verbunden, welche Gestaltgesetze dieser Gruppierung zugrundeliegen. In 5.3 wurde darauf hingewiesen, dass nicht alle Gestaltgesetze gleichbedeutend sind. Von übergeordneter Bedeutung ist das Prägnanzgesetz, das besagt, dass die Gruppierung darauf abzielt, strukturell möglichst einfache Einheiten zu bilden. Alle anderen Gestaltgesetze wie die in 5.3 anhand von Beispielen erläuterten Gesetze der Nähe, Ähnlichkeit und guten Fortsetzung sind auf dieses zentrale Prägnanzgesetz hin ausgerichtet. Angesichts der dargestellten Hierarchie ist es sinnvoll, im Rahmen der Wahrnehmung der Sprechmelodie vom Prägnanzgesetz auszugehen. Was aber sind in der Sprechmelodie und mit Bezug auf die prominenzbasierte Gruppierung strukturell möglichst einfache Einheiten? Die einfachsten Einheiten sind sicherlich solche, die sich aus Silben mit äquivalenten Prominenzen zusammensetzen. Die Voraussetzungen für eine solche Gruppierung sind jedoch im Rahmen der Sprechmelodie nicht zu erwarten. Auf akustischer Ebene besteht eine permanente Variation in F0, Dauer und Intensität, die seitens der Perzeption entsprechend mit einer permanenten Variation in Tonhöhe, Länge und Lautheit einhergeht. Bereits vor diesem Hintergrund wird gemäß den Ausführungen zur Prominenzkonstruktion in 6.3 die Prominenz aufeinanderfolgender Silben in der Regel nicht identisch sein. Das Prominenzmuster der Sprechmelodie auf Silbenebene ist – besonders im Hinblick auf die Kodierung der Hervorhebung (vgl. 6.1.4) – vielmehr dadurch gekennzeichnet, dass in bestimmten zeitlichen Abständen Prominenzspitzen auftreten. In einem solchen Mustertyp sind die einfachsten (Grund-)Einheiten (vgl. 1.3.1 und 6.1.3), die zudem strukturell immer in gleicher Weise gebildet werden können,
314 314
Einleitung Ansätze zu einer Kontrast-Theorie
diejenigen, die neben einer beliebigen Anzahl schwacher Prominenzen genau eine starke Prominenz enthalten. Von dem dargestellten Entwurf ausgehend, werden somit durch die silbenweise prominenzbezogene Gruppierung ganzheitliche komplexe Konstruktionseinheiten über die Zeit hinweg aufgebaut. Dabei werden die zeitlich aufeinanderfolgenden Silben solange an dieselbe Konstruktionseinheit angebunden, bis eine Silbe mit starker Prominenz eine neue oder bis das Ende der melodischen Phrase den Abschluss der gerade bearbeiteten Konstruktionseinheit einleitet. Es wird zudem angenommen, dass die in einer solchen Konstruktionseinheit zusammengefassten tonalen Elemente bzw. das dadurch entstehende Muster aus lokalen Tonhöhen und Prominenzen die für die Kodierung eines sprechmelodischen Zeichens primär relevante Phonetik repräsentieren (siehe 6.6). Die Konstruktionseinheit selbst kann damit als die Einheit des sprechmelodischen Zeichens umschrieben werden, obgleich eine spezifische bedeutungstragende Einheit erst nach der Identifikation im endgültigen Perzept vorliegen kann. Dennoch besteht eine der zusätzlichen Eigenschaften, durch die sich die Konstruktionseinheit als Gestalt von ihren einzelnen Wahrnehmungselementen abhebt, in der kommunikativen Relevanz der Einheit. Vor diesem Hintergrund ist bereits an dieser Stelle ein Aspekt hervorzuheben. Dass die beschriebene Konstruktionseinheit als die Domäne für die Kodierung sprechmelodischer Zeichen betrachtet wird, bedeutet nicht, dass die für die Dekodierung eines sprechmelodischen Zeichens relevante Phonetik ausschließlich aus der dazugehörigen Konstruktionseinheit kommt. Ebenso wie im lautlichen Kanal ist auch im melodischen Kanal davon auszugehen, dass die Wahrnehmung bei der Erkennung sprachlicher Entitäten einheitenübergreifend phonetische Informationen berücksichtigt. Für den lautlichen Kanal ist dies bereits in 6.1.1 im Zusammenhang mit der Kodierung sprachlicher Information in den Übergängen zwischen den klassischen Einheiten der Lautsegmente und dem damit einhergehenden Status der Silbe als Informationseinheit angesprochen (vgl. Ohala 1992). Dieser Aspekt wird in 6.6 von Bedeutung sein. Des weiteren hat die zuvor beschriebene Parallelität zwischen gebildeten Konstruktionseinheiten und sprechmelodischen Zeichen zur Folge, dass im endgültigen Perzept Grenzen zwischen sprechmelodischen Zeichen nicht innerhalb (der tonalen Elemente) einer Silbe verlaufen können. Vielmehr ziehen Silben mit starker Prominenz die Grenzen zwischen sprechmelodischen Zeichen. Das Auftreten einer solchen Prominenzspitze könnte man auch als einen Bruch im Prominenzmuster auffassen. Insofern lässt sich die angesetzte prominenzbasierte Gruppierung der Wahrnehmungselemente auch auf das Gestaltgesetz der guten Fortset-
Zum Begriff der SprechmelodieElemente Die Gruppierung sprechmelodischer
315 315
zung beziehen. Die Konstruktionseinheit selbst entspricht dem, was in der Literatur auch als Akzentgruppe bezeichnet wird (vgl. 2.3.2). Das heißt, sie umfasst einen phonetischen Inhalt, der mit einer Akzentsilbe beginnt und an der Grenze zur darauf folgenden Akzentsilbe oder Phrasengrenze endet. Da die sprechmelodischen Zeichen im Zentrum der vorliegenden Arbeit stehen, soll nachfolgend nicht weiter eruiert werden, woran die Grundeinheiten der Hervorhebung (und alle darauf aufbauenden Einheiten) im Einzelnen erkannt werden. Es ist jedoch davon auszugehen, dass die Prominenzspitze am Kopf der jeweiligen Konstruktionseinheit einen zentralen Bestandteil in der Kodierung der Hervorhebungskategorien darstellt. In diesem Zusammenhang sind auch die in 5.3 thematisierten sprachübergreifenden Befunde zu einer Hervorhebungsbedeutung zu berücksichtigen, die in der Literatur auch als Fokus bzw. enger oder kontrastiver Fokus bezeichnet wird (vgl. z.B. Baumann et al. 2006). Hiernach wird für dessen Kodierung der Bereich nach der betreffenden Akzentsilbe unter anderem tonal stark eingeebnet realisiert, und diese Einebnung, die sehr wahrscheinlich mit einer Herabsetzung der lokalen und silbenbezogenen Prominenzen einhergeht, ist auch für die perzeptorische Erkennung dieser Hervorhebung relevant (vgl. u.a. Xu et al. 2004). Dies unterstützt die Annahme, dass Hervorhebung prinzipiell in einem globaleren Rahmen kodiert ist, ebenso wie es die Ansätze zur Kontrast-Theorie für die sprechmelodischen Zeichen vorsehen. Dass ferner angesichts der genannten empirischen Befunde davon ausgegangen werden kann, dass in erster Linie die Prominenzen nach der Prominenzspitze herabgesetzt werden und perzeptorisch relevant sind, bekräftigt die im Rahmen der Ansätze zur KontrastTheorie vertretene Auffassung von der Gruppierung der Wahrnehmungselemente zu Konstruktionseinheiten und die zurückgerichtete kontrastbasierte Prominenzkonstruktion innerhalb dieser Einheiten (vgl. hierzu die Ausführungen zum Zeitfenster der Kontrastbildung in 5.3). Wenn sich das Prominenzmuster auf Silbenebene aus den lokalen anhand von Kontrast und Wissen konstruierten Prominenzen heraus ergibt, kann jede am Eingang des gesamten Konstruktionsprozesses neu hinzutretende Silbe durch die Tonhöhen-, Längen- und Lautheitseigenschaften ihrer tonalen Elemente ebenso wie durch ihre sonstigen prominenzrelevanten Merkmale und ihren Beitrag zum rhythmischen Wissen nicht nur das lokale Prominenzmuster, sondern auch das globale Prominenzmuster auf Silbenebene deutlich verändern und so zu einer Reorganisation der bis dahin zusammengruppierten Konstruktionseinheiten führen. Damit verändert sich nicht nur die Wahrnehmung der Hervorhebung, sondern auch
316 316
Einleitung Ansätze zu einer Kontrast-Theorie
die Wahrnehmung sprechmelodischer Zeichen bzw. ihrer Bedeutung44. Insofern handelt es sich bei der Wahrnehmung der Sprechmelodie im Einklang mit der Charakteristik der auditiven und visuellen Wahrnehmung im allgemeinen (vgl. Abb. 53) um einen konstruktivistischen und hoch dynamischen, interpretativen Vorgang. Die jeweils aktuelle Konstruktion der Sprechmelodie ist – im Hinblick auf die Sukzessivität auditiver Reizund Wahrnehmungselemente – lediglich eine Hypothese, die auf dem zum gegebenen Zeitpunkt verfügbaren Kontext basiert. Der sich über die Zeit entwickelnde Kontext macht eine Aktualisierung dieser Hypothese erforderlich. Dies manifestiert sich in einer revidierten Konstruktion der Sprechmelodie. Der darin zum Ausdruck kommende Konstruktionsprozess wird nachfolgend in einer zusammenfassenden Übersicht dargestellt.
6.5 Zusammenfassung des für die Wahrnehmung der Sprechmelodie entworfenen Konstruktionsprozesses In den vorangegangenen Abschnitten wurden die folgenden Punkte zur Struktur der Sprechmelodie postuliert. Sie finden sich schematisch dargestellt auch im unteren linken Bereich der Abbildung 60. • Sprechmelodie umfasst zwei zentrale perzeptorische Größen, Tonhöhe und Prominenz. • Tonhöhe liegt am Ausgangspunkt der Verarbeitung der Sprechmelodie in Form von silbeninternen stationären Einzeltönen oder Tonhöhenbewegungen vor. Letztere weisen an den Enden hervortretende tonale Ereignisse auf, die als gleichwertig mit den stationären Einzeltönen angesehen wurden. • Die tonalen Ereignisse aus Tonhöhenbewegungen und die stationären Einzeltöne stellen zusammen die tonalen Elemente dar. • Diese tonalen Elemente weisen neben der Tonhöhe eine darauf bezogene Länge und Lautheit auf und fungieren als die zentralen Wahrnehmungselemente innerhalb des entwickelten Konstruktionsprozesses. • Es wurde des weiteren erläutert, dass in der Sprechmelodie Prominenzen auf zweierlei Ebenen existieren, einmal auf der Ebene der tonalen Elemente und einmal auf der Ebene der Silbe. _____________ 44
Dabei ist zu berücksichtigen, dass die Dynamik dieses Vorgangs gemäß der Argumentation in 6.2 dadurch eingeschränkt wird, dass die rückwärtsgerichtete Kontrastbildung und -verstärkung der Tonhöhen-, Längen und Lautheitseigenschaften zwischen tonalen Elementen, die eine wesentliche Rolle bei der Neukonstruktion lokaler Prominenzen spielt, auf das Zeitfenster innerhalb einer Konstruktionseinheit beschränkt ist.
Zum Begriffdes derKontruktionsprozesses Sprechmelodie Zusammenfassung
317 317
• Hierbei wurden Hinweise darauf vorgestellt, dass die Prominenzen auf Silbenebene aus den Prominenzen der in den Silben enthaltenen tonalen Elemente hervorgehen. • Die lokalen Prominenzmuster auf der Ebene der tonalen Elemente sind in Verbindung mit dem Tonhöhenmuster, das diese tonalen Elemente bilden, relevant für die Kodierung bzw. die Dekodierung der sprechmelodischen Zeichen, die als Träger attitudinaler Bedeutungen im Standarddeutschen dienen. Daneben existiert ein weiterer essentieller Typ kommunikativer Bedeutung im Standarddeutschen, die Hervorhebung. Es wurde argumentiert, dass die Kodierung dieses Bedeutungstyps Prominenzmuster involviert, wodurch sich eine phonetische Schnittmenge zur Kodierung der attitudinalen Bedeutungen im Rahmen sprechmelodischer Zeichen ergibt. Allerdings referiert die Hervorhebung auf die Prominenzmuster auf Silbenebene. Ausgehend von diesen Grundlagen, hat sich aus der zuvor betrachteten Forschung zur auditiven und visuellen Wahrnehmung ein Bild von der Perzeption herauskristallisiert, in dem das Perzept als eine kontextbasierte konstruierte Hypothese betrachtet wird, zu der drei wesentliche Komponenten beitragen: Die Kontrastbildung und –verstärkung, das (top-down) Wissen und die Gestaltgesetze. Dieses allgemeine Bild wurde auf den Konstruktionsprozess zur Wahrnehmung der Sprechmelodie übertragen. Er ist in Abbildung 60 in dem oberen eingerahmten Feld ausschnittsweise ebenfalls schematisch dargestellt und wie folgt konzeptualisiert: • Am Beginn des Konstruktionsprozesses stehen die Silben. Sie fungieren als Transporteinheiten für die tonalen Elemente. Je nachdem ob sie stationäre Einzeltöne oder unterschiedlich komplexe tonale Bewegungen transportieren, befördern sie sukzessive entweder einzelne oder mehrere tonale Elemente in den Konstruktionsmechanismus. • In diesem Mechanismus werden zunächst die Tonhöhen-, Längenund Lautheitseigenschaften des jeweils neu hinzugekommenen tonalen Elementes mit den Eigenschaften der vorangehenden (also z.B. aus früheren silbenbasierten Transporten stammenden) Elemente innerhalb der gegenwärtigen Konstruktionseinheit (die sich im Laufe des Konstruktionsprozesses zuvor bereits entwickelt hat) multidimensional kontrastiert. In Abbildung 60 wird auf diese perzeptorischen Größen mit ‚Th’ (für Tonhöhe), ‚Lg’ (für Länge) und ‚Lt’ (für Lautheit) verwiesen. Die multidimensionale Kontrastbildung trägt den beiden zentralen Merkmalen der Sprechmelodie und der damit kodierten kommunikativen Bedeutungstypen, Hervorhebung und attitudinale Bedeutung, Rechnung: Tonhöhe und Prominenz.
318 318
Einleitung Ansätze zu einer Kontrast-Theorie
• Die entstandenen Kontraste werden verstärkt, wobei das Ausmaß dieser Verstärkung von dem Zeitintervall zwischen den kontrastierten Elementen und der Ausprägung des Kontrastes selbst abhängt. • Auf Basis der gebildeten und prononcierten Kontraste wird mittels Wissen eine Prominenz für jedes der tonalen Elemente konstruiert. • Über die tonalen Elemente hinweg betrachtet, ergibt sich so ein lokales Prominenzmuster. Darüber hinaus bilden die lokalen Prominenzen ein globaleres Prominenzmuster auf Silbenebene, zum Beispiel in Form einer Aufsummierung der lokalen Prominenzwerte. • Anhand dieses globaleren Prominenzmusters werden dann im abschließenden Schritt des Konstruktionsprozesses die Silben mit Hilfe des in den Gestaltgesetzen zentralen Prägnanzgesetzes zu Konstruktionseinheiten zusammengruppiert, wobei die prägnanteste Einheit diejenige ist, die angesichts der (z.T. beträchtlichen) Prominenzvariationen innerhalb des Musters genau eine starke Prominenz aufweist. Auf diese Weise ziehen Silben mit Prominenzspitzen die Grenzen zwischen Konstruktionseinheiten. Der phonetische Inhalt dieser gestalthaften Konstruktionseinheiten nimmt bei der Kodierung der attitudinalen Bedeutung und der Hervorhebung (auch über deren Grundeinheit hinaus) und der eine wichtige Stellung ein. Bei der Zusammenstellung der erläuterten Konstruktionseinheiten dienen die Silben anders als am Ausgangspunkt des Konstruktionsprozesses nicht als Transport-, sondern als Organisationseinheiten. Ingesamt gesehen sind die Silben somit ein wichtiger Bestandteil in der Funktionsweise des beschriebenen Konstruktionsprozesses. In der Phänomenologie der Sprechmelodie und in ihrem kommunikativen Einsatz ist die Silbe jedoch nur von untergeordneter Bedeutung. Das Charakteristikum des postulierten Konstruktionsprozesses, wonach die Eigenschaften eines gegenwärtigen melodischen Ereignisses über den Kontrast die Prominenz der zurückliegenden Ereignisse bestimmen, findet sich auch in impressionistischen Beschreibungen in der Literatur wieder. Kohler (1991a:354) schreibt zum Beispiel im Hinblick auf die F0Gipfel zweier sprechmelodischer Zeichen, die durch eine Einbuchtung konkateniert sind: „The faster descent and the lower F0 level between two stressed vowels emphasise the separate stressing and increase the prominence of the first [vowel]“. Nachdem der Konstruktionsprozess wie in Abbildung 60 skizziert abge-laufen ist, wird er mit neu hinzutretenden tonalen Elementen erneut durchlaufen. Auf diese Weise wird schrittweise das Perzept der Sprechmelodie hergestellt.
Zum Begriffdes derKontruktionsprozesses Sprechmelodie Zusammenfassung
319 319
Abbildung 60: Schematische Darstellung des Prozesses zur Konstruktion der Sprechmelodie. Unten links: Eine an die Tradition der Britischen Schule angelehnte Transkription der Sprechmelodie. Dargestellt ist ein Tonhöhenverlauf in Form einer silbenweisen Abfolge aus stationären Einzeltönen und Tonhöhenbewegungen. Die schwarzen Punkte zeigen die arbiträr festgelegten Stärken der lokalen Prominenzen (lok. Prom.) für die vier tonalen Elemente (von n-1 bis n-4) im Tonhöhenverlauf der drei Silben an. Die dazugehörigen Tonhöhen- (‚Th’), Längen(‚Lg’), und Lautheitseigenschaften (‚Lt’) der tonalen Elemente sind darunter dargestellt. Über der Transkription der Sprechmelodie sind die aus den lokalen Prominenzen gebildeten globalen Prominenzen (glob. Prom.) auf Silbenebene aufgeführt. Alles zusammen bildet eine Konstruktionseinheit. Unten rechts: Eine neue Silbe fügt ein weiteres tonales Element hinzu. Eine Prominenz für dieses Element liegt per definitionem noch nicht vor (daher ist anstelle eines schwarzen Punktes eine Linie angegeben). Oben: Der Konstruktionsprozess, der zur Integration des neu hinzutretenden Elementes in das Perzept der Sprechmelodie (erneut) durchlaufen wird, und der an einem Auszug der tonalen Elemente exemplifiziert wird. Die Erläuterungen hierzu finden sich im Text. Ferner sind diesbezüglich die Abbildungen 54 und 59 zu beachten.
320 320
Einleitung Ansätze zu einer Kontrast-Theorie
Die Sukzessivität des Konstruktionsprozesses ist durch die zeitliche Gebundenheit auditiver Wahrnehmungselemente bedingt. Hieraus ergibt sich die folgende Konsequenz. Das zu einem Zeitpunkt ausgegebene Perzept der Sprechmelodie repräsentiert eine auf Basis des jeweiligen Kontextes zustandegekommene Hypothese. Der Konstruktionskontext entwickelt sich jedoch mit jeder neu einbezogenen Silbe bzw. der darin enthaltenen tonalen Elemente weiter. Die Hypothese und damit das Perzept der Sprechmelodie muss somit kontinuierlich revidiert werden. Dementsprechend modifizieren jede weitere Silbe und deren tonale Elemente das Kontrastmuster und (z.T. unabhängig davon) das konstruierte lokale Prominenzmuster, das wiederum das globalere Prominenzmuster verändert und so letztlich auch die silbenbasierte Organisation der Sprechmelodie durch das Prägnanzgesetz betreffen kann. In dieser Form wird neben Kontrast, Wissen und Gestaltgesetzen ein viertes Charakteristikum der (auditiven und visuellen) Wahrnehmung berücksichtigt, die Aktualisierung von Perzepten im Rahmen von Konstruktionsschleifen. Hierdurch verfügt der vorgeschlagene Konstruktionsprozess über ein hohes dynamisches Potential. Er sollte daher nicht als ein linearer Automatismus, sondern vielmehr als ein spiralförmiger Ablauf verstanden werden, wobei jeder Umlauf in der Spirale eine kontextbedingte Reinterpretation und Reorganisation der bis dahin gegebenen Wahrnehmungselemente bedeutet, die ggf. auch zu einer Identifikation anderer bedeutungstragender Einheiten führen kann. Diese Vorstellung ist prinzipiell im Einklang mit der gegenwärtigen Auffassung von der Funktionsweise der auditiven und visuellen Wahrnehmung und den impressionistischen Beschreibungen und empirischen Befunden zur (Sprech-)Melodie.
6.6 Zur Form der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET Abschließend wird auf die phonologische Form der drei in dieser Arbeit behandelten sprechmelodischen Zeichen, GEGEBEN, NEU und UNERWARTET, eingegangen. Es wird ein Entwurf dafür präsentiert, wie die Zeichenformen aussehen könnten. Dieser Entwurf kommt dadurch zustande, dass die experimentell gewonnenen Erkenntnisse sowie die eigenen Perzeptionseindrücke zu den drei sprechmelodischen Zeichen auf die zuvor dargelegten theoretischen Ansätze bzw. die darin entwickelten Elemente und Konzepte bezogen werden. Hinsichtlich der experimentellen Erkenntnisse stehen dabei – im Einklang mit dem perzeptorischen Forschungsansatz der vorliegenden Arbeit – die Erkenntnisse zur Wahr-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
321 321
nehmung und insbesondere die im Rahmen des vierten Kapitels geleisteten Forschungen im Vordergrund. Die vorangegangenen Abschnitte dieses Kapitels haben sich im Schwerpunkt mit allgemeinen Grundlagen zu den Zeichenformen befasst. Hierzu zählt zum Beispiel der bikomponentiale Aufbau der Zeichen aus Tonhöhen- und Prominenzeigenschaften und die Festlegung der phonetischen Substanz sprechmelodischer Zeichen als der Inhalt von Konstruktionseinheiten, die durch die prominenzgerichtete Gruppierung von Silben gemäß des zentralen Gestaltgesetzes der Prägnanz gebildet werden. Durch die Entwürfe der Zeichenformen für GEGEBEN, NEU und UNERWARTET werden diese allgemeinen Grundlagen nun konkretisiert. In diesem Sinne rückt in diesem Abschnitt die (De-)Kodierung der phonetischen Substanz in den voneinander abgegrenzten Konstruktionseinheiten ins Blickfeld. Damit das in den Ansätzen zur Kontrast-Theorie entwickelte bikomponential aufgebaute Gerüst der Zeichenformen auf empirischer Basis mit konkreten zeichenspezifischen Tonhöhen- und Prominenzmustern gefüllt werden kann, ist vorweg die Beziehung zwischen dem F0-Verlauf und dem Tonhöhenmuster anzusprechen. Einerseits zeigt bereits die in 5.1 thematisierte Konstruktion der Tonhöhe, dass der Tonhöhenverlauf nicht als ein simples Abbild des F0-Verlaufs zustandekommt. Andererseits jedoch ist anzunehmen, dass sich die grundlegenden Charakteristika des F0Verlaufs im Tonhöhenverlauf wiederfinden. Für einen steigend-fallenden F0-Gipfel, wie er in allen experimentellen Stimulusserien der vorliegenden Arbeit und der früheren Arbeiten von Kohler (1991c) oder Niebuhr (2003a, b) verwendet wurde, kann beispielsweise davon ausgegangen werden, dass der Tonhöhenverlauf einen hohen Abschnitt umfasst, der beidseitig von tieferen Abschnitten eingerahmt wird und dessen zeitliche Extension mit der des zugrundeliegenden F0-Gipfels korrespondiert. Hieraus wird erkennbar, dass ein F0-Gipfel mindestens drei tonale Elemente (im Sinne der Definition aus 6.1.2) entstehen lässt, die ein Tonhöhenmuster bilden. Wie viele tonale Elemente tatsächlich aus einem F0Gipfel hervorgehen und in welchen Umfang die F0-Gipfelhöhe auf den Tonhöhenverlauf abgebildet wird, wird indes durch zahlreiche Faktoren bestimmt. So hängt die Anzahl der tonalen Elemente, die in Verbindung mit dem F0-Gipfel entstehen, von der Anzahl der Silben ab, die der Gipfel überspannt und davon, ob in diesen Silben stationäre Einzeltöne oder Tonhöhenbewegungen erzeugt werden. Stationäre Einzeltöne stellen ein einzelnes tonales Element dar. Tonhöhenbewegungen enthalten je nach ihrer Komplexität immer mindestens zwei tonale Elemente (vgl. 6.1.2). Letzteres impliziert, dass auch die Gipfelsynchronisation einen Einfluss auf die Anzahl der tonalen Elemente hat. Anders als unakzentuierte Silben bieten Akzentsilben aufgrund ihrer großen Dauer und der damit einherge-
322 322
Einleitung Ansätze zu einer Kontrast-Theorie
henden spektralen Stabilität (des Akzentvokals) in der Regel die Voraussetzungen für die Konstruktion von Tonhöhenbewegungen (vgl. 5.1). Für F0-Gipfel, die zu einem großen Teil innerhalb einer Akzentsilbe positioniert sind, werden somit häufig mehr tonale Elemente entstehen als F0Gipfel, die überwiegend außerhalb von Akzentsilben liegen. Die genannten Beziehungen zwischen F0-Gipfel und Tonhöhenmuster sind für die folgenden Darstellungen zu berücksichtigen. Hinsichtlich der in dieser Arbeit thematisierten Zeichentriade aus GEGEBEN, NEU und UNERWARTET wird nun Folgendes angenommen. Die Form des Zeichens GEGEBEN beinhaltet ein Tonhöhenmuster, das aus einem Überwechseln von einer höheren zu einer tieferen Tonhöhe besteht. Das dazugehörige Prominenzmuster verbindet mit der tieferen Tonhöhe eine größere Prominenz als mit der höheren. Demgegenüber ist das Tonhöhenmuster der Zeichenform von NEU durch ein steigend-fallendes Tonhöhenmuster gekennzeichnet, was im Vergleich zu GEGEBEN bedeutet, dass prinzipiell ein tonales Element mehr erforderlich ist, um das Zeichen NEU zu kodieren. Das Prominenzmuster des Zeichens NEU folgt dem Tonhöhenmuster. Das heißt, höhere tonale Elemente verfügen über stärkere Prominenzen als tiefere. Das Tonhöhenmuster aus der Zeichenform von UNERWARTET gleicht dem von NEU. Entscheidend für die Differenzierung beider Zeichen ist somit die Prominenz, die im Falle von UNERWARTET über die einzelnen tonalen Elemente hinweg insgesamt geringer wird, woraus sich ergibt, dass die stärkste Prominenz mit der initialen Tiefe verbunden ist. Die zeichenspezifischen Tonhöhen- und Prominenzmuster sind in Abbildung 61(a)-(c) dargestellt. In dieser Darstellung sind die Muster durch kontinuierliche Verläufe wiedergegeben. Da die Muster jedoch im Rahmen der Ansätze zur Kontrast-Theorie als Abfolge der Tonhöhenund Prominenzeigenschaften einzelner tonaler Elemente konzeptualisiert wird, wäre eine stufige Darstellung grundsätzlich treffender. In den vorangehenden Ausführungen ist allerdings bereits angeklungen, dass die Anzahl der tonalen Elemente, die das jeweilige Tonhöhen- und Prominenzmuster konstituieren, durch die Synchronisation des F0-Gipfels und die spektrale Struktur der jeweiligen Äußerung variabel ausfällt. Aus diesem Grund wurde eine Darstellung über kontinuierliche Linien, in denen die Musterqualität an sich zum Ausdruck kommt, vorgezogen. In den Abschnitten 6.6.1 bis 6.6.3 werden die in Abbildung 61 angegebenen Tonhöhen- und Prominenzmuster der drei Zeichenformen aus der Empirie hergeleitet. Das heißt, es wird ausgeführt, aufgrund welcher experimentellen Erkenntnisse die angegebenen Muster postuliert werden. Zur besseren Verständlichkeit dieser Ausführungen sind vorweg vier Punkte anzusprechen, die sich auf die Gewichtung der experimentellen Erkennt-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
323 323
nisse, die Auswahl der tonalen Elemente, die Dekodierung über Konstruktionseinheiten hinweg und die Vereinfachung der Darstellung beziehen.
Abbildung 61: Schematische Darstellung der lokalen Tonhöhen- und Prominenzmuster als Bestandteil der bikomponentialen Formen der sprechmelodischen Zeichen GEGEBEN (a), NEU (b) und UNERWARTET (c). Da die Anzahl der tonalen Elemente, die den Mustern zugrundeliegen, variieren kann, sind die Muster nicht stufig, sondern linear dargestellt. Nach oben gerichtete Verläufe weisen auf einen Anstieg der Tonhöhe bzw. der Prominenz hin.
Erstens wird bezüglich der Gewichtung experimenteller Erkenntnisse die Bewertung aus 4.4.3 berücksichtigt, wonach die F0-bezogenen Ergebnisse als belastbarer angesehen werden als die Ergebnisse zum Einfluss der Dauer und Intensität. Die Herleitung der Zeichenformen konzentriert sich daher auf die Ergebnisse zur Gipfelgestalt, Gipfelhöhe und Gipfelsynchronisation. Auf die Ergebnisse zur Dauer und Intensität wird hiernach eingegangen. Im Rahmen der F0-Eigenschaften steht zudem die Gipfelsynchronisation im Vordergrund für die Herleitung der Zeichenformen. Dies geht darauf zurück, dass sich die Synchronisation in dem Sinne als primär für die Wahrnehmung der drei sprechmelodischen Zeichen herausgestellt hat, dass die Zeichen bei einer klaren prä-, inner- oder postvokalischer Positionierung des F0-Gipfels in den meisten Fällen unabhängig von der Ausprägung der Gipfelgestalt und -höhe perzipiert wurden. Was den zweiten Punkt anlangt, so zeigen die experimentellen Erkenntnisse auch, dass der Bereich von der Vorakzentsilbe, über die Akzentsilbe bis zur Nachakzentsilbe von besonderer Relevanz für die Perzeption der Zeichen GEGEBEN, NEU und UNERWARTET war. Dies gilt nicht nur, da sich der F0-Gipfel in diesem Bereich hauptsächlich ausprägt, sondern auch, da Dauer- und Intensitätskonfigurationen in diesem Bereich einen Einfluss auf die Wahrnehmung der Zeichen ausgeübt haben. Für die in Abbildung 61 dargestellten Zeichenformen sind daher diejenigen tonalen Elemente von besonderem Interesse, die in dem durch Vor-
324 324
Einleitung Ansätze zu einer Kontrast-Theorie
und Nachakzentsilbe eingerahmten Zeitintervall stehen, wobei darüber hinaus – mit Bezug auf den vorangegangenen ersten Punkt – von diesen tonalen Elementen wiederum insbesondere diejenigen fokussiert werden müssen, die sich im Bereich der jeweiligen Gipfelposition befinden. Drittens ist es vor dem Hintergrund des letztgenannten zweiten Punktes wichtig, Folgendes zu sehen. In 6.4 wurde die Annahme geschildert, dass das Prägnanzgesetz die Konstruktionseinheiten aufgrund von (silbenbezogenen) Prominenzspitzen separiert. In diesem Zusammenhang wurde festgelegt, dass der Inhalt dieser Konstruktionseinheiten die für die Kodierung der sprechmelodischen Zeichen primär relevante Phonetik enthält und dass ferner die Prominenzspitze am Kopf der Konstruktionseinheit einen zentralen Bestandteil in der Kodierung der Hervorhebung darstellt (vgl. S. 314f). Insofern entspricht diese Konstruktionseinheit der Einheit, die im Rahmen der Darstellung der Modelle im zweiten Kapitel als Akzentgruppe bezeichnet wurde (vgl. 2.3.2). Das heißt, sie wird durch die Akzentsilbe eingeleitet und umfasst dann alle darauf folgenden unakzentuierten Silben bis zur nächsten Akzentsilbe oder bis zum Ende der melodischen Phrase. Im vorangegangenen Punkt wurde jedoch dafür argumentiert, dass auch die Vorakzentsilbe bei der Dekodierung der Zeichen und somit bei dem Entwurf der Zeichen einbezogen werden muss. Das heißt, die in Abbildung 61 eingezeichneten Tonhöhen- und Prominenzmuster, die zur Wahrnehmung der sprechmelodischen Zeichentriade entscheidend sein sollen und insofern die Zeichenform repräsentieren, gehen über die Konstruktionseinheit zu einem sprechmelodischen Zeichen hinaus. Dies gilt vor allem dann, wenn es sich wie in den verwendeten Stimuli um mehrsilbige Äußerungen handelt, wo der Akzentsilbe mehrere Silben vorausgehen. Anders verhält es sich zum Beispiel mit Äußerungen, die nur aus einer Silbe bestehen (vgl. 6.6.4). Vor dem genannten Hintergrund sind zwei Aspekte herauszustellen. Zum einen ist es im Einklang mit dem allgemeinen Bild des Sprachkodes, dass die Dekodierung der sprechmelodischen Zeichen über die strukturellen Wahrnehmungseinheiten, auf die sie bezogen werden, hinausgeht. So ist es beispielsweise ein Charakteristikum bedeutungsbezogener Einheiten des lautlichen Kanals, die innerhalb des Sprachkodes postuliert werden und die auch als entsprechende Wahrnehmungseinheiten angenommen werden, dass sie hinsichtlich ihrer phonetischen Substanz ineinander verwoben sind. Hierfür werden – vor allem mit Bezug auf Lautsegmente – die Termini Koartikulation und Enkodierung verwendet (vgl. Menzerath und de Lacerda 1933; Öhmann 1966, 1967; Farnetani 1997; einen Überblick geben Laver 1994 sowie Clark und Yallop 1995). Infolgedessen ist für die Dekodierung einer solchen Einheit des lautlichen Kanals immer auch die in (der Peripherie) einer benachbarten Einheit befindliche
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
325 325
Phonetik relevant (vgl. u.a. Borden et al. 1994; Handel 1986). Diese Auffassung kann zum Teil ein Artefakt sein, das darauf zurückgeht, dass bereits im Rahmen der metasprachlichen Betrachtung von inadäquaten Einheiten innerhalb des Sprachkodes ausgegangen wird oder dass die Annahme, wonach die metasprachlichen Einheiten auch als entsprechende Wahrnehmungseinheiten repräsentiert sind, inadäquat ist. Überlegungen in die letztgenannte Richtung betreffen zum Beispiel das Lautsegment als Einheit der Produktion und Perzeption (vgl. Fußnote 4, S. 23). Angesichts der Physiologie des Sprechapparates und der daran gekoppelten Beschaffenheit distaler sprachlicher Reize (vgl. Clark und Yallop 1995; Lindblom 1983; Handel 1986) muss es allerdings prinzipiell der Fall sein, dass die Dekodierung bedeutungsbezogener Einheiten der Sprache über Wahrnehmungseinheiten hinweg stattfindet. Des weiteren arbeiten die Gestaltgesetze angesichts der Ausführungen in 5.4 und dem von der Wahrnehmung skizzierten Bild in 5.5 nicht bedeutungsgeleitet. Das heißt, sie schaffen nicht gezielt Konstruktionseinheiten, die Entitäten repräsentieren (vgl. auch S. 313). Das Ziel der Gestaltgesetze kann vielmehr darin gesehen werden, eine Ordnung innerhalb der im Rahmen der Perzeption vorliegenden Wahrnehmungselemente herzustellen. Diese Ordnung kann dann im Rahmen der Identifikation von Entitäten, wozu auch die Dekodierung sprechmelodischer Zeichen gehört, als eine Orientierungshilfe fungieren. Insofern stellt die vorgeschlagene Zusammenstellung der Konstruktionseinheiten keinen Widerspruch zur umrissenen Dekodierung der sprechmelodischen Zeichen dar. Warum die Konstruktionseinheiten dennoch als die primäre Domäne der sprechmelodischen Zeichen betrachtet werden können, wird in 6.6.4 näher erläutert. Dass sich die Gruppierung, die durch die Gestaltgesetze erfolgt, nicht direkt auf Entitäten stützt, verdeutlicht im Hinblick auf die Ausführungen des vorangegangenen Absatzes auch, warum Einheiten, die aus metasprachlichen Überlegungen hervorgegangen sind, nicht einfach auch als relevante Wahrnehmungseinheiten postuliert werden können. Im Rahmen des vierten Punktes ist letztlich darauf hinzuweisen, dass die Ausführungen zur Integration der empirischen Erkenntnisse in die Ansätze zur Kontrast-Theorie und die sich dabei herauskristallisierenden zeichenspezifischen Prominenz- und Tonhöhenmuster vereinfacht werden. Dies geschieht zum einen, um die Argumentation insgesamt transparenter zu gestalten. Unter diesem Gesichtspunkt werden beispielsweise nur die Kontraste berücksichtigt, die ein tonales Element mit dem unmittelbar vorangehenden Element ausbildet. Ferner werden nicht immer alle Dimensionen der multidimensionalen Kontrastbildung einbezogen. Hinsichtlich der wissensbasierten Prominenzkonstruktion wird nur auf die Verknüpfung der Kontrastdimensionen mit Prominenz eingegangen. Die
326 326
Einleitung Ansätze zu einer Kontrast-Theorie
Darstellung konzentriert sich auf die für die Argumentation wesentlichen Aspekte. Die ausgesparten Aspekte lassen die hergeleiteten Zeichenformen unberührt. Darüber hinaus sind Zeichenformen anhand von mehrsilbigen Äußerungen dargestellt. Diese zusätzliche Vereinfachung ist bedingt durch den Bezug auf die experimentellen Befunde und die Stimuli, die in diesen Experimenten verwendet wurden. Die Anzahl der tonalen Elemente, die als Basiskonstituenten für die Entstehung der Tonhöhen- und Prominenzmuster der Zeichenformen verantwortlich sind, ist jedoch ebenso wie deren Ausprägung prinzipiell unabhängig von der Silbenzahl. Somit können die in Abbildung 61 angegebenen Zeichenformen grundsätzlich auch für einsilbige Äußerungen gebildet und postuliert werden. Dies wird in 6.6.4 exemplarisch gezeigt werden. 6.6.1 Die empirisch basierte Herleitung der Zeichenformen von GEGEBEN und NEU Zunächst einmal zeigt die akustische Analyse von Gartenberg und Panzlaff-Reuter (1991) zum Standarddeutschen, dass der Anstieg des F0-Gipfels für das Zeichen GEGEBEN ausfallen kann, wenn es in Verbindung mit einer äußerungsinitialen Akzentsilbe produziert wird, die nicht genügend stimmhaftes Material für die Realisierung eines (prävokalischen) F0-Anstiegs zur Verfügung stellt. Hieraus kann gefolgert werden, dass die Wahrnehmung eines tiefen tonalen Elementes, das den Beginn des Anstiegs zum F0-Gipfel repräsentieren würde, anders als im Falle der Zeichen NEU und UNERWARTET für das Zeichen GEGEBEN nicht essentiell und somit kein Bestandteil der Zeichenform ist (vgl. hierzu auch Kohler 1991c). Von hier aus kann nun auf die zentrale Erkenntnisquelle für die Herleitung der Zeichenformen von GEGEBEN und NEU, die Befunde zur Synchronisation F0-Gipfels, eingegangen werden. Das Zeichen GEGEBEN wurde am deutlichsten im Zusammenhang mit solchen prävokalischen Gipfelpositionen wahrgenommen, bei denen sich der Bereich um das Gipfelmaximum am Ausgang der Vorakzentsilbe befand, während der Gipfelabstieg noch im Akzentvokal endete und in Verbindung mit dem daran anschließenden annähernd ebenen F0 ein tiefes Plateau bis zum Vokalende bildete. Aus letzterem ergibt sich zudem, dass dieses Plateau mit einem höheren Intensitätsniveau zusammenfiel, zum Beispiel im Vergleich zum Intensitätsniveau der umliegenden Segmente und Silben (vgl. auch Abb. 3). Wird diese Konfiguration im Licht der Ansätze zur KontrastTheorie betrachtet, ergibt sich Folgendes. Von perzeptorischer Seite aus gesehen, stellt das zuvor genannte tiefe Plateau eines der relevanten tonalen Elemente dar. Diesem tonalen Element gehen ein oder mehrere tonale Elemente voraus. Für die Stimulus-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
327 327
serien der vorliegenden Arbeit kann ebenso wie für die Stimuli aus der Untersuchung von Niebuhr (2003a, b, vgl. 3.1 und 4.1) auf Grundlage der Angaben von House (1990) davon ausgegangen werden, dass der Akzentvokal einen spektral stabilen Abschnitt darstellt, dessen zeitliche Ausdehnung groß genug ist, um zur Wahrnehmung einer Tonhöhenbewegung in der Akzentsilbe zu führen (wobei am Ende dieser Tonhöhenbewegung das durch das tiefe Plateau repräsentierte tonale Element steht). In Anbetracht der Dauer und der spektralen Struktur der Vorakzentsilbe kann ferner aufgrund der Angaben von House davon ausgegangen werden, dass diese nur einen stationären Einzelton enthält. Das heißt, dem durch das tiefe Plateau repräsentierten tonalen Element gehen im Falle der genannten Stimulusserien zwei für die Zeichenform relevante tonale Elemente voraus. Eines wird durch den stationären Einzelton der Vorakzentsilbe repräsentiert und das andere befindet sich am Beginn der perzipierten Tonhöhenbewegung in der Akzentsilbe. Beide Elemente liegen, da sie sich auf den Bereich des F0-Gipfels mit höheren Frequenzen beziehen, hinsichtlich ihrer Tonhöhe über dem durch das Plateau repräsentierten Element. Letzteres weist aufgrund des ebenen F0 auf perzeptorischer Seite eine deutlich größere Länge auf als die beiden vorausgehenden tonalen Elemente (vgl. hierzu 6.1.2). Das initiale Element aus der Vorakzentsilbe dürfte, da es außerhalb des Akzentvokals liegt, zudem auch eine geringe Lauheit aufweisen. Diese Tonhöhen-, Längen, und Lautheitseigenschaften kontrastierend, ergeben sich (verstärkte) Kontraste, die im Rahmen der Prominenzkonstruktion dazu führen, dass das durch das tiefe Plateau repräsentierte tonale Element eine klar stärkere Prominenz erhält als die beiden vorangehenden tonalen Elemente (siehe hierzu das Wissen zur Verknüpfung von Tonhöhen-, Längen und Lautheitseigenschaften mit Prominenz in 6.3). Die zuvor anhand der prävokalischen Gipfelsynchronisation entworfenen Tonhöhen- und Prominenzmuster bilden zusammen die bikomponentiale Form des Zeichens GEGEBEN. Sie ist in entsprechender Weise in Abbildung 61(a) wiedergegeben. Wird der F0-Gipfel nun aus der beschriebenen eindeutig prävokalischen Position nach rechts in eine innervokalische Position verschoben, passiert Zweierlei. Erstens ändert sich das Tonhöhenmuster. Die Tonhöhe des tonalen Elementes aus der Vorakzentsilbe wird auf Basis eines sukzessive absinkenden Frequenzniveaus konstruiert, wohingegen der Tonhöhe des tonalen Elementes am Beginn der Tonhöhenbewegung im Akzentvokal ein immer höheres Frequenzniveau zugrundeliegt. Das durchgehend fallende Tonhöhenmuster wird so im betrachteten Zeitintervall in ein steigend-fallendes Tonhöhenmuster transformiert. Ab einem bestimmten Punkt in der Gipfelverschiebung wird der Anstieg des F0-
328 328
Einleitung Ansätze zu einer Kontrast-Theorie
Gipfels in den Akzentvokal eintreten. Dadurch wird sich auch das Tonhöhenmuster innerhalb der Akzentsilbe selbst, analog zum Tonhöhenmuster im betrachteten silbenübergreifenden Zeitintervall, in ein steigend-fallendes verändern. Hiermit geht einher, dass innerhalb der Akzentsilbe ein weiteres tonales Element hinzukommt. Es befinden sich nicht länger zwei, sondern drei Elemente in der Akzentsilbe. Die perzeptorischen Konsequenzen dieses synchronisationsbedingten Anstiegs in der Zahl der tonalen Elemente werden 6.6.4 weiter ausgeführt. Neben dem Übergang des Tonhöhenmusters von fallend in steigendfallend ändert sich des weiteren auch das Prominenzmuster. Das tiefe F0Plateau wird schrittweise aus dem Akzentvokal und damit gleichzeitig aus der Akzentsilbe herausgeschoben. Das heißt, der Längenkontrast dieses tonalen Elementes zu den vorangehenden tonalen Elementen wird sukzessive egalisiert und schließlich invertiert, was zur Folge hat, dass die Prominenz des tiefen tonalen Elementes am Ende des Akzentvokals abnimmt. Gleichzeitig nimmt, durch den wachsenden Tonhöhenunterschied zwischen dem initialen tonalen Element auf der Vorakzentsilbe und dem höherliegenden tonalen Element am Beginn der Tonhöhenbewegung auf der Akzentsilbe, die Prominenz des letzteren immer weiter zu. Eine weitergehende Gipfelverschiebung wird überdies dazu führen, dass nicht nur das tiefe Plateau aus dem Akzentvokal und der Akzentsilbe herausgeschoben wird, sondern auch Teile des Abstiegs vom F0-Gipfel. Durch den damit einhergehenden schrumpfenden Tonhöhenkontrast, den das tonale Element am Ende der Akzentsilbe mit dem vorangehenden höheren tonalen Element aufbaut, nimmt die Prominenz des tonalen Elementes am Ende der Akzentsilbe weiter ab. Ab einem bestimmten Punkt wird das Prominenzmuster kippen, und anstelle der zuvor dominierenden Prominenz des tiefen tonalen Elementes aus der Tonhöhenbewegung am Ende der Akzentsilbe wird das höhere tonale Element am Eingang der Akzentsilbe die vergleichsweise stärkste Prominenz darstellen. Diese Konfiguration aus steigend-fallendem Tonhöhenmuster und einem parallel dazu an- und abschwellendem Prominenzmuster wird, im Einklang mit dem eigenen Wahrnehmungseindruck, eindeutig als das Zeichen NEU erkannt. Sie repräsentiert dementsprechend den Inhalt der bikomponentialen Form dieses Zeichens, die in Abbildung 61(b) skizziert ist. Weitere Unterstützung finden die aus der Synchronisation abgeleiteten Zeichenformen in den Erkenntnissen zum Einfluss der F0-Gipfelgestalt und -höhe auf die Wahrnehmung der Zeichen GEGEBEN und NEU. Die Einflüsse der F0-Gipfelgestalt wurden von Niebuhr (2003a, b) untersucht. Aus den Ergebnissen hierzu, die in 3.1 zusammengefasst wiedergegeben wurden, sind zwei zentrale Befunde herauszustellen. Erstens hat der flach
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
329 329
absteigende F0-Gipfel (f/f) gegenüber dem steil absteigenden (f/s) die Wahrnehmung des Zeichens NEU in prävokalischer Gipfelposition unterstützt und ist überdies bei einer Verschiebung hin zu innervokalischen Positionen eher zu NEU übergewechselt. Zweitens haben die steil ansteigenden F0-Gipfel (s/s und s/f) gegenüber den flach ansteigenden (f/s und f/f) in innervokalischer Position die Wahrnehmung des Zeichens NEU unterstützt. Was den erstgenannten Befund anlangt, so ist es im Hinblick auf das Prominenzmuster wichtig zu sehen, dass ein flach absteigender F0-Gipfel aufgrund der größeren Abstiegsdauer für die zeitliche Positionierung des tiefen F0-Plateaus, das für die starke Prominenz des tiefen tonalen Elementes am Ende der Tonhöhenbewegung der Akzentsilbe wesentlich mit verantwortlich ist, die gleiche Konsequenz hat wie eine Rechtsverschiebung des F0-Gipfels insgesamt. Das tiefe Plateau wird – im Falle der von Niebuhr (2003a, b) verwendeten Gipfelgestalten zudem zusammen mit einem Teil des Abstiegs vom F0-Gipfel – bereits in prävokalischer F0Gipfelposition aus dem Akzentvokal und damit aus der Akzentsilbe herausgeschoben. Wie im Rahmen der Synchronisation erläutert, nimmt die Prominenz des tiefen tonalen Elementes am Ende der Tonhöhenbewegung der Akzentsilbe infolgedessen beträchtlich ab. Gleichzeitig wird der F0-Gipfel insbesondere im Falle von f/f im Bereich des Maximums insgesamt abgestumpft, was sich in einer – gegenüber dem f/s-Gipfel – vergrößerten Länge des hohen tonalen Elementes am Eingang der Tonhöhenbewegung der Akzentsilbe auswirken sollte (vgl. 6.1.2). Somit wird ein flacherer F0-Gipfelabstieg nicht nur dazu führen, dass die Prominenz des tonalen Elementes am Ende der Tonhöhenbewegung der Akzentsilbe abnimmt, sondern gleichzeitig nimmt die Prominenz des hohen tonalen Elementes am Beginn der Tonhöhenbewegung der Akzentsilbe zu. Dies geschieht insbesondere durch den Kontrast mit dessen vorangehendem tonalen Element, das durch den stationären Einzelton in der Vorakzentsilbe repräsentiert wird und das in seinen Tonhöhen-, Längen- und Lautheitseigenschaften durch die Veränderung der Abstiegsflanke direkt nicht betroffen ist. Was das Tonhöhenmuster anlangt, so ergibt sich aus dem flacheren Gipfelabstieg, dass der F0-Gipfel in prävokalischer Position mit einem höheren Frequenzbereich in den Akzentvokal eintritt, was dazu führen sollte, dass die Tonhöhe des tonalen Elementes am Beginn der Tonhöhenbewegung in der Akzentsilbe nach oben verschoben wird. Insgesamt gesehen, hat eine Veränderung der Gipfelgestalt von flachsteil (f/s) zu flach-flach (f/f) im Rahmen der von Niebuhr (2003a, b) erzeugten F0-Gipfel somit zur Folge, dass die relevanten Prominenz- und Tonhöhenmuster im Rahmen der Gipfelverschiebung von prä- zu inner-
330 330
Einleitung Ansätze zu einer Kontrast-Theorie
vokalisch eher von den Eigenschaften der Zeichenform von GEGEBEN zu den Eigenschaften der Zeichenform von NEU überwechseln (vgl. Abb. 61a-b), wobei überdies davon auszugehen ist, dass im Rahmen der durchgeführten Gipfelverschiebung Tonhöhen- und Prominenzmuster nicht simultan von den Eigenschaften des einen zu den Eigenschaften des anderen Zeichens umschwenken. Auf Basis des eigenen Perzeptionseindrucks weist das Prominenzmuster schon vor dem Tonhöhenmuster die Eigenschaften des Zeichens NEU auf. Auf diese Weise signalisiert der f/f-Gipfel in prävokalischer Position bereits häufiger das Zeichen NEU als der f/sGipfel, ohne dass ein vollständiger Wahrnehmungsübergang zu diesem Zeichen im Sinne einer mehrheitlichen Wahrnehmungsveränderung stattgefunden hat. Letzterer vollzieht sich erst, wenn im Rahmen einer Verschiebung zu innervokalischen Gipfelpositionen sowohl Prominenz- als auch Tonhöhenmuster von GEGEBEN zu NEU übergewechselt sind. Letztlich wird die erläuterte Relevanz des tiefen F0-Plateaus für die Wahrnehmung von GEGEBEN auch an den Befunden von Gartenberg und Panzlaff-Reuter (1991) erkennbar, die zeigen, dass auch in der natürlichen Produktion des Zeichens der Abstieg vom F0-Gipfel so koordiniert wird, dass er vor (spätestens jedoch an) der hinteren Grenze des Akzentvokals endet und in einen ebenen F0-Verlauf übergeht (vgl. 3.2.1). Wie wirkt sich nun der zweite auf die Neigung der Anstiegsflanke bezogen Befunde von Niebuhr (2003a, b) auf die tonalen Elemente aus? Ein steilerer Anstieg zum F0-Gipfel führt bei innervokalischen Positionen durch die reduzierte Anstiegsdauer dazu, dass das Frequenzniveau auf der Vorakzentsilbe abgesenkt wird. Die Tonhöhe des stationären Einzeltons, der auf der Vorakzentsilbe konstruiert wird, fällt daher entsprechend niedriger aus. Hierdurch entsteht im Rahmen der Kontrastbildung mit dem höheren tonalen Element am Beginn der Tonhöhenbewegung der Akzentsilbe ein ausgeprägterer Kontrast, infolgedessen für das höhere tonale Element eine stärkere Prominenz konstruiert wird. Dass dies seitens der Versuchspersonen zu einer vermehrten Wahrnehmung des Zeichens NEU geführt hat, geht mit der zuvor entworfenen Form dieses Zeichens konform. Neben dem Einfluss der Gipfelgestalt auf die Wahrnehmung der beiden Zeichen GEGEBEN und NEU wurde im Rahmen der vorliegenden Arbeit ein Experiment zum perzeptorischen Einfluss der Gipfelhöhe durchgeführt (vgl. 4.3). Vor dem Hintergrund der Ansätze zur Kontrast-Theorie geht eine umfangreichere F0-Gipfelhöhe mit einem prononcierteren Tonhöhenmuster einher. Das heißt, die Tonhöhenunterschiede zwischen den tonalen Elementen werden expandiert. Da die einzelnen Tonhöhenkontraste des jeweiligen Tonhöhenmusters gleichzeitig in die Prominenzkonstruktion eingehen, ergibt sich zudem auch ein ausgeprägteres Prominenz-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
331 331
muster. Abgesehen davon gelten die im Zusammenhang mit der Gipfelverschiebung von prä- zu innervokalisch stehenden Veränderungen im Tonhöhen- und Prominenzmuster weiterhin. Davon ausgehend, dass umfangreichere F0-Gipfel für die jeweilige Gipfelposition klarere Tonhöhenund Prominenzmuster hervorrufen, wäre zu erwarten, dass ein Heraufsetzen der Gipfelhöhe bei prävokalischen Gipfelpositionen zu einer eindeutigeren Identifikation des Zeichens GEGEBEN und bei innervokalischen Positionen zu einer eindeutigeren Identifikation des Zeichens NEU führt. Dies deckt sich mit den empirischen Befunden (vgl. 4.3.2). Insofern unterstützen auch diese Befunde die auf Grundlage der Gipfelsynchronisation erstellten bikomponentialen Formen der Zeichen GEGEBEN und NEU. 6.6.2 Die empirisch basierte Herleitung der Zeichenform von UNERWARTET Für das Zeichen UNERWARTET wurde eine Zeichenform vorgeschlagen, deren Tonhöhenmuster ebenso wie das des Zeichens NEU eine Sequenz aus tieferen, höheren und tieferen tonalen Elementen umfasst. Anders als im Falle des Zeichens NEU sieht das dazugehörige Prominenzmuster jedoch eine sukzessive Reduktion der Prominenz vor (vgl. Abb. 61c). Das heißt, das initiale tiefere tonale Element des genannten Tonhöhenmusters weist die stärkste Prominenz auf. Das angenommene Tonhöhenmuster fußt auf empirischer Seite vor allem auf dem steigend-fallenden F0-Gipfel, der mit dem sprechmelodischen Zeichen UNERWARTET in der Produktion einhergeht und der sich auch in der Perzeption als zentral herausgestellt hat (vgl. u.a. Kohler 1991c). Darüber hinaus haben die Perzeptionsergebnisse von Kohler (1991c) und die Befunde zur Gipfelgestalt in der vorliegenden Arbeit (vgl. 4.1) gezeigt, dass das Zeichen UNERWARTET erst dann von den Versuchspersonen wahrgenommen wurde, wenn der F0-Gipfel so weit rechts synchronisiert wurde, dass sich am Beginn des Akzentvokals ein tiefes F0-Plateau ausbilden konnte. Diese sehr weitreichende Gipfelverschiebung führte überdies dazu, dass das Gipfelmaximum über das Ende der Akzentsilbe hinaus in die nächste Silbe geschoben wurde. Diese Gipfelposition wurde als postvokalisch bezeichnet (vgl. Abb. 3). Auch die Produktionsanalyse von Gartenberg und Panzlaff-Reuter (1991) ergab, dass die Sprecher nach dem Einsatz des Akzentvokals im F0-Verlauf ein „pre-peak plain“ gebildet haben (Gartenberg und Panzlaff-Reuter 1991:38). Beim Transfer dieser Befunde in das konzeptuelle Gerüst der Ansätze zur Kontrast-Theorie ist erneut die Anzahl der tonalen Elemente zu berücksichtigen, auf die sich der F0-Gipfel verteilt. Da die spektralen Eigenschaften der Stimulusäußerungen, anhand derer das Zeichen
332 332
Einleitung Ansätze zu einer Kontrast-Theorie
UNERWARTET untersucht wurde, mit denen der chen GEGEBEN und NEU entweder identisch
zuvor behandelten Zeioder aber vergleichbar waren, gilt weiterhin, dass im Akzentvokal Tonhöhenbewegungen konstruiert werden. Im Rahmen der postvokalisch positionierten F0-Gipfel des Zeichens UNERWARTET ist bezüglich der tonalen Elemente nun nicht die Vorakzentsilbe relevant. Vielmehr muss der Blick auf die Silben gerichtet werden, die der Akzentsilbe folgen, insbesondere auf die Nachakzentsilbe. Vor dem Hintergrund der hierfür in den Stimulusäußerungen gegebenen spektralen Struktur und angesichts der Befunde von House (1990) ist für die Nachakzentsilbe und die darauf folgende Silbe von der Konstruktion stationärer Einzeltöne auszugehen. Insgesamt betrachtet kristallisiert sich somit für die empirisch gefundenen postvokalischen Gipfelkonfigurationen, die zur (mehrheitlichen) Wahrnehmung des Zeichens UNERWARTET geführt haben, ein Tonhöhenmuster heraus, das sich aus vier tonalen Elementen zusammensetzt. Das initiale tonale Element wird durch das zuvor genannte tiefe F0Plateau am Beginn des Akzentvokals repräsentiert. Hierauf folgt im Rahmen derselben Tonhöhenbewegung ein höher liegendes tonales Element am Ende des Akzentvokals, das je nach Gipfelposition aus einem bestimmten Frequenzbereich der ansteigenden Gipfelflanke entsteht. Das dritte in seiner Tonhöhe erneut darüber befindliche tonale Element entspricht dem stationären Einzelton, der sich aus dem Bereich des Gipfelmaximums in der Nachakzentsilbe ergibt. Der stationäre Einzelton in der darauf folgenden Silbe repräsentiert letztlich das vierte tonale Element, das auf dem Ende des Abstiegs vom F0-Gipfel basiert und das dementsprechend in seiner Tonhöhe wieder deutlich abfällt. Das beschriebene und im Falle der gegebenen Stimulusserien viergliedrige steigend-fallende Tonhöhenmuster stellt die eine Komponente der Form des Zeichens UNERWARTET dar (vgl. Abb. 61c). Die andere Komponente bezieht sich auf das dazugehörige Prominenzmuster. Was das Prominenzmuster anlangt, so ist für das initiale tonale Element am Beginn der Tonhöhenbewegung im Akzentvokal zu berücksichtigen, dass es aufgrund des weitgehend ebenen tiefen F0-Verlaufs, der sich bis in die Vorakzentsilbe zurück erstreckt, keinen relevanten Tonhöhenkontrast mit dem vorangehenden tonalen Element ausbilden kann. Folglich kann über diese Kontrastdimension keine größere Prominenz konstruiert werden. Anders verhält es sich in der Kontrastdimension der Länge. Dem initialen tonalen Element am Beginn der Tonhöhenbewegung in der Akzentsilbe liegt ein F0-Plateau zugrunde. Das tonale Element in der Vorakzentsilbe rekurriert auf einen stationären Einzelton. Hierdurch ergibt sich ein ausgeprägter Längenkontrast (der im Rahmen der Kontrastverstärkung noch erweitert wird). Überdies ist zu berücksich-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
333 333
tigen, dass das initiale tonale Element durch die Lage innerhalb der Akzentvokals in vielen Fällen eine deutlich größere Lautheit aufweist als das vorangehende tonale Element der Vorakzentsilbe. Aus diesen beiden Kontrastdimensionen, insbesondere aus dem Längenkontrast, bezieht das tief liegende initiale Element seine starke Prominenz, ähnlich wie im Falle des finalen tonalen Elementes des Zeichens GEGEBEN, das ebenfalls auf einem tiefen F0-Plateau basiert. Bei den beiden anschließenden höher liegenden tonalen Elementen am Ende der Tonhöhenbewegung des Akzentvokals und in der Nachakzentsilbe kann die Kontrastdimension der Länge keinen großen Beitrag zur Prominenz leisten; entweder liegt den tonalen Elementen kein F0-Plateau zugrunde oder sie gehen auf stationäre Einzeltöne zurück. Allerdings weisen die beiden genannten an das initiale tonale Element anschließenden Elemente einen Tonhöhenkontrast zu den jeweils vorangehenden Elementen auf. Dies trägt zu einer Erhöhung der Prominenz bei. In Anbetracht der Produktionsdaten von Gartenberg und Panzlaff-Reuter (1991) sowie der Stimuli aus der vorliegenden Arbeit und von Kohler (1991c), die sich auf das Zeichen UNERWARTET beziehen, ist davon auszugehen, dass insbesondere der Tonhöhenkontrast zwischen dem tonalen Element am Ende der Tonhöhenbewegung des Akzentvokals und dem tonalen Element der Nachakzentsilbe sehr ausgeprägt ist. Dies geht darauf zurück, dass das tonale Element der Nachakzentsilbe deutlich über dem tonalen Element am Ende der Tonhöhenbewegung im Akzentvokal liegt. Auf diese Weise erhält das hohe tonale Element in der Nachakzentsilbe eine deutliche Prominenz. Diese deutliche Prominenz, die allerdings schwächer ausfällt als die des initialen tiefen Elementes, ist von großer Bedeutung für die Wahrnehmung des Zeichens UNERWARTET. Die experimentellen Befunde zur Gipfelhöhe, auf die im weiteren Verlauf noch eingegangen wird, weisen ebenfalls in diese Richtung. Unterlegt wird die genannte Annahme auch dadurch, dass die Daten von Gartenberg und Panzlaff-Reuter (1991) sowie von Niebuhr und Ambrazaitis (2006) tendenziell eine größere Gipfelhöhe für die F0-Gipfel des Zeichens UNERWARTET aufzeigen als für die Gipfel der Zeichen GEGEBEN und NEU. Die in Abbildung 3 dargestellten Produktionen weisen diesen Unterschied ebenfalls auf. Die Prominenz des finalen tonalen Elementes resultiert ebenfalls in erster Linie aus dem Tonhöhenkontrast zum höher liegenden tonalen Element der Nachakzentsilbe. Dadurch, dass es sich vom tonalen Element der Nachakzentsilbe zum tonalen Element in der darauf folgenden Silbe um eine Tonhöhenveränderung nach unten handelt, ist anzunehmen, dass die tonhöhenbedingte Prominenz des finalen Elementes bezüglich ihrer
334 334
Einleitung Ansätze zu einer Kontrast-Theorie
Stärke unter den Prominenzen des vorangehenden tonalen Elementes der Nachakzentsilbe eingeordnet werden kann (vgl. hierzu Fußnote 43). Das beschriebene aus der Empirie heraus abgeleitete Prominenzmuster ist in Abbildung 61(c) wiedergegeben. Es wird neben der Komponente des Tonhöhenmusters als die Prominenzkomponente der Form des Zeichens UNERWARTET betrachtet. Die experimentell gewonnenen Befunde zum Einfluss der Gipfelgestalt auf die Wahrnehmung des Zeichens UNERWARTET untermauern die zuvor anhand der Synchronisation entworfene bikomponentiale Zeichenform. So haben beispielsweise F0-Gipfel mit flachem Anstieg (f/s und f/f) selbst am postvokalischen (rechten) Ende des verwendeten Synchronisationsraumes nicht zur Wahrnehmung des Zeichens UNERWARTET geführt. In 4.1.2 wurde dies ausführlich erläutert. In diesem Zusammenhang wurde ebenfalls darauf hingewiesen, dass sich im Falle der flach ansteigenden F0-Gipfel kein tiefes F0-Plateau innerhalb der Akzentsilbe ausbilden konnte. Vielmehr steigt F0 im Akzentvokal durchgehend an (vgl. Abb. 16 in 4.1.1). Bezogen auf die tonalen Elemente bedeutet dies, dass das tiefere tonale Element am Beginn der Tonhöhenbewegung im Akzentvokal keinen bedeutsamen Längenkontrast zu dem vorangehenden tonalen Element der Vorakzentsilbe mehr ausbilden kann und demzufolge den darauf basierten Prominenzbeitrag verliert. Gleichzeitig bildet sich ein deutlicher Tonhöhenkontrast zwischen den beiden tonalen Elementen aus der Tonhöhenbewegung innerhalb des Akzentvokals heraus, aufgrund dessen das höher liegende Element am Ende der Tonhöhenbewegung Prominenz hinzugewinnt. Ingesamt gesehen, lassen die flach ansteigenden F0-Gipfel der in 4.1 verwendeten Stimulusserien selbst bei einer postvokalischen Gipfelposition somit ein an- und abschwellendes Prominenzmuster entstehen, wie es gemäß Abbildung 61(b) für das Zeichen NEU kennzeichnend ist. Das durch die tonalen Elemente konstituierte Tonhöhenmuster wird aufgrund der Veränderung der Gipfelgestalt zwar ebenfalls modifiziert, es bleibt aber weiterhin eine Sequenz aus An- und Abstieg, die nicht nur für die Zeichenform von UNERWARTET, sondern auch für die von NEU angenommen wird. Dementsprechend geht der empirische Befund, wonach die flach ansteigenden F0-Gipfel f/s und f/f im Rahmen des Äußerungskontextes, in den sie eingebettet waren, nicht zur Wahrnehmung des Zeichens UNERWARTET führen, mit den postulierten Zeichenformen konform. Zuvor wurde mit Bezug auf die akustische Analyse von Gartenberg und Panzlaff-Reuter (1991) bereits angedeutet, dass eine deutliche Prominenz der/des hohen tonalen Elemente(s) für die Wahrnehmung des Zeichens UNERWARTET essentiell ist. In diese Richtung weisen auch die in
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
335 335
4.3 gewonnenen Erkenntnisse zum Einfluss der Gipfelhöhe. In Verbindung mit einer geringen F0-Gipfelhöhe konnte ein Überwechseln von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET unterbunden werden. Ein Absenken der Gipfelhöhe wirkt sich – für die untersuchten postvokalischen Gipfelpositionen – so aus, dass die auf Tonhöhenkontrasten basierten Prominenzen der hohen tonalen Elemente zurückgehen. Im Hinblick auf die Wahrnehmung des Zeichens UNERWARTET ist von entscheidender Bedeutung, dass dies auch die Prominenz des hohen tonalen Elementes auf der Nachakzentsilbe betrifft. Die Ausprägung des Tonhöhenmusters bleibt qualitativ gesehen von einem Herabsetzen der Gipfelhöhe (weitgehend) unberührt. 6.6.3 Die Zeichenformen vor dem Hintergrund der Erkenntnisse zur Dauer und Intensität Bei der Entwicklung der Zeichenformen sollen die in der vorliegenden Arbeit gewonnenen Erkenntnisse zum Einfluss der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der Zeichentriade separat von den F0-bezogenen Erkenntnissen behandelt werden. Dies geschieht aus zwei Gründen. Erstens wurde in 4.4.3 argumentiert, dass die F0bezogenen Ergebnisse belastbarer erscheinen als die zur Dauer und Intensität. Zweitens kristallisiert sich bei der gleichzeitigen Berücksichtigung beider Erkenntnisbereiche kein kohärentes Bild für die Formen der sprechmelodischen Zeichen heraus. Bezüglich des letztgenannten Aspektes muss wiederum differenziert werden zwischen den im Perzeptionsexperiment tatsächlich gefundenen Einflüssen der Dauer und Intensität und dem sehr viel komplexeren Erkenntnisbild, das sich bei der Einbeziehung der Befunde aus der akustischen Analyse ergibt. Die tatsächlich gefundenen perzeptorischen Effekte können weitgehend in die kreierten und in Abbildung 61 dargestellten Zeichenformen integriert und so für sich allein genommen zur Untermauerung dieser phonologischen Postulate herangezogen werden. Dies soll an zwei Beispielen verdeutlicht werden. Dass beispielsweise eine Verlängerung der Dauer der Nachakzentsilbe bei gleichzeitiger Anhebung des Intensitätsniveaus dieser Silbe (Konfiguration LECV>D
336 336
Einleitung Ansätze zu einer Kontrast-Theorie
so eine stärkere Prominenz. Diese Verstärkung der Tiefe kommt gemäß der in Abbildung 61(a) angegebenen Kombination aus Tonhöhen- und Prominenzmuster der Wahrnehmung des Zeichens GEGEBEN entgegen. Auch die vermehrte Wahrnehmung des Zeichens UNERWARTET über die Reduktion der Dauer und Intensität der Vorakzentsilbe (Konfiguration MALCV
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
337 337
tionen betrachtet. Darüber hinaus wurde in 4.2.7 jedoch argumentiert, dass die gefundenen perzeptorischen Einflüsse der Konfigurationen möglicherweise grundsätzliche Restriktionen in der Kombination von Dauerund Intensitätsrelationen repräsentieren, die sich in der akustischen Analyse in Form von Korrelationen zwischen gemessenen Dauer- und Intensitätsrelationen manifestiert haben. Derartige Restriktionen werden, sofern sie durch nachfolgende Experimente untermauert werden können, durch die entworfenen Zeichenformen nicht abgedeckt. Es ist auch im Augenblick nicht eindeutig erkennbar, in welcher Weise diese Restriktionen im Hinblick auf die Kodierung sprechmelodischer Zeichen interpretiert werden sollen. Prinzipiell ist es zwar denkbar, kombinatorische Restriktionen in den Dauer- und Intensitätsrelationen zwischen Silben als Folge von trading relations aufzufassen (siehe Repp 1982), die bei der multifaktoriellen Kodierung der sprechmelodischen Zeichen durch Tonhöhe, Länge und Lautheit zustande kommen. Auf diese Weise kann allerdings nicht verstanden werden, warum die Restriktionen nur in zeichenspezifischen Silbenpaarungen beobachtet wurden. Ferner ist es angesichts der entwickelten Zeichenformen nicht naheliegend, dass Dauer und Intensität für die Wahrnehmung eines Zeichens gleichgerichtet variieren müssen. Es ist möglich, dass in diesen Restriktionen rhythmische Eigenschaften der Sprechmelodie zum Ausdruck kommen, die zum Beispiel auf der Ebene der melodischen Phrase eine Rolle spielen und somit über die Kodierung einzelner Zeichen hinausgehen. Daneben ist es auch vorstellbar, dass die Restriktionen durch eine Interaktion zwischen der Kodierung attitudinaler Bedeutungen in Form sprechmelodischer Zeichen und der Kodierung von bedeutungstragenden Einheiten anderen Typs – wie denen der Hervorhebung – entstehen. Es ist zu betonen, dass die Ansätze zur Kontrast-Theorie bzw. die in diesem Rahmen konzeptualisierten Zeichenformen grundsätzlich für die Berücksichtigung von Überlegungen der genannten Art gerüstet sind. Zuvor jedoch ist es essentiell, dass die gefundenen Restriktionen in Produktion und Perzeption weiter erforscht werden. 6.6.4 Weiterführende Bemerkungen Am Ende des vorangehenden Abschnitts wurden die sprechmelodischen Zeichen als komplexe Ganzheiten charakterisiert. Das heißt, die Tonhöhen-, Längen- und Lautheitseigenschaften der tonalen Elemente in einem großen Bereich (deren genaue Anzahl sich aus dem Zusammenspiel von F0 und Spektrum ergibt, vgl. 6.1.2) sind für die Kodierung der Zeichen relevant. Angeklungen ist dies bereits in der Begründung für die Darstellung der zeichenspezifischen Prominenz- und Tonhöhenmuster durch ein
338 338
Einleitung Ansätze zu einer Kontrast-Theorie
Schema kontinuierlicher Linien. In diesem Zusammenhang ist herauszustellen, dass diejenigen tonalen Elemente, die in den Ausführungen zur empirisch basierten Herleitung der Zeichenformen behandelt wurden, zwar von zentraler Bedeutung für die Wahrnehmung der Zeichen sind. Da diese Elemente jedoch auf direktem Wege durch weitere tonale Elemente beeinflusst werden können (vgl. den Wahrnehmungsprozess in 6.5), die insofern ebenfalls in die Kodierung des Zeichens eingreifen, ist das sprechmelodische Zeichen selbst sehr viel globaler angelegt. Aus der empirisch basierten Entwicklung der Zeichenformen ging ferner implizit hervor, dass die sprechmelodischen Zeichen über einen melodischen Kern verfügen. Dies ist die stärkste Prominenz des Zeichens. Sie befindet sich innerhalb der durch die Prominenzspitze gekennzeichneten und die für Hervorhebung wichtigen Silbe, das heißt innerhalb der Akzentsilbe. Im Falle der Zeichen GEGEBEN und UNERWARTET ist dies jeweils ein tieferes und im Falle von NEU ein höheres tonales Element (vgl. Abb. 61a-c). Der melodische Kern ist sowohl strukturell gesehen das Zentrum der Zeichenform als auch perzeptorisch ein besonders salientes Ereignis. Aus den beiden vorangegangenen Absätzen wird ersichtlich, warum die durch die prominenzgeleitete Gruppierung von Silben entstehenden Konstruktionseinheiten als die primäre Domäne für die Kodierung der sprechmelodischen Zeichen betrachtet werden können (vgl. 6.6, S. 324f.). Zum einen steckt diese Einheit den Bereich ab, in der die tonalen Elemente (syntagmatisch und zurück in der Zeit) multidimensional kontrastiert und die dabei gebildeten Kontraste verstärkt werden (vgl. 6.5). Das heißt, die Beschaffenheit der tonalen Elemente, die Bestandteil der phonologisch relevanten Prominenz- und Tonhöhenmuster (vgl. Abb. 61a-c) sind, ist grundsätzlich immer auch das Resultat aller anderen tonalen Elemente, die innerhalb der jeweiligen Konstruktionseinheit zusammen mit den phonologisch relevanten vorkommen. Darüber hinaus befindet sich – am Kopf der Konstruktionseinheit – das in seiner Prominenz herausgehobene tonale Element, das den melodischen Kern sprechmelodischer Zeichen bildet. In Verbindung mit der F0-Gipfelverschiebung von prä- zu innervokalisch bzw. von GEGEBEN zu NEU wurde erläutert, dass hierbei ein weiteres tonales Element in die Tonhöhenbewegung über dem Akzentvokal eingefügt wird. Das heißt, die von zwei tonalen Elementen eingerahmte fallende Tonhöhenbewegung wird zu einer drei tonale Elemente umfassenden steigend-fallenden Tonhöhenbewegung. Da nun die globale Prominenz einer Silbe als aus den lokalen Prominenzen der tonalen Elemente ableitbar betrachtet wird, führt das Hinzutreten eines zusätzlichen tonalen Elementes zu einem sprunghaften Anstieg in der Prominenz der jeweili-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
339 339
gen Silbe, in diesem Fall der Akzentsilbe. Dieses sich aus den Ansätzen der Kontrast-Theorie ergebende Postulat ist im Rahmen der Wahrnehmung der Gipfelverschiebung von prä- zu innervokalisch tatsächlich nachzuvollziehen und zeichnet sich auch in den Ergebnissen der Perzeptionsexperimente von Kohler und Gartenberg (1991) ab. Auf dieser Grundlage wird auch ersichtlich, warum die Versuchspersonen bei Kohler und Gartenberg die Akzentsilbe in Verbindung mit dem Zeichen NEU als prominenter empfunden haben als in Verbindung mit GEGEBEN oder UNERWARTET (bei jeweils gleicher Gipfelhöhe, vgl. 6.1.4). Es ist ferner denkbar, dass dieser strukturell bedingte sprunghafte Prominenzanstieg auf der Silbenebene für die besonders gute Diskriminationsleistung zwischen Stimuli mit prä- und innervokalisch positionierten F0-Gipfeln verantwortlich ist, die sich sprachübergreifend in den Perzeptionsexperimenten von Kohler (1991c), Niebuhr (2003a, b) und Kleber (2005, 2006) gezeigt hat und aufgrund derer der Wahrnehmungsübergang zwischen GEGEBEN und NEU bzw. phonetisch verwandter Zeichen anderer Sprachen häufig als kategorial eingestuft wird (vgl. hierzu auch Niebuhr und Kohler 2004). Vor dem Hintergrund des im Rahmen der Ansätze zur KontrastTheorie entworfenen bikomponentialen Zeichenformkonzeptes erscheint zudem auch die in den akustischen Analysen gefundene Verankerung (anchoring) von signifikanten Punkten des F0-Verlaufs in der Lautkette nachvollziehbar (vgl. 3.2.1). Sie kann als eine Strategie dafür interpretiert werden, den jeweiligen tonalen Elementen bestimmte Prominenzeigenschaften zu geben und dabei die durch den lautlichen Kanal vorgeformten Dauer- und Intensitätsstrukturen dadurch auszunutzen, dass der F0Verlauf, aus dem die tonalen Elemente hervorgehen, in bestimmter Weise an lautliche Einheiten und deren intrinsische Eigenschaften gekoppelt wird. Die Zeichenformen NEU zum Beispiel sieht gemäß Abbildung 61(b) ein zum Tonhöhenmuster analoges Prominenzmuster vor. Das heißt, das initiale tiefe tonale Element für die Wahrnehmung des Zeichens NEU ist mit einer vergleichsweise geringeren Prominenz verbunden. Es wird – je nach Silbenstruktur und F0-Gipfelgestalt – irgendwo aus dem Bereich des F0-Verlaufs heraus konstruiert, in dem der Anstieg zum F0-Gipfel einsetzt. Vom Standpunkt der Ansätze zur Kontrast-Theorie ergibt sich eine geringe Prominenz für dieses tonale Element insbesondere dadurch, dass ihm keine Tonhöhenbewegung, sondern ein stationärer Einzelton (einer Silbe) zugrundegelegt wird. So erhält das tonale Element eine sehr geringe perzeptorische Länge. Darüber hinaus wird die Prominenz herabgesetzt, wenn das Element mit geringer Intensität bzw. mit geringer Lautheit verbunden wird. Beides ist gegeben, wenn der Beginn des Anstiegs zum F0-
340 340
Einleitung Ansätze zu einer Kontrast-Theorie
Gipfel mit dem Übergang zwischen der Akzentsilbe und der vorangehenden unakzentuierten Silbe koordiniert wird. Die hohe spektrale Variation in diesem Bereich wird zur Konstruktion eines stationären Einzeltons als Basis des tonalen Elementes führen, und durch den Übergang zum initialen Konsonanten der Akzentsilbe wird die Intensität und damit die Lautheit des tonalen Elementes vergleichsweise gering ausfallen. Dementsprechend hat sich in zahlreichen akustischen Analysen des Zeichens NEU gezeigt, dass der Beginn des Anstiegs zum F0-Gipfel in der Regel dicht um den Beginn der Akzentsilbe herum positioniert wird (z.B. von Gartenberg und Panzlaff-Reuter 1991 oder Niebuhr und Ambrazaitis 2006). Die skizzierte Strategie, die durch den lautlichen Kanal vorgeformten Dauer- und Intensitätsstrukturen zur Erzeugung zeichenspezifischer Prominenzmuster und damit zur Signalisierung bestimmter sprechmelodischer Zeichen auszunutzen, bedeutet jedoch nicht zwangsläufig, dass die F0-Verläufe im Sinne der gefundenen Verankerung immer an die gleichen lautlichen Einheiten gekoppelt werden, sodass diese die Koordination des F0-Verlaufs und damit letztlich auch die Ausprägung der Gipfelgestalt determinieren. In Abhängigkeit vom sprechmelodischen Zeichen und im Zusammenspiel mit der Synchronisation können auch unterschiedliche Gipfelgestalten eingesetzt werden, um bestimmte F0-Abschnitte mit verschiedenen geeigneten lautlichen Einheiten zu koordinieren, wie es sich in einigen akustischen Analysen andeutet (vgl. 3.2.2). Vor dem Hintergrund zeichenspezifischer Prominenzen der Akzentsilbe und der Bindung von F0-Gipfelpunkten an Eckpunkte von Silben ist zu unterstreichen, dass die Tonhöhen- und Prominenzmuster der entworfenen Zeichenformen auch für einsilbige Äußerungen gebildet und postuliert werden können. Abbildung 62 zeigt hierzu exemplarisch drei F0Verläufe über der Äußerung „Sie“. In (a) und (b) ist ein durchgehend fallender, in (c) ein steigend-fallender Verlauf dargestellt. Im Vergleich zu Akzentsilben, die in mehrsilbigen Äußerungen (initial oder medial) stehen, sind Akzentsilben, die allein eine Äußerung bilden, meist durch eine deutliche größere Dauer gekennzeichnet, die auch den akzentuierten Vokal betrifft (vgl. Kohler 1991a, b). Infolge der damit einhergehenden spektralen Stabilität des Akzentvokals werden in der Regel die F0-Verläufe in solchen akzentuierten Einsilblern in ihren Grundzügen auch als Tonhöhenbewegungen erzeugt. Das heißt, die in Abbildung 62(a)-(c) über „Sie“ dargestellten F0-Verläufe können gleichzeitig als Tonhöhenbewegungen angesehen werden. Hiervon ausgehend, umfassen die Bewegungen in (a) und (b) gemäß 6.1.2 jeweils zwei tonale Elemente. Eines wird durch das Plateau repräsentiert, das sich in (a) am Ende und in (b) am Anfang befindet. Das andere tonale Element sitzt am gegenüberliegenden Ende der Tonhöhenbewegung.
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
341 341
Abbildung 62: Drei schematisch dargestellte F0-Verläufe (a)-(c) über der einsilbigen akzentuierten Äußerung „Sie“. Aufgrund der andauernden spektralen Stabilität des Akzentvokals kann davon ausgegangen werden, dass die dargestellten F0-Verläufe in ihren Grundzügen auch als Tonhöhenbewegungen perzipiert werden. In diesem Zusammenhang wird auf die Hörbeispiele zu diesen drei Äußerungen auf der CD im Anhang J verwiesen.
Sowohl die beiden tonalen Elemente in (a) als auch die in (b) bilden ein fallendes Tonhöhenmuster und entsprechen damit der Form des Zeichens GEGEBEN (vgl. Abb. 61a). In Verbindung mit dem Prominenzmuster ist nun allerdings zu beachten, dass das tonale Element, das durch das Plateau repräsentiert wird, eine deutlich größere Länge aufweist als das jeweils gegenüberliegende tonale Element (vgl. 6.1.2). Da der Tonhöhenkontrast zwischen den tonalen Elementen in (a) und (b) identisch ausfällt, ist der Prominenzbeitrag dieses Längenkontrastes entscheidend für die Ausprägung des Prominenzmusters. Dies gilt auch deswegen, da der Prominenzbeitrag von Intensitätskontrasten, die in Abbildung 62 nicht berücksichtigt sind, den in 6.3 geschilderten experimentellen Befunden zufolge (im Standarddeutschen und verwandten Sprachen) deutlich geringer ist als der von Tonhöhen- und Längenkontrasten. Hinsichtlich der Beziehung zwischen Länge und Prominenz wurde in 6.3 zudem erläutert, dass für das tonale Element mit der größeren Länge eine höhere Prominenz konstruiert wird. Wird auf dieser Grundlage nun der Prominenzbeitrag des Längenkontrastes mit einbezogen, dann ergibt sich in (a) eine deutlich höhere Prominenz für das tieftonige tonale Element am Ende der Tonhöhenbewegung. Dieses Hervorheben der Tiefe in Relation zu einer vorausgehenden Höhe entspricht der Kombination aus Tonhöhen- und Prominenzmuster, die für das Zeichen GEGEBEN postuliert wird. Entsprechend wird in der Äußerung „Sie“, wie sie in Abbildung 62(a) dargestellt ist, das Zeichen GEGEBEN erkannt. Dies wird auch durch einen informellen Hörtest und den eigenen Perzeptionseindruck sowie dessen bedeutungsbezogene Interpretation untermauert. Es kann anhand des auf der beiliegenden CD gegebenen Hörbeispiels (siehe Anhang J) nachvollzogen werden. Anders verhält es sich mit der Äußerung „Sie“ aus Abbildung 62(b). Da sich das Plateau hier am Anfang befindet, wird das hochtonige tonale
342 342
Einleitung Ansätze zu einer Kontrast-Theorie
Element aufgrund seiner größeren Länge mit einer höheren Prominenz konstruiert. Das heißt, parallel zu dem fallenden Tonhöhenmuster wird ein fallendes Prominenzmuster konstruiert. Dies entspricht nach Abbildung 61(a) nicht den phonologischen Rahmenbedingungen für die Wahrnehmung des Zeichens GEGEBEN. Hiermit im Einklang hat sich auch in einem informellen Test bestätigt, dass Hörer in Äußerungen wie der aus Abbildung 62(b) das Zeichen GEGEBEN nicht wahrnehmen. Dies geht ferner konform mit der eigenen Perzeption und kann anhand des Audiobeispiels auf der beiliegenden CD leicht nachvollzogen werden. Die F0-Bewegung und die daraus hervorgehende Tonhöhenbewegung für die Äußerung „Sie“ in Abbildung 62(c) ist steigend-fallend, wobei es am Hochpunkt zu einer Plateaubildung kommt. Letzteres basiert Abbildung 57 und die darauf bezogenen Ausführungen zu physiologischen Beschränkungen der Dynamik bei Richtungsänderungen im F0-Verlauf. Infolgedessen befinden sich innerhalb der Tonhöhenbewegung gemäß 6.1.2 nicht wie in (a) und (b) zuvor zwei, sondern drei tonale Elemente. Jeweils eines sitzt am Beginn des Anstiegs und am Ende der absteigenden Bewegung. Das dritte tonale Element wird durch das Hochplateau in der Mitte der Bewegung repräsentiert. Das Tonhöhenmuster, das durch diese drei Elemente zustandekommt, entspricht dem des Zeichens NEU (vgl. Abb. 61b). Was das Prominenzmuster anlangt, so erhält das mittlere tonale Element, das den Hochpunkt des Tonhöhenmusters darstellt, eine höhere Prominenz als die beiden umliegenden Elemente. Dies geht zum einen erneut auf das Plateau zurück, wodurch das mittlere tonale Element eine größere Länge erhält als die beiden umliegenden Elemente. Neben der höheren Prominenz aufgrund der größeren Länge ist mit Blick auf Fußnote 43 in 6.3 des weiteren zu berücksichtigen, dass sich das mittlere tonale Element im Rahmen der Tonhöhenkontraste durch eine größere Tonhöhe auszeichnet. Auch dies trägt zu einer Erhöhung der Prominenz bei. Insgesamt gesehen entsteht so durch die drei tonalen Elemente ein Prominenzmuster, das parallel zum steigend-fallenden Tonhöhenmuster anund abschwillt. Dies ist im Sinne der entworfenen und in Abbildung 61(b) dargestellten Form des Zeichens NEU. Dementsprechend zeigen auch die Ergebnisse eines informellen Hörtests sowie der eigene Perzeptionseindruck, dass in Äußerungen wie der aus Abbildung 62(c) das Zeichen NEU erkannt wird. Dies kann ferner auch anhand des Hörbeispiels nachvollzogen werden, auf dem Abbildung 62(c) basiert und das auf der beiliegenden CD enthalten ist. Die drei Beispiele aus Abbildung 62(a)-(c) demonstrieren, dass die entworfenen Zeichenformen auch innerhalb von einsilbigen Äußerungen entstehen und somit zur Identifikation sprechmelodischer Zeichen heran-
Zumder Begriff der Sprechmelodie Zur Form sprechmelodischen Zeichen
343 343
gezogen werden können. Dies ist vor allem dadurch bedingt, dass die tonalen Elemente, die als phonologische Grundbausteine fungieren, in ihrer Anzahl und Ausprägung grundsätzlich unabhängig von der Silbenzahl sind. Die einzige Voraussetzung ist, dass die spektrale Struktur der Silbe durch entsprechend große stabile Abschnitte die Erzeugung von Tonhöhenbewegungen zulässt. Nur im Rahmen von Tonhöhenbewegungen kommen in einer Silbe mehrere tonale Elemente zustande. In Abhängigkeit von der Komplexität der Tonhöhenbewegung können theoretisch beliebig viele Elemente entstehen. Es sind aber in jedem Fall mindestens zwei tonale Elemente erforderlich, um (zeichenspezifische) Tonhöhenund Prominenzmuster zu formen. Darüber hinaus unterstreichen die Beispiele aus (a) und (b) das zentrale Postulat innerhalb der entworfenen Zeichenformen, dass für die Wahrnehmung sprechmelodischer Zeichen ein Tonhöhenmuster allein nicht ausreichend ist. Die Tonhöhenmuster in (a) und (b) sind beide durchgehend fallend. Dennoch wird in (a) das Zeichen GEGEBEN erkannt und in (b) nicht. Dies kann nur dadurch erfasst werden, dass neben dem Tonhöhen- auch ein Prominenzmuster in die Zeichenformen mit einbezogen wird. Ein weiterer Aspekt, der im Rahmen weiterführender Bemerkungen aufgegriffen werden muss, ist die Parallelität des Einflusses der Gipfelgestalt und -höhe auf die Wahrnehmung der drei sprechmelodischen Zeichen, die in 4.4.3 herausgestellt wurde. Hierbei wurde die Frage aufgeworfen, ob diese empirische bzw. perzeptorische Parallelität auch hinsichtlich der Kodierung der sprechmelodischen Zeichen parallele Ursachen hat, zum Beispiel in Form der Flankenneigung, die sowohl durch die Gipfelgestalt als auch durch die Gipfelhöhe modifiziert wird. In den vorangegangenen Ausführungen zu den Zeichenformen haben sich allerdings unterschiedliche Ursachen für die parallelen Einflüsse der Gipfelgestalt und -höhe herauskristallisiert. Die Gipfelhöhe betrifft die Deutlichkeit mit der die Tonhöhen- und Prominenzmuster perzipiert werden, während die Gipfelgestalt die Muster (für die jeweilige Gipfelposition) darüber hinaus auch qualitativ verändert. Daneben gibt es allerdings auch einen Effekt, der mit der Flankenneigung einhergeht. F0-Gipfel mit geringerer Flankenneigung, die entweder durch ein Absenken der Gipfelhöhe oder durch eine dahingehende Modifikation der Gipfelgestalt entstehen können, führen dazu, dass sich die Tonhöhen- und Prominenzmuster im Rahmen einer ansonsten gleichbleibenden Gipfelverschiebung langsamer verändern. Das heißt, der Übergang von der Wahrnehmung des einen zur Wahrnehmung des anderen Zeichens wird gemessen an der Anzahl der Verschiebungsschritte breiter. Dieser Effekt konnte in der Tat sowohl in den Experimenten von Niebuhr (2003a, b) als auch in den Experimenten der vorliegenden Arbeit
344 344
Einleitung Ansätze zu einer Kontrast-Theorie
(vgl. 4.1 und 4.3) in allen Fällen beobachtet werden. Diese Korrespondenz zwischen Theorie und Empirie ist eine weitere Unterstützung für die vorgeschlagenen Zeichenformen und den durch die Ansätze zur KontrastTheorie repräsentierten Konstruktionsmechanismus. In diesem Zusammenhang ist abschließend darauf hinzuweisen, dass die angegebenen Tonhöhen- und Prominenzmuster zu den drei Zeichenformen auch mit den impressionistischen Beschreibungen aus der Literatur konform gehen. Kohler (1991c:148) gibt beispielsweise die perzeptorischen Charakteristika der beiden Zeichen GEGEBEN und NEU, die in der Terminologie des KIM als frühe und mittlere Gipfel bezeichnet werden (vgl. 2.3 und 2.5), wie folgt wieder: „So in all cases, the ´medial´ peak accentuates a higher F0 level in the stressed vowel than the ´early´ peak“. Bezüglich des Zeichens UNERWARTET bzw. des späten Gipfels in der KIMTerminologie sagt Kohler (1991c:128) vor dem Hintergrund der durchgeführten Gipfelverschiebung ferner, dass „a further shift to the right […] results in an increasing low F0 stretch […], which receives the intensification, whereas, at the same time, the end of the rise is linked with a decrease of acoustic energy“.
7 Die Diskussion der Ansätze zur Kontrast-Theorie Im vorangegangenen Kapitel 6 wurden unabhängig von den experimentellen Erkenntnissen aus Teil (A) der vorliegenden Arbeit auf einer allgemeinen perzeptorischen Grundlage Ansätze einer Theorie zur Wahrnehmung der Sprechmelodie entworfen. Am Ausgangspunkt dieser Theorie steht die Kontrastbildung zwischen tonalen Elementen hinsichtlich ihrer Tonhöhen-, Längen- und Lautheitseigenschaften (auf diesem ersten grundlegenden Schritt beruht die Bezeichnung als Kontrast-Theorie). Anhand der gebildeten und verstärkten Kontraste werden dann mit Bezug auf top-down Wissen Prominenzen für die tonalen Elemente erzeugt. Diese Prominenzen wiederum stellen indirekt die Basis für die Entstehung ganzheitlicher Konstruktionseinheiten dar. Aus den lokalen Prominenzen der tonalen Elemente ergeben sich die globaleren Prominenzen der Silben, und die Silben werden anhand ihrer Prominenzen über das Gestaltgesetz der Prägnanz zu den genannten Konstruktionseinheiten zusammengestellt (vgl. 6.5). Auf diese Weise geben die entworfenen theoretischen Ansätze einen Rahmen für die Konstruktion von sprechmelodischen Einheiten vor, von denen aus die Dekodierung (d.h. die Identifikation) sprechmelodischer Zeichen als Träger attitudinaler Bedeutungen stattfinden kann. In diesem Rahmen wurde auch festgelegt, dass die für die Erkennung der Zeichen herangezogenen phonologischen Formen mit Blick auf die in Kapitel 4 gefundenen Einflüsse von F0, Dauer und Intensität bikomponential ausfallen, also sowohl Tonhöhen- als auch Prominenzeigenschaften umfassen müssen. Hiervon ausgehend wurden dann für die in dieser Arbeit behandelten drei Zeichen GEGEBEN, NEU und UNERWARTET konkrete Zeichenformen entwickelt, indem vor allem die F0-bezogenen Erkenntnisse zur F0-Gipfelsynchronisation sowie zur Gipfelgestalt und -höhe im Licht der Ansätze zur Kontrast-Theorie interpretiert wurden (vgl. Abb. 61 in 6.6). Im vorliegenden Kapitel werden die umrissenen Postulate diskutiert. Das heißt, es wird sowohl auf die Zeichenformen als auch auf die dahinterstehenden Ansätze zur Kontrast-Theorie eingegangen. Die Diskussion selbst umfasst zwei Diskussionspunkte. In 7.1 wird der phonologische Rahmen in den Ansätzen zur Kontrast-Theorie den im zweiten Kapitel erörterten phonologischen Theorien des KIM und des AM-Ansatzes ge-
346 346
Einleitung Diskussion der Ansätze
genübergestellt. Hiernach werden in 7.2 die Stärken und Schwächen der Ansätze zur Kontrast-Theorie herausgearbeitet. Beide Diskussionspunkte zusammen bereiten zum einen die Antworten auf die in der Einleitung gestellten Forschungsfragen vor und zeigen darüber hinaus die Ansatzpunkte für die weitere Forschungsarbeit auf. Diese zwei weiterführenden Aspekte werden Gegenstand des abschließenden Kapitels 8 sein.
7.1 Phonologische Aspekte der Ansätze zur Kontrast-Theorie im Vergleich zur Phonologie des KIM und des AM-Ansatzes In 2.3.2 wurde das Konzept für die Zeichenformen des KIM vorgestellt. Es wurde ausgeführt, dass im KIM Konturen im Sinne von durchgängigen Verlaufsmustern als phonologisch relevant erachtet werden. Diese Konturen sind durch die Synchronisation in Relation zum Beginn des akzentuierten Vokals weiter phonologisch spezifiziert. Als phonetische Bezugsgröße der Kontur dient F0. F0 ist auch in den Zeichenformen der AM-Phonologie, die in 2.4.2 dargestellt wurden, die relevante phonetische Bezugsgröße. Anders als im KIM, wird F0 im AM-Rahmen allerdings nicht auf Konturen bezogen. Stattdessen repräsentieren Zielpunkte im F0Verlauf, also lokale F0-Ereignisse, die als Töne bezeichnet werden, die phonologische Grundkomponente der sprechmelodischen Zeichen. Diese Töne besitzen einen binären phonologischen Wert, der im Hinblick auf die F0-Veränderung zum jeweils vorausgehenden Ton als high oder low (symbolisiert durch H oder L) bezeichnet wird. Sprechmelodische Zeichen können im AM-Rahmen entweder einen oder zwei Töne umfassen. In jedem Fall ist jedoch ein Ton strukturell herausgehoben. Er weist die phonologisch relevante Assoziation zur metrisch starken Silbe auf, die der Akzentsilbe entspricht. Phonetisch bedeutet dies, dass sich der Ton innerhalb der Akzentsilbe ausprägt. Der andere (optionale) Ton ist nicht an segmentelle Einheiten, sondern an den phonologisch assoziierten Ton gekoppelt, was auf phonetischer Seite bedeutet, dass er ihm in einem fixen Zeitintervall folgt oder vorausgeht. Die im Rahmen der Ansätze zur Kontrast-Theorie entworfenen Zeichenformen heben sich konzeptuell in verschiedenen Aspekten von den zuvor zusammengefassten Zeichenformen des KIM und des AM-Ansatzes ab. Ein zentraler Aspekt hierbei ist sicherlich, dass die Zeichenformen im Rahmen der Kontrast-Theorie eine Mittelstellung zwischen den Extrempositionen von Kontur und Tonsequenz einnehmen. Auf der einen Seite kommen die in 6.6 entworfenen Zeichenformen ähnlich wie in der AM-Phonologie durch eine Abfolge von einzelnen (tonalen) Elementen zustande und nicht durch die (Tonhöhen-)Bewegungen zwischen die-
Zum Begriff Aspekte der Sprechmelodie Phonologische im Vergleich
347 347
sen Elementen. Andererseits jedoch ist die Zeichenform nicht über den phonetischen Wert einzelner tonaler Elemente definiert. Folglich ist es auch phonologisch weitgehend irrelevant, wie viele tonale Elemente in die jeweilige Zeichenform eingehen (die Anzahl kann in Abhängigkeit der Eigenschaften der beim Hörer eintreffenden phonetischen Reize stark schwanken). Entscheidend sind die Mustereigenschaften, die mehrere tonale Elemente zusammengenommen ausbilden. Somit ist im Gegensatz zur AM-Phonologie zum Beispiel per definitionem ausgeschlossen, dass ein einziges tonales Element eine Zeichenform bilden kann. Wie viele tonale Elemente dafür mindestens notwendig sind, wird durch die Komplexität der Muster determiniert, die damit gebildet werden müssen. Der zentrale phonologische Stellenwert der Muster weist in Richtung eines Konturkonzeptes. Insgesamt gesehen kann das Konzept der Zeichenformen, das sich im Rahmen der Ansätze zur Kontrast-Theorie herauskristallisiert hat, eher in die Konturtradition eingeordnet werden, auch wenn es sich nicht um klassische Konturen im Sinne von kontinuierlichen Verlaufseigenschaften handelt, wie sie dem KIM oder auch dem IPO-Ansatz (vgl. ´t Hart et al. 1990) zugrundeliegen. Die Einordnung in die Konturtradition wird auch dadurch unterstützt, dass die tonalen Elemente in der Phonologie der Ansätze zur KontrastTheorie nicht in eine phonologisch-strukturelle Hierarchie eingebettet sind. Die einzelnen phonologisch relevanten Elemente des Musters sind prinzipiell gleichwertig. Zwar wurde in 6.6.4 darauf hingewiesen, dass die Zeichenformen über einen melodischen Kern verfügen. Dieser wird durch das tonale Element am Kopf der jeweiligen sprechmelodischen Konstruktionseinheit repräsentiert, das dementsprechend die stärkste Prominenz aufweist. Trotz dieser strukturellen und perzeptorischen Salienz, aufgrund derer sich der melodische Kern zum Beispiel bei der Identifikation sprechmelodischer Zeichen in geräuschhafter Umgebung als besonders robust erweisen sollte, ist der melodische Kern aber phonologisch gesehen nicht bedeutsamer als die übrigen Elemente des Musters. Anders verhält es sich in der AM-Phonologie. In den aus H und/oder L gebildeten Tonakzenten ist immer genau ein Ton phonologisch mit der metrisch starken Silbe assoziiert und weist dadurch eine hervortretende (phonetisch konkrete) Prominenz auf. In diesem Sinne ist er dem melodischen Kern in den Zeichenformen der Kontrast-Theorie ähnlich. Im Gegensatz zu letzterem ist der phonologisch assoziierte (d.h. der gesternte) Ton in den AM-Zeichenformen jedoch auch phonologisch dem anderen optionalen Ton übergeordnet. Das äußert sich unter anderem darin, dass er dessen phonetische Ausprägung bestimmt. Derartige deterministische Beziehungen gelten für die tonalen Elemente in den Zeichenformen der KontrastTheorie nicht.
348 348
Einleitung Diskussion der Ansätze
Was die genannten Muster selbst anlangt, so hebt sich das in der vorliegenden Arbeit entwickelte Zeichenformkonzept sowohl von der KIMals auch von der AM-Phonologie deutlich dadurch ab, dass die Zeichenformen bikomponential aufgebaut sind. Sie umfassen nicht nur ein Tonhöhenmuster, sondern darüber hinaus auch ein Prominenzmuster, die beide für die Identifikation des jeweiligen Zeichens in entsprechender Weise ausgeprägt sein müssen. In diesem Sinne sind auch die Parameter Länge und Lautheit bzw. Dauer und Intensität in die Signalisierung sprechmelodischer Zeichen eingebunden. Sie werden genauso moduliert wie die Tonhöhe bzw. dessen akustisches Korrelat F0. Hierin wird ein weiterer fundamentaler Unterschied zu der phonologischen Konzeption des AM-Ansatzes erkennbar. Im vorangegangenen Absatz ist angeklungen, dass sich durch die Assoziation mit der metrisch starken Silbe für den gesternten Ton eine größere Prominenz ergibt als für den ungesternten Ton. Insofern weisen auch die Zeichen im AM-Ansatz eine Beziehung zu Prominenzeigenschaften auf. Diese Prominenzeigenschaften werden jedoch völlig unabhängig von den phonologischen Tönen durch eine metrische Struktur angelegt. Die Töne werden lediglich auf diese Struktur und die damit einhergehenden Prominenzeigenschaften aufgesetzt. Dementsprechend sind die stress-Merkmale Dauer und Intensität und deren Ausprägung ausschließlich der Signalisierung der zugrundeliegenden metrischen Struktur vorbehalten, während die Formung sprechmelodischer Zeichen allein über das intonation-Merkmal F0 läuft. Eine prinzipielle Interaktion aller melodischen Parameter, wie sie für die Kodierung der Zeichen in den Ansätzen zur Kontrast-Theorie angenommen wird, ist somit im AM-Rahmen nicht vorgesehen. Dies trifft jedoch auch auf die KIM-Phonologie zu, in der die Zeichenformen ebenfalls nur über F0 gebildet werden. Letzteres weist auf einen weiteren Aspekt hin, der die Zeichenformen im Rahmen der Kontrast-Theorie gegenüber denen des KIM und AMAnsatzes kennzeichnet. Sie beziehen sich ausschließlich auf perzeptorische Größen, die entweder, wie im Falle der Prominenz, selbst ein Amalgam anderer perzeptorischer Größen sind (Tonhöhe, Länge und Lautheit), oder die, wie die Tonhöhe, monovalent sind. Diese perzeptorisch geprägten Zeichenformen sind wiederum auf Perzeptionsexperimenten basiert, in denen die sprechmelodischen Zeichen anhand ihrer (attitudinalen) Bedeutung untersucht wurden. Insofern bewegen sich die in den Ansätzen zur Kontrast-Theorie angestellten phonologischen Überlegungen ausschließlich im Rahmen der Wahrnehmung. Im KIM wurden die Zeichen zwar auf (ebenfalls bedeutungsgeleiteten) Perzeptionsexperimenten basiert, die Zeichenformen selbst allerdings wurden dann akustisch definiert. Die AM-Phonologie nimmt gar keinen Bezug auf die Perzeption. Stattdessen wird postuliert, dass die Zeichenformen direkt aus dem F0-Verlauf als
Zum Begriff Aspekte der Sprechmelodie Phonologische im Vergleich
349 349
„narrow phonetic transcription“ (Beckman 1995:453) abgelesen werden können. Das im Rahmen der Ansätze zur Kontrast-Theorie entworfene phonologische Konzept folgt somit der von Xu (2004a:91) geforderten Herangehensweise „form follows function“ und ergänzt sie um den Grundsatz form follows perception (die Vorzüge des letzteren werden in 7.2 deutlich werden). Ein weiterer Aspekt, der im Vergleich des phonologischen Rahmens in den Ansätzen zur Kontrast-Theorie mit den beiden etablierten Phonologien des KIM und des AM-Ansatzes wichtig ist, bezieht sich auf die phonologische Relevanz der Zeit und ihren Bezug zu phonetischen Größen. Im AM-Ansatz ist Zeit phonologisch bedeutungslos. Sie tritt in deskriptiver Funktion lediglich bei der nachträglichen Füllung der phonologischen Töne mit phonetischer Substanz hinzu (als sogenanntes phonetisches alignment) und beschreibt zum Beispiel die Position der F0-Zielpunkte zu den (akustischen) Grenzen der Akzentsilbe. Für das KIM hingegen ist Zeit neben dem Konturtyp (Gipfel vs. Tal) ein weiterer unmittelbar phonologisch relevanter Faktor. Die Konturtypen sind durch ihre Synchronisation zum Akzentvokalbeginn voneinander differenziert. Für die Zeichenformen in den Ansätzen zur Kontrast-Theorie spielt Zeit ebenfalls eine Rolle. Sie sind diesbezüglich daher eher mit den KIM-Zeichen vergleichbar. Auf der anderen Seite jedoch ist die Zeit in die phonologischen Formen der Kontrast-Theorie weniger direkt eingebunden als in die des KIM. Um die phonologisch relevanten Tonhöhen- und Prominenzmuster zu erhalten, ist eine Abstimmung der Tonhöhen-, Längenund Lautheitsverläufe von großer Bedeutung (die unter anderem dadurch etwas relativiert wird, dass auch noch anderes Wissen in die Prominenzkonstruktion einfließt). Dementsprechend wurde zum Beispiel die Synchronisation im Sinne des KIM in 6.1.4 als eine wichtige und effiziente Strategie dargestellt, um die zeichenspezifischen bikomponentialen Muster herzustellen. Die Synchronisationsstrategie kann beschrieben werden als eine Abstimmung der Tonhöhenverläufe auf die vorgeformten Längenund Lautheitsverläufe, die durch die Kodierung bedeutungstragender Einheiten des lautlichen Kanals ohnehin angelegt sind. Diese vorgeformten Längen- und Lautheitsverläufe können vor allem dazu ausgenutzt werden, das aus dem Tonhöhenverlauf hervorgehende Tonhöhenmuster mit einem entsprechenden Prominenzmuster zu verbinden. Vor diesem Hintergrund wird erkennbar, inwieweit die in den Ansätzen zur Kontrast-Theorie entwickelten Zeichenformen den Faktor Zeit berücksichtigen. Die vorangegangenen Ausführungen dürfen nicht dahingehend missverstanden werden, dass die im Rahmen der Ansätze zur Kontrast-Theorie entwickelten Zeichenformen ebenso wie die des KIM und AM-Ansatzes einen expliziten Bezug zu bestimmten lautlichen Einheiten wie dem
350 350
Einleitung Diskussion der Ansätze
Akzentvokal oder der Akzentsilbe herstellen. Entscheidend für die Erkennung sprechmelodischer Zeichen ist allein die richtige Kombination aus Tonhöhen- und Prominenzmuster. Es ist somit von einem theoretischen Blickwinkel aus ohne Belang, über welchen lautlichen Einheiten diese Muster stehen. Diese Unabhängigkeit von lautlichen Einheiten steht vor dem Hintergrund der Befunde aus Kapitel 4, die zeigen, dass die lautlich vorgeformten Dauer- und Intensitätseigenschaften zur Kodierung sprechmelodischer Zeichen moduliert werden und dass sich die Wahrnehmung sprechmelodischer Zeichen nicht konsistent durch eine starre Verbindung zwischen Gipfelpunkten und Laut- bzw. Silbengrenzen beschreiben lässt. Dennoch ist nicht zuletzt unter ökonomischen Gesichtspunkten davon auszugehen, dass im praktischen Sprachgebrauch trotz der genannten theoretischen Unabhängigkeit die lautlich vorgeformten Strukturen bei der Kodierung sprechmelodischer Zeichen in gewissem Maße ausgenutzt werden. In diese Richtung weisen unter anderem die Befunde von Niebuhr (2006, vgl. 6.1.4). Auch die in 3.2.1 beschriebenen anchoring-Phänomene können als eine Abstimmung der F0-Eigenschaften auf die lautlich prädeterminierten Dauer- und Intensitätsverläufe zur Erzeugung entsprechender Tonhöhen- und Prominenzmuster verstanden werden. Insofern wird im Zeichenformkonzept, das in Verbindung mit den Ansätzen zur Kontrast-Theorie entwickelt wurde, durchaus ein indirekter Bezug zu lautlichen Einheiten im allgemeinen hergestellt In diesem Zusammenhang ist ferner zu beachten, dass die Silbe nur jenseits der phonologischen Aspekte in der Konstruktion der Sprechmelodie eine Rolle spielt, indem sie als Transporteinheit für die tonalen Elemente und als Baustein für die ganzheitlichen Konstruktionseinheiten fungiert. Sie hat – anders als zum Beispiel in der AM-Phonologie – keine phonologische Relevanz. Bezüglich der ganzheitlichen sprechmelodischen Konstruktionseinheiten wurde ferner festgelegt, dass sie die Domäne sprechmelodischer Zeichen repräsentieren. Sie sind zum einen der perzeptorische Bezugsrahmen sprechmelodischer Zeichen. Neben dieser strukturellen Funktion füllen sie eine phonologische Funktion aus, indem sie die für die Dekodierung sprechmelodischer Zeichen primär relevante Phonetik enthalten. Insofern sind die Zeichengrenzen, die im Rahmen der Ansätze zur Kontrast-Theorie abgesteckt wurden, mit denen identisch, die den Zeichen in der Phonologie des KIM zugrundeliegen. Sie entsprechen einer Akzentgruppe. Das heißt, die Domäne eines sprechmelodischen Zeichens erstreckt sich von der Akzentsilbe über alle darauf folgenden unakzentuierten Silben bis hin zur nächsten Akzentsilbe (oder bis zum Ende der melodischen Phrase). Hierdurch heben sich die Zeichen in den Ansätzen zur Kontrast-Theorie und im KIM von denen der AM-Phonologie ab, die nicht lückenlos aneinander angrenzen, sondern sich auf die F0-Zielpunkte im Bereich der Ak-
Zum Begriff Aspekte der Sprechmelodie Phonologische im Vergleich
351 351
zentsilbe beschränken, mit der die jeweiligen Tonakzente phonologisch assoziiert sind. Zwar wurde auch in den Ansätzen zur Kontrast-Theorie darauf hingewiesen, dass nicht der gesamte phonetische Inhalt der Konstruktionseinheiten sprechmelodischer Zeichen auch immer für die Identifikation von Zeichen unmittelbar relevant ist. In der AM-Phonologie befindet sich jedoch zwischen den Tönen zweier Tonakzente nicht nur ein phonologisches, sondern auch ein strukturelles Vakuum. Das heißt, die Phonetik zwischen zwei Tonakzenten ist nicht nur für die Identifikation von Zeichen bedeutungslos, sie ist darüber hinaus keiner strukturellen Einheit zugeordnet. Die angesprochene Kopplung der sprechmelodischen Zeichen an die Akzentsilben ist allerdings allen drei Ansätzen gemeinsam (hierauf basierend wurde der Begriff des Akzentes und der Akzentsilbe in 1.2.3 auch eingeführt, vgl. auch 2.3 und 2.4). Das heißt zum einen, innerhalb einer melodischen Phrase kann die Anzahl an in sprechmelodischen Zeichen kodierten attitudinalen Bedeutungen nicht größer sein als die Anzahl an Hervorhebungen. Zum anderen ist die durch die Hervorhebung etablierte Gliederung somit maßgeblich für die Gliederung der sprechmelodischen Zeichen. Von einem informationalen Standpunkt aus betrachtet ist diese Parallelität nachvollziehbar. Im Rahmen von 6.1.4 wurde erläutert, dass die Kernfunktion der Hervorhebung darin besteht, Informationsschwerpunkte innerhalb einer melodischen Phrase zu kennzeichnen. Diese Schwerpunkte wurden auf Einheiten des lautlichen Kanals (Morpheme) bezogen. Vor einem allgemeinen kommunikativen Hintergrund repräsentieren die durch die sprechmelodischen Zeichen kodierten attitudinalen Bedeutungen aber ohne Zweifel ebenfalls wichtige Informationen. Zudem beziehen sich diese Informationen auf die damit (zeitlich) zusammenfallenden Informationen des lautlichen Kanals und werden in Abhängigkeit von ihnen interpretiert. Es erscheint daher sinnvoll, dass die sprechmelodischen Zeichen zum einen ebenfalls als Informationsschwerpunkte gekennzeichnet werden und dass diese Kennzeichnung zum anderen mit den Informationen des lautlichen Kanals parallel läuft, auf die sich die Zeichen beziehen. Darüber hinaus ist nach Ladd (1996:50) auch zu berücksichtigen, dass „general conditions of prosodic well-formedness stipulate that pitch accents must occur with prominent stressed syllables“. Die strukturelle und inhaltliche Bindung der sprechmelodischen Zeichen an Hervorhebung bedeutet im Umkehrschluss aber nicht, dass Hervorhebung auch zwangsläufig an sprechmelodische Zeichen gebunden ist. So hat sich zum Beispiel in der praktischen Anwendung des Kieler Intonationsmodells auf Sprachdaten an vielen Stellen das Problem ergeben, dass Silben mit Prominenzspitzen keiner der postulierten Gipfel- und Talkonturen zugeordnet werden konnten, da sie keine (eigenständigen) tona-
352 352
Einleitung Diskussion der Ansätze
len Bewegungen besitzen. Vor diesem Hintergrund wurden im KIM-basierten Etikettiersystem PROLAB die sogenannten Minuskonturen eingeführt (vgl. Kohler 1997; Peters und Kohler 2004). Diese Lösung kann als ein Resultat des Systemzwangs angesehen werden, dass jeder perzeptorisch hervortretenden Silbe eine tonale Kontur zugeordnet werden muss. Es ist zu prüfen, ob dieses theoretische Diktum adäquat ist, oder ob die Minuskontur nicht besser zugunsten einer prominenten Silbe ohne jegliches sprechmelodische Zeichen aufzugeben ist, die dann per definitionem auch keine Akzentsilbe mehr ist (vgl. 1.2.3), sondern eine Hervorhebungssilbe. Dafür muss geklärt werden, ob Minuskonturen eine eigenständige und homogene Bedeutung aufweisen. Bislang gibt es hierfür keine Evidenz. Während der Status der Minuskonturen strittig ist, hat die neuere Forschung zur emphatischen Hervorhebung hingegen klar gezeigt, dass eine negative Verstärkung der betreffenden Wortbedeutungen in einer Weise erfolgen kann, die statt auf melodischen auf nicht-melodischen Merkmalen fußt (vgl. Kohler 2006b; Kohler und Niebuhr 2007). Solche negativen Emphasen (bei Kohler 2006b auch als force accent bezeichnet) müssen nicht mit sprechmelodischen Zeichen einhergehen. Zum Teil bieten sie aufgrund der in weiten Bereichen fehlenden Stimmhaftigkeit auch gar nicht die phonetische Grundlage für die Kodierung sprechmelodischen Zeichen. Abschließend ist im Zusammenhang mit der Hervorhebung und der dahinterstehenden Größe der Prominenz auf Folgendes hinzuweisen. Die Ansätze zur Kontrast-Theorie betrachten Prominenz als ein Konstrukt, das durch Wissen zustande kommt. Im Kern bedeutet dies, dass die perzeptorischen Größen Tonhöhe, Länge und Lautheit auf Basis von Kontrasten durch sprachspezifisches Wissen in Prominenz umgesetzt werden. Hieraus wird erkennbar, dass die Ansätze zur Kontrast-Theorie hinsichtlich der Differenzierung zwischen prominence-lending und prominence-cueing (vgl. Ladd 1996 und Fußnote 7 in 2.4.1) eine Mittelstellung einnehmen. Im KIM wird eine direkte Verbindung zwischen den (genannten) perzeptorischen Größen bzw. deren akustischen Korrelaten und der Prominenz hergestellt. Die Größen sind somit prominence-lending. Im AM-Ansatz hingegen fungieren stress in Form von Dauer und Intensität bzw. Länge und Lautheit sowie intonation, die durch F0 bzw. Tonhöhe repräsentiert wird, lediglich als phonetische Indikatoren, um die abstrakte Gewichtung einer Silbe anzuzeigen, die sie unabhängig von der Phonetik aufgrund ihrer Einbettung in eine metrische Struktur besitzt. Das Anzeigen eines hohen metrischen Gewichtes löst beim Hörer eine Prominenzwahrnehmung aus. Darüber hinaus besteht jedoch keine Verbindung zwischen phonetischen Größen und Prominenz. Die phonetischen Größen sind demzufolge lediglich als prominence-cueing zu charakterisieren. In den Ansätzen zur
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
353 353
Kontrast-Theorie wird zwar ähnlich wie im KIM eine Verbindung zwischen phonetischen Größen und Prominenzwahrnehmung hergestellt. Allerdings ist diese nicht direkter Natur, sondern läuft über das Filter von top-down Wissen. Zudem ist sie nicht der einzige Faktor, der das Prominenzperzept bestimmt.
7.2 Die Stärken und Schwächen der Ansätze zur Kontrast-Theorie 7.2.1 Die Stärken der Ansätze zur Kontrast-Theorie In Abschnitt 1.1 wurde das Problem der Bestimmung der phonologischen Form von bedeutungstragenden sprachlichen Einheiten wie sprechmelodischen Zeichen auf Basis ihrer akustischen Manifestation mit der Aufgabe eines Betrachters verglichen, der von oben auf die Wasseroberfläche blickt und von dort aus eine unbekannte Anzahl neuer Fischarten klassifizieren soll. Selbst wenn sich die Fische selbst nicht bewegen, lassen wellenbedingte Krümmungen auf der Wasseroberfläche immer wieder neue Formen für dieselben zugrundeliegenden Fische entstehen. Dieser Vergleich war vor allem darauf gerichtet, dass sprachlich kodierte Informationen im Rahmen ihrer Übertragung mehrfach verfälscht werden. So treten beispielsweise außersprachliche Merkmale wie Alter und Geschlecht des Sprechers hinzu und im Rahmen der Transmission vom Sprecher zum Hörer überlagert sich der Sprachschall mit Reflexionen seiner selbst und mit anderen akustischen Signalen. Die in der vorliegenden Arbeit zusammengestellten und neu hinzugewonnenen Erkenntnisse fügen dem skizzierten Problem der Bestimmung der phonologischen Form sprechmelodischer Zeichen noch weitere Facetten hinzu. So hat die Entwicklung der Ansätze zur Kontrast-Theorie anhand von empirischen Befunden und theoretischen Konzepten klar herausgestellt, dass Wahrnehmung nicht die bloße Überführung eines distalen Reizes – in diesem Fall das akustische Sprachsignal – in eine perzeptorische Repräsentation bedeutet. Wahrnehmung umfasst vielmehr auf multiplen Ebenen der Reizverarbeitung Konstruktion. Hierzu zählt beispielsweise die Konstruktion von Tonhöhe auf Basis einer Musterinterpretation der unteren Harmonischen des Spektrums, die Konstruktion von Silben und die Konstruktion von tonalen Elementen anhand der zuvor aus dem F0-Verlauf heraus wiederum konstruierten stationären Tonhöhen und Tonhöhenbewegungen innerhalb der Silben. Des weiteren ist die Konstruktion von Prominenz zu nennen, die sowohl permanentes sprachspezifisches Wissen mit einbezieht als auch zeitgebundene kontextbasierte
354 354
Einleitung Diskussion der Ansätze
Erwartungen berücksichtigt. Letztlich werden auch durch die Gruppierung von Wahrnehmungselementen größere melodische Konstruktionseinheiten geschaffen und vor dem Hintergrund eines sich über die Zeit hinweg entwickelnden Kontextes reorganisiert. Die vorangehende Aufzählung, die nur einen Ausschnitt aus den Konstruktionsleistungen abdeckt, die im Rahmen der Wahrnehmung der Sprechmelodie stattfinden müssen, verdeutlicht Folgendes. Die im Rahmen der Perzeption verarbeiteten Reize weisen Eigenschaften auf, die im akustischen Signal selbst überhaupt nicht angelegt sind oder aber zumindest daraus nicht unmittelbar hervorgehen, die jedoch für die Identifikation sprechmelodischer Zeichen von großer Wichtigkeit sein müssen. Wie soll es vor diesem Hintergrund möglich sein, eine akustisch basierte Phonologie – das heißt eine umfassende Konzeption über die (De-)Kodierung der sprechmelodischen Zeichen – herzustellen? Dass dies nicht gelingen kann, wird auch dadurch offenkundig, dass sich seitens der Akustik nicht nur einzelne (und lokale) F0-Eigenschaften als relevant für die Wahrnehmung der sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET herausgestellt haben, wie es in den Zeichenformen des KIM und des AM-Ansatzes angenommen wird. Nach den Erkenntnissen aus Teil (A) der Arbeit ist vielmehr ein breites Spektrum (globaler) F0-Eigenschaften wie etwa die Gipfelsynchronisation sowie die Gipfelgestalt und -höhe in die Wahrnehmung der genannten Zeichen involviert, und darüber hinaus spielen hierbei auch Dauer- und Intensitätseigenschaften eine Rolle. Um dieses komplexe multifaktorielle Bild, das sich aus der experimentellen Forschung ergeben hat und innerhalb dessen selbst die einzelnen Faktoren in unterschiedlicher Weise in die Dekodierung der sprechmelodischen Zeichen eingebunden sind, in eine phonologische Form zu gießen, muss verstanden werden, in welcher Beziehung die einzelnen Faktoren zueinander stehen. Diese Beziehungen unmittelbar aus akustischen Beobachtungen heraus zu deduzieren erscheint ebenso problembehaftet wie sie aus anderen Quellen herzuleiten und dann in eine akustische Darstellung zu integrieren. Die Ansätze zur Kontrast-Theorie und die hiermit verbundenen phonologischen Aspekte stellen nun einen ersten Schritt dar, der Kritik in den vorangegangenen Ausführungen zu begegnen. So wurde erstens vor dem Hintergrund allgemeiner Wahrnehmungsmechanismen, von denen bekannt ist, dass sie modalitätsübergreifend bei der Entstehung von Perzepten zur Anwendung kommen, ein Konzept für die Wahrnehmung der Sprechmelodie entworfen. Aus diesem Konzept geht unter anderem hervor, welche Konstruktionseinheiten im Rahmen der Perzeption entstehen, welche perzeptorischen Größen in der Sprechmelodie zu berücksichtigen sind und wie diese Einheiten und Größen miteinander zusammenhängen.
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
355 355
Dadurch wird ein Rahmen für die Identifikation sprechmelodischer Zeichen vorgegeben. In einem anschließenden Schritt wurden die empirischen Erkenntnisse zur Wahrnehmung der sprechmelodischen Zeichen in das perzeptorische Konzept eingebunden. Auf diese Weise haben sich perzeptorische Zeichenformen für GEGEBEN, NEU und UNERWARTET herauskristallisiert, die im Gegensatz zu den akustischen Zeichenformen des KIM und des AM-Ansatzes im Einklang mit den vorliegenden experimentellen Erkenntnissen stehen. Ferner konvergieren die Ansätze zur Kontrast-Theorie bzw. die daraus hervorgegangenen Zeichenformen die komplexen Einflüsse von F0Gipfeleigenschaften sowie von Dauer und Intensität bei der Wahrnehmung von GEGEBEN, NEU und UNERWARTET auf zwei einfache perzeptorische Größen, Tonhöhe und Prominenz. Neben der damit verbundenen Transparenz wird so gleichzeitig die Grundlage dafür gelegt, auf akustischer Seite das Zusammenspiel von F0, Dauer und Intensität im Sinne der trading relations von Repp (1982) zu verstehen und zu untersuchen (vgl. u.a. 3.2). Dabei ist zu berücksichtigen, dass solche trading relations zum einen innerhalb der Prominenz als einer Komponente in den phonologischen Formen sprechmelodischer Zeichen eine Rolle spielen. Darüber hinaus werden sie jedoch auch zwischen den beiden Komponenten der bikomponentialen Zeichenformen, Tonhöhe und Prominenz, auftreten45. Durch die genannte bikomponentiale Konzeption wird es darüber hinaus grundsätzlich möglich, dass Tonhöhen- und Prominenzmuster jeweils auf andere Zeichen hinweisen können46. So erklären sich zum Beispiel perzeptorische Phänomene zu experimentell manipulierten Stimuli, bei denen der Hörer insgesamt unsicher ist, welches Zeichen er hört und jeweils ein anderes Perzept dominiert, je nachdem, ob er das Tonhöhen- oder Prominenzmuster fokussiert. Derartige Phänomene beziehen sich bislang vor allem auf den eigenen Wahrnehmungseindruck im Umgang mit den zu Teil (A) generierten Stimuli, doch auch in impressionistischen Beschreibungen, die geschulte Hörer im Anschluss an die durchgeführten Perzeptionsexperimente gegeben haben, klingen ähnliche Eindrücke an (letztlich spiegeln sie sich auch in den experimentellen Ergebnissen wider, vgl. 6.6). Angesichts der in 1.1 formulierten Zielsetzung der vorliegenden Arbeit sind in dem phonologischen Erkenntnisgewinn, der an die Ansätze _____________ 45
Dabei dürfen auch die gleichzeitige Kodierung der Hervorhebung über Prominenzeigenschaften und die damit verbundenen Wechselwirkungen mit den sprechmelodischen Zeichen nicht aus den Augen verloren werden.
46
Eine solche gegenläufige Zusammenstellung beider Mustertypen wird sicherlich weniger in der Kommunikation zwischen Muttersprachlern als vielmehr in künstlichen geschaffenen experimentellen Situationen oder höchstens noch im Gespräch mit Nicht-Muttersprachlern auftreten)
356 356
Einleitung Diskussion der Ansätze
zur Kontrast-Theorie geknüpft ist, sowie in dem damit einhergehenden weiterführenden Erkenntnis- und Erklärungspotential die größten Stärken der Ansätze zur Kontrast-Theorie zu sehen. Neben diesen phonologisch geprägten Gesichtspunkten kann mit Hilfe der Ansätze zur KontrastTheorie zudem eine Reihe perzeptorischer Phänomene nachvollzogen werden. Hierin liegen weitere Stärken, die sich auf die theoretischen Ansätze selbst beziehen. Einige dieser perzeptorischen Phänomene wurden zuvor bereits genannt. Hierzu gehört beispielsweise das Phänomen einer zeichenspezifischen Prominenz der Akzentsilbe, die im Rahmen der Ansätze zur Kontrast-Theorie über die unterschiedliche Anzahl der tonalen Elemente innerhalb der Akzentsilbe zustandekommt (vgl. 6.6.4). Ein weiteres Beispiel ist der rückwirkende Effekt, der bei der Konkatenation sprechmelodischer Zeichen feststellbar ist und bei dem die Art der Konkatenation (in Form von Variationen in der Tiefe und Dynamik der F0-Einbuchtung zwischen den F0-Gipfeln beider Zeichen) die Prominenz der Akzentsilbe des ersten Zeichens beeinflusst (vgl. 6.5). Dieser Effekt wird von der Kontrast-Theorie über die rückwärtsgerichtete Kontrastbildung und -verstärkung zwischen den tonalen Elementen und den damit einhergehenden neu konstruierten Prominenzen abgedeckt. Darüber hinaus stehen die folgenden Phänomene im Einklang mit den Ansätzen zur Kontrast-Theorie. Kurze Äußerungen wie „Sie“ oder „Ja“ werden in der Regel als eine Silbe mit einem Zeichen gehört (vgl. 6.6.4). Stilisierte Konturen, die sich in der Regel als zwei scharf voneinander getrennte F0- bzw. Tonhöhenplateaus manifestieren (vgl. Ladd 1996), können jedoch ebenso wie besonders umfangreiche oder komplexe Tonhöhenbewegungen für „Sie“ und „Ja“ den Eindruck (mindestens) zweier Silben mit jeweils einem sprechmelodischen Zeichen entstehen lassen. Gemäß der Kontrast-Theorie liegt die Ursache dieses Phänomens darin, dass die Bildung bzw. Separierung von melodischen Konstruktionseinheiten anhand des übergeordneten Gestaltgesetzes der Prägnanz stattfindet, das auf der Silbenprominenz operiert und dafür sorgt, dass eine melodische Konstruktionseinheit nur eine einzige Prominenzspitze (am Kopf der Einheit) enthält. Stilisierte Konturen können jedoch ebenso wie besonders umfangreiche oder komplexe Tonhöhenbewegungen zwei (oder mehr) gleichwertige Prominenzspitzen entstehen lassen und so dazu führen, dass zwei (oder mehr) Konstruktionseinheiten und damit letztlich auch zwei (oder mehr) Silben erzeugt und perzipiert werden. Des weiteren erscheint im Licht der Ansätze zur Kontrast-Theorie nachvollziehbar, warum das Auftreten eines stress-clash bzw. accent-clash (vgl. Fox 2000), bei dem zwei Akzentsilben unmittelbar aufeinanderfolgen, in der Sprache vermieden wird. Gemäß der Kontrast-Theorie basiert Promi-
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
357 357
nenz in erster Linie auf Kontrasten. Vereinfacht gesagt heißt dies, dass für eine hohe perzeptorische Prominenz große Unterschiede bestimmter (sprachspezifischer) Art in den akustischen bzw. perzeptorischen Parametern gegeben sein müssen. Die Konkatenation von phonetisch entsprechend ausgeprägten Akzentsilben lässt nun jedoch gerade einen Kontext entstehen, in dem Unterschiede stark eingeebnet werden und der insofern keine geeignete Grundlage für die Wahrnehmung von hoher Prominenz darstellt. Wenn diese Überlegungen zutreffen und die postulierte kontrastbasierte Konstruktion von Prominenzen valide ist, dann könnte in Analogie zur Funktionsweise des Kontrastes in der visuellen Wahrnehmung dem geschilderten Problem allein dadurch entgegengewirkt werden, dass die Zeitspanne zwischen den kontrastierten Elementen zum Beispiel durch Einfügen von stillen Intervallen vergrößert wird, ohne dabei die den Kontrasten zugrundeliegende Äußerungsphonetik zu verändern. Diese theoretisch hergeleitete Maßnahme steht im Einklang mit dem tatsächlich Verhalten der Sprecher in Fällen von stress-clash, wie es unter anderem für das Französische und Holländische von Martin (2002) sowie Helsloot und Streefkerk (1998) berichtet wird. Bezüglich der Prominenz wurde in den Ansätzen zur Kontrast-Theorie ferner ausgeführt, dass in das Prominenzperzept auch verschiedene Arten von Wissen eingehen, zum Beispiel das auf kontextbasierte Erwartungshaltungen zurückgehende rhythmische Wissen. Auf diese Weise kann zum Beispiel die Entstehung von „Geisterakzenten“ mit entsprechender Wahrnehmung sprechmelodischer Zeichen nachvollzogen werden, die insbesondere in solchen Äußerungsabschnitten auftreten, in denen seitens der akustischen bzw. der daraus gebildeten perzeptorischen Parameter über einen größeren Zeitraum hinweg keine klare Prominenzstruktur angelegt ist, und die verschwinden oder sich verschieben, wenn man sich diese Abschnitte getrennt vom angrenzenden Äußerungskontext anhört. Abschließend ist es allgemein betrachtet leicht einzusehen, dass eine Struktur tendenziell umso eindeutiger wird, je mehr Elemente in sie eingehen. Bezogen auf die Prominenzstruktur und die Ansätze zur KontrastTheorie bedeutet dies, dass das Perzept hinsichtlich der Wahrnehmung von Akzentsilben und sprechmelodischen Zeichen mit zunehmender Äußerungslänge tendenziell stabiler wird. Es fällt dem Hörer zum Beispiel schwerer, zwischen alternativen Akzentuierungswahrnehmungen hin und her zu wechseln. Dies deckt sich mit meinen eigenen Erfahrungen zur Wahrnehmung der Sprechmelodie. Überdies ist der skizzierte Zusammenhang zwischen Stimuluslänge und perzeptorischer Stabilität ein aus der musikalischen Forschung bekanntes und experimentell belegtes Phäno-
358 358
Einleitung Diskussion der Ansätze
men (vgl. Handel 1986). In den Ansätzen zur Kontrast-Theorie wird dieser Zusammenhang noch dadurch unterstützt, dass Kontrastbildungen und -verstärkungen als Basis für Prominenzkonstruktionen und -modifikationen nur innerhalb der durch die Gruppierung von Silben erzeugten melodischen Konstruktionseinheiten zugelassen werden. Die im letztgenannten Aspekt anklingenden Konstruktionsschleifen, die dem Perzept eine kontextgeleitete Dynamik verleihen, sind generell eine der Stärken in den Ansätzen zur Kontrast-Theorie, ebenso wie der Umstand, dass auch alle weiteren prozessoralen Säulen der Theorie –Kontrast, Gestaltgesetze und Wissen – modalitätsübergreifend als etablierte grundlegende Mechanismen der Wahrnehmung angesehen werden können. 7.2.2 Die Schwächen der Ansätze zur Kontrast-Theorie Die kritischen Anmerkungen zu den Ansätzen zur Kontrast-Theorie beziehen sich in erster Linie nicht auf die in 7.2.1 fokussierten phonologischen Aspekte, sondern auf die Postulate der theoretischen Ansätze selbst. Ein zentraler Kritikpunkt hierbei ist, dass die theoretischen Ansätze an vielen Stellen spekulationsbehaftet sind. Das aufgestellte theoretische Gerüst wird lediglich zu einem Teil durch experimentelle Befunde gestützt, und innerhalb dieses Teils bezieht sich wiederum nur ein kleiner Teil auf direkt relevante Experimente mit sprachlichen oder sprachnahen Stimuli. Viele der Postulate innerhalb des theoretischen Gerüstes, die auf experimentelle Befunde rekurrieren, basieren entweder auf Analogieschlüssen zu Erkenntnissen aus der visuellen Wahrnehmung oder aus der Wahrnehmung musikalischer oder allgemein psychoakustischer Stimuli. Neben dem experimentellen Teil geht ein weiterer Teil des Gerüstes auf impressionistische Beschreibungen und dazugehörige Illustrationen aus der Literatur sowie auf den eigenen geschulten Gehörseindruck zurück. Aus den genannten verschiedenen Quellen wurde eine Argumentation abgeleitet, die insgesamt gesehen zwar plausibel und in sich geschlossen, aber nicht zwingend ist. Die folgenden Postulate werden bislang durch Experimente mit sprachlichen oder sprachnahen Stimuli direkt untermauert: F0-Verläufe werden in spektral stabilen Abschnitten (mit bestimmter Mindestdauer) als Tonhöhenbewegungen und in spektral dynamischen Abschnitten als stationäre Tonhöhen konstruiert. Die Silbe bzw. Silbigkeit ist ebenso wie Prominenz ein Konstrukt der Wahrnehmung. Im Rahmen der Prominenzkonstruktion spielen verschiedene Arten von top-down Wissen eine Rolle, darunter sprachspezifische Beziehungen zwischen Veränderungen in der Tonhöhe, Länge und Lautheit auf der einen und Prominenz auf der
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
359 359
anderen Seite sowie rhythmisches und lexikalisches Wissen. Die Wahrnehmung der attitudinalen Bedeutung sprechmelodischer Zeichen wird ebenso wie die der Hervorhebung nicht nur durch Tonhöhe, sondern darüber hinaus auch durch Länge und Lauheit beeinflusst. Entsprechend ist für die attitudinalen Bedeutungen auch die perzeptorische Größe der Prominenz relevant, die sich zeichenspezifisch ausprägt. Letztlich ist experimentell belegt, dass die drei prozessoralen Säulen in den Ansätzen zur KontrastTheorie, (höhere syntagmatische) Kontrastbildung, Gestaltgesetze und Wissen, grundsätzlich in die Sprachwahrnehmung involviert sind und dass in der Sprachwahrnehmung Phänomene existieren, die als eine Aktualisierung von Perzepten im Rahmen von Konstruktionsschleifen aufgefasst werden können. Zentrale Bausteine in der Konstruktion der Sprechmelodie wie die tonalen Elemente und die Relation zwischen den lokalen Prominenzen dieser Elemente und den globalen Prominenzen der Silben basieren bislang hingegen primär auf Beobachtungen geschulter Hörer. Die beschriebene spezifische Funktionsweise der drei prozessoralen Komponenten Kontrast, Gestaltgesetze und Wissen – und damit letztlich die gesamte Entstehung des sprechmelodischen Perzeptes – beruht auf Analogieschlüssen zu (experimentell gefundenen) Phänomenen aus der visuellen Wahrnehmung und anderen auditiven Wahrnehmungsbereichen. Dabei wurden ferner Eigenschaften des Sprachkodes bzw. -signals berücksichtigt. Im Zusammenhang mit letzterem ist allerdings zu betonen, dass eine Vorgehensweise, bei der Postulate für einen bestimmten Wahrnehmungsbereich wie der Wahrnehmung der Sprechmelodie auf Analogien zu visuellen oder nicht-sprachlichen auditiven Wahrnehmungsphänomenen fundiert werden, grundsätzlich nicht ungerechtfertigt ist. In der perzeptorisch ausgerichteten Literatur wird übereinstimmend darauf hingewiesen, dass die Wahrnehmung eingehende Reize modalitätsübergreifend in ähnlicher Weise verarbeitet, was unter anderem darauf zurückgeführt werden kann, dass die Reize modalitätsübergreifend ähnliche Anforderungen an den Wahrnehmungsapparat stellen, zum Beispiel wenn es darum geht, sie auf Entitäten zu projizieren (vgl. Goldstein 2002; Handel 1986; Julesz und Hirsh 1972). Im fünften Kapitel wurde dies detailliert ausgeführt. Für einen ersten theoretischen Entwurf zu den perzeptorischen Abläufen in einem Wahrnehmungsbereich, wie er in Form der Ansätze zur KontrastTheorie nun vorliegt, ist es daher nicht nur sinnvoll, derartige Analogien zu sehen und in angemessener Weise einzubeziehen, es ist sogar essentiell. Ebenso essentiell ist es jedoch, in darauf folgenden Forschungsschritten die so gewonnenen Postulate experimentell zu evaluieren. Im Rahmen der Ansätze zur Kontrast-Theorie bedeutet dies zum Beispiel, dass die skizzierte prozessorale Zusammenarbeit von höheren Kontrastmechanismen,
360 360
Einleitung Diskussion der Ansätze
Gestaltgesetzen und top-down Wissen sowie die daraus resultierenden Aktualisierungen von Perzepten durch gezielte Perzeptionsexperimente überprüft werden müssen. Gleiches gilt für die genaue Funktionsweise, nach denen die einzelnen prozessoralen Komponenten arbeiten sollen. Auf diese weiterführenden Forschungsperspektiven wird in 8.2 näher eingegangen. In diesem Sinne sind die gezogenen Analogien nicht das Ende eines theoretischen Entwurfs. Sie sind vielmehr ein notwendiger initialer Schritt, der es erlaubt, überhaupt zu experimentell prüfbaren Hypothesen zu gelangen. Die Ansätze zur Kontrast-Theorie sind dementsprechend vor allem als eine Plattform aufzufassen, von der aus die Erforschung der sprechmelodischen Wahrnehmung stattfinden kann. Es ist somit zu diesem Zeitpunkt noch nicht der Anspruch der Ansätze zur KontrastTheorie, rigide Erklärungen zu phänomenalen Beobachtungen zu geben, sondern Wege zu diesen Erklärungen aufzuzeigen. Die vorangegangenen kritischen Anmerkungen haben auf die Validität der Postulate in den Ansätzen zur Kontrast-Theorie abgehoben. Daneben ist des weiteren herauszustellen, dass die Ansätze zur Kontrast-Theorie auch noch keinen vollständigen Entwurf für die Wahrnehmung der Sprechmelodie darstellen. Dies soll an zwei Aspekten verdeutlicht werden. Erstens ist bezüglich der Ausprägung von Tonhöhe, Länge und Lautheit zu berücksichtigen, dass diese Größen perzeptorisch miteinander interagieren können und dass zudem sogenannte intrinsische Variationen, die für jede Größe auf akustischer Ebene feststellbar sind, perzeptorisch (teilweise) kompensiert werden. Was die Interaktion von Tonhöhe, Länge und Lautheit anlangt, so geht aus Perzeptionsexperimenten von Lehiste (1976) beispielsweise eine Beeinflussung der Länge durch die Tonhöhe hervor. Lehiste synthetisiert steigend-fallende und fallend-steigende F0-Bewegungen mit unterschiedlichem Umfang und von unterschiedlicher Dauer über dem spektral stabilen offenen Vokal [a]. Hörer erhielten die Aufgabe, diese Stimuli bezüglich ihrer Dauer mit einem weiteren [a] zu vergleichen, das physikalisch die jeweils gleiche Dauer aufwies, aber über dem ein ebener F0-Verlauf generiert wurde. Lehiste findet signifikante Effekte, aus denen sie schließt „a changing fundamental frequency pattern has a strong influence on the listener’s perception of duration“ (Lehiste 1976:116). Ferner weist Lehiste darauf hin, dass es vor allem der Unterschied zwischen einer F0-Bewegung und einem ebenen F0-Verlauf ist, der Auswirkungen auf die perzipierte Dauer (also die Länge) des [a] hat, weniger der Umfang oder die Richtung dieser Bewegung. Van Dommelen (1995) zeigt ähnliche tonal bedingte Längungseffekte in mehr sprachlich orientierten Stimuli zum Norwegischen auf. Neben dem Einfluss der Tonhöhe auf die Länge weisen verschiedene Un-
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
361 361
tersuchungen anhand psychoakustischer Stimuli auf einen Zusammenhang von Lautheit und Tonhöhe hin. Dabei führt eine Veränderung der Lautheit zu zum Teil deutlichen Veränderungen in der Tonhöhe. Die Richtung und das Ausmaß dieser Veränderungen variieren jedoch stark zwischen den einzelnen Hörern und in Abhängigkeit von dem zugrundeliegenden (Grund-)Frequenzwert. Rossing und Houtsma (1986) geben im Rahmen ihrer Studie hierzu einen Forschungsüberblick. Letztlich zeigen experimentelle Untersuchungen, dass eine Verbindung zwischen Länge und Lautheit besteht. Dabei nimmt die Lautheit eines Stimulus zusammen mit seiner Länge innerhalb eines bestimmten zeitlichen Intervalls zu und ab (vgl. hierzu Zwislocki 1969; Lehiste 1970; Moore 1997). Die beschriebenen Beeinflussungen sind in Abbildung 63(a) zusammengefasst dargestellt.
Abbildung 63: (a): Schematische Darstellung der Interaktionen der drei perzeptorischen Größen Tonhöhe, Länge und Lautheit; (b): die durch hellgraue Pfeile indizierten Interaktionen aus (a) sind auf (maßstabsfreie) prozessorale Verläufe projiziert, die von den akustischen zu den perzeptorischen Größen führen. Die unterschiedlichen Ausgangspunkte der hellgrauen Pfeile tragen der Vermutung Rechnung, dass die Einflüsse auf unterschiedlichen Verarbeitungsniveaus angesiedelt werden können.
Was die perzeptorische Kompensation intrinsischer Variation betrifft, ist zunächst festzuhalten, dass die akustische Ausprägung aller drei melodischen Größen, F0, Dauer und Intensität durch die artikulatorischen Abläufe des segmentellen Kanals modifiziert wird. Die Zungenhöhe bei der Artikulation beeinflusst die Spannungsverhältnisse im Kehlkopf und wirkt so auf die Grundfrequenz ein (vgl. Ohala 1973; Ewan 1975). Entsprechend finden sich zum Beispiel für unterschiedliche Vokalqualitäten, insbesondere für [a] gegenüber [i] und [u], systematische und sprachübergreifend vergleichbare Einflüsse auf F0 (vgl. Peterson und Barney 1952; Lehiste und Peterson 1961; Antoniadis und Strube 1981). Die vokalspezifischen Beiträge zum F0 werden als intrinsisches F0 bezeichnet. Physiologische Beschränkungen in der Dynamik der Artikulatoren führen des weiteren dazu, dass unterschiedliche Dauern erforderlich sind, um vokalspezifische Öffnungsgrade zu erreichen. Es ist über verschiedene Spra-
362 362
Einleitung Diskussion der Ansätze
chen hinweg gut dokumentiert, dass offene Vokale wie [a] unter sonst gleichen kontextuellen Bedingungen eine größere (intrinsische) Dauer aufweisen als geschlossene Vokale wie [i] und [u] (vgl. Lehiste 1970; Simpson 1998). Letztlich ist mit unterschiedlichen Öffnungsgraden des Ansatzrohres eine Variation in der Abstrahlöffnung und somit eine Variation in der Signalintensität verbunden. Auch diese intrinsischen Intensitätsunterschiede prägen sich sprachübergreifend in vergleichbarer Weise aus (vgl. Lehiste und Peterson 1959; Ladefoged 1967). In einer Reihe von Perzeptionsexperimenten wurde untersucht, inwieweit diese intrinsischen Einflüsse im Rahmen der Sprachwahrnehmung eine Rolle spielen. Besonderes Interesse galt der Frage, in welcher Weise sie mit der Dekodierung der bedeutungstragenden Einheiten interagieren. Die Ergebnisse vieler Experimente legen nahe, dass die intrinsische Variation innerhalb der drei genanten Größen von der auditiven Wahrnehmung „herausgerechnet“ wird und somit in das endgültige, Tonhöhen-, Längenund Lautheitsperzept nicht einfließt. Lehiste (1970:118) verwendet in diesem Zusammenhang den Terminus „correction factors“. Lehiste und Peterson (1959) sowie Ladefoged (1967) zeigen eine solche perzeptorische Kompensation für den Bereich der Intensität bzw. der Lautheit, Gussenhoven (2004) zieht eine entsprechende Schlussfolgerung für den Bereich der Dauer bzw. der Länge, und unter anderem Chuang und Wang (1978), Rosenvold (1981), Stoll (1984), Fowler und Brown (1997), Niebuhr (2004) sowie Pape et al. (2005) weisen eine (zumindest teilweise) Kompensation des intrinsischen F0 in der Wahrnehmung der Tonhöhe nach. Angesichts dieser (partitiellen) perzeptorischen Kompensationen und der davor skizzierten Interaktionen der melodischen Größen Tonhöhe, Länge und Lautheit erhebt sich die Frage nach der Einordnung dieser Phänomene in den Konstruktionsprozess der Sprechmelodie. Dies ist insbesondere vor dem Hintergrund relevant, dass am Ausgangspunkt der Verarbeitung der Sprechmelodie in den Ansätzen zur Kontrast-Theorie die Kontrastbildung und -verstärkung innerhalb der melodischen Größen steht. Läuft diese also bereits über die modifizierten Werte ab oder findet die Modifikation erst im Anschluss statt, und inwieweit wirkt sie sich dann auf die Prominenzkonstruktion aus? Diesen Fragenkomplex lassen die Ansätze zur Kontrast-Theorie bislang unberücksichtigt. Er muss im weiteren Voranschreiten der Forschung einbezogen werden. Diesbezüglich kann bereits an dieser Stelle darauf hingewiesen werden, dass es auf den skizzierten Fragekomplex keine einheitliche Antwort geben wird. Es ist zum Beispiel davon auszugehen, dass den Interaktionen zwischen Tonhöhe, Länge und Lautheit unterschiedliche Mechanismen zugrundeliegen und sie demzufolge auf verschiedenen Stufen in den Wahrnehmungsprozesses eingeordnet werden können. So wird der Ein-
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
363 363
fluss der Länge auf die Lautheit damit begründet, dass Lautheitswahrnehmung auf einer temporalen Integration des akustischen Signals beruht (vgl. Lehiste 1970; Moore 1997). Ein solcher fundamentaler Prozess muss sehr früh in der bottom-up Signalverarbeitung angesiedelt werden. Demgegenüber ist die Ursache für die Interaktion von Tonhöhenbewegungen und Länge weniger gut erforscht. Van Dommelen (1995) stellt auf Basis seiner Daten aber die Möglichkeit heraus, dass dieser Einfluss nicht rein psychoakustischer Natur ist, sondern sich sprachspezifisch ausprägt. Die Einbindung in sprachliche Strukturen spräche besonders dafür, dass die Beeinflussung von Länge durch Tonhöhenbewegungen auf einem höheren Verarbeitungsniveau eingeordnet werden muss. Die Abbildung 63(b) trägt den skizzierten Überlegungen Rechnung. Sie projiziert die in Abbildung 63(a) eingetragenen Einflusse in Form von hellgrauen Pfeilen auf prozessorale Verläufe, die von den akustischen Größen ausgehen und zu den dazugehörigen primären perzeptorischen Größen führen. Die Ausgangspunkte, an denen die hellgrauen Pfeile abzweigen, können als eine grobe Einordnung der Einflüsse in den Verarbeitungsverlauf angesehen werden. Was die (teilweise) perzeptorische Kompensation intrinsischer Variationen anlangt, so geht Handel (1986:422) zum Beispiel davon aus, dass diese Variationen nicht in die Prominenzkonstruktion hineinwirken: „the listener must filter out the factors that influence duration and frequency in order to perceive the speaker´s intended stress“. Bezüglich des zweiten Aspektes, der illustriert, dass die vorgestellten Ansätze zur Kontrast-Theorie noch keinen vollständigen Entwurf für die Wahrnehmung der Sprechmelodie repräsentieren, ist es wichtig zu sehen, dass die Wahrnehmung der Sprechmelodie nur ein Teil der Sprachwahrnehmung insgesamt darstellt. Dementsprechend kann die Wahrnehmung der Sprechmelodie nicht völlig unabhängig von der Sprachwahrnehmung im allgemeinen betrachtet werden. So wurde im Rahmen der Prominenzkonstruktion beispielsweise die Möglichkeit aufgezeigt, dass das Wissen über Wortklassenzugehörigkeit und lexikalische Akzentpositionen die Stärke der konstruierten Prominenz beeinflusst. Dafür ist es erforderlich, dass vor der Konstruktion der Sprechmelodie und der Identifikation bedeutungstragender sprechmelodischer Einheiten andere bedeutungstragende Einheiten (des lautlichen Kanals) der Sprache bereits identifiziert wurden. Nachfolgende theoretische Entwürfe müssen die Verflechtungen zwischen der Wahrnehmung der Sprechmelodie und der Wahrnehmung anderer sprachlicher Phänomenbereiche (wie etwa die Wahrnehmung von Wörtern bzw. Wortbedeutungen) stärker herausarbeiten. Im Zusammenhang mit dem letztgenannten Aspekt ist abschließend ein Kritikpunkt in der phonologischen Konzeption der Ansätze zur Kon-
364 364
Einleitung Diskussion der Ansätze
trast-Theorie anzusprechen. Die Konstruktion der Sprechmelodie kann vor dem Hintergrund weitreichender kontextueller Einflüsse und der Berücksichtigung von top-down Wissen als ein dynamischer und interpretativer Prozess charakterisiert werden. Die Ausgabe des Konstruktionsprozesses entspricht einer reizbasierten Hypothese. Demgegenüber wurde die Identifikation sprechmelodischer Zeichen als eine bloße Erkennung zeichenspezifischer Tonhöhen- und Prominenzmuster konzeptualisiert und damit eher als ein Automatismus dargestellt. Im Hinblick auf Phänomene wie die in 5.4 geschilderte phonemic restoration oder auf die in Fußnote 32 (S. 263) genannten visuellen Phänomene, die auf einen Informationsrückfluss hindeuten, der aus der Identifikation von Entitäten heraus in die Identifikation weiterer Entitäten hineinwirkt, ist diese Darstellung jedoch inadäquat. Für den Ablauf der Identifikation sprechmelodischer Zeichen sollte vielmehr – analog zur Konstruktion der Sprechmelodie – auf eine Konzeption hingearbeitet werden, die kontextuelle und interpretative Elemente gleichermaßen umfasst und die somit auch einen Bezug zu vorausgegangenen Identifikationen und zu top-down Wissen sowie damit einhergehend auch zu erwarteten Identifikationen herstellt. In diesem Zusammenhang bezieht sich top-down Wissen vor allem auf Bereiche, die jenseits der Kenntnis sprechmelodischer Zeichenformen liegen und zu denen beispielsweise das weitere Wissen über die betreffende Sprache sowie situatives, soziales und kulturelles Wissen gehören. Darüber hinaus ist ferner auch die Integration visueller Informationen in die Identifikation sprechmelodischer Zeichen zu berücksichtigen. Dementsprechend sollte Identifikation nicht wie in 5.2 (S. 231) geschehen als die Projektion von Reizen auf die bedeutungsvollen kognitiven Kategorien der Entitäten konzeptualisiert werden, sondern mit Bezug auf eine Formulierung von Gregory (1998:245) eher als „psychologische Projektionen von Reizmustern sowie Projektionen von Vorwissen und Annahmen in eine angenommene Realität“. Die umrissene Kritik an der phonologischen Konzeption in den Ansätzen zur Kontrast-Theorie kann als stellvertretend für einen grundsätzlichen Schwachpunkt der existierenden phonologischen Theorien angesehen werden. Theorieübergreifend wird davon ausgegangen, dass der Hörer zur Erkennung bedeutungsbezogener Einheiten immer eine genau festgelegte Menge phonologisch relevanter phonetischer Merkmale braucht. Diese grundlegende Annahme spiegelt sich über alle Manifestationsbereiche, in denen Sprachsignale erforscht werden und phonologische Konzepte ansetzen können, in der Suche nach Invarianz wider (vgl. hierzu Goldstein 2002; Handel 1986; Perkell und Klatt 1986). Dass diese Suche insbesondere in den Bereichen der Akustik und Artikulation vergeblich enden muss, wurde bereits implizit aus den zuvor angesprochenen trading relations erkennbar. Sie beinhalten neben dem Zusammenspiel ver-
Zum Begriffder derAnsätze Sprechmelodie Die Stärken und Schwächen (zur Kontrast-Theorie)
365 365
schiedener Kodierungsmerkmale eine „perceptual unification of acoustic cues“ (Kent 1997:381), wie es beispielsweise für die Konvergenz von Tonhöhe, Länge und Lautheit auf die Prominenz postuliert wurde. Auf diese Weise unterstreichen trading relations gleichzeitig, dass sich in präperzeptorischen sprachlichen Manifestationsbereichen nur Variation (der an der trading relation beteiligten Merkmale) finden wird. Entsprechendes gilt auch angesichts der „surround relations“, die Handel (1986:290) neben den trading relations zusätzlich einführt, zum Beispiel mit dem Verweis darauf, dass derselbe VOT-Wert für alveolare Plosive in unterschiedlichen Sprechgeschwindigkeitsumgebungen einmal zur Wahrnehmung von /d/ und ein anderes Mal zur Wahrnehmung von /t/ führen kann (vgl. Summerfield 1981). Mit der Annahme, dass der Hörer zur Erkennung bedeutungsbezogener Einheiten immer eine genau festgelegte Menge phonologischer Merkmale braucht, werden die Leistungen des Hörers bzw. seines Wahrnehmungsapparates unterschätzt und damit die Anforderungen an den Sprachkode überschätzt. Kommunikation zwischen Gesprächspartnern funktioniert nicht wie Kommunikation zwischen elektronischen Geräten, Sprecher und Hörer sind keine Maschinen. Hörer brauchen nicht immer alle phonologisch relevanten Merkmale, um bedeutungsbezogene Einheiten identifizieren zu können. Ihnen steht zum Beispiel der Kontext der jeweiligen Gesprächssituation und des Gesprächsthemas zu Verfügung, in dessen Rahmen sie die eingehenden Reize interpretieren (und somit ggf. disambiguieren) können, und sie sind in der Lage die insgesamt eingehenden Reize multimodal zu integrieren, um so zu einer Entscheidung bezüglich der Identifikation bedeutungsbezogener sprachlicher Einheiten zu gelangen (vgl. Goldstein 2002). Die Forderung nach der stärkeren Einbindung des Hörers in phonologische Konzeptionen, die in den vorangegangenen Ausführungen anklingt, hat bereits Lindblom (1990) in seiner H&H-Theorie zum Ausdruck gebracht. Vor dem Hintergrund fehlender Invarianz im Sprachsignal weist er darauf hin, dass „signal-complementary processes modulate the input and shape the percept in a most tangible way“ (Lindblom 1990:408). Dies unterstreicht nochmals, warum der Weg einer akustisch basierten Phonologie in der vorliegenden Arbeit nicht beschritten wurde.
8 Antworten auf die Forschungsfragen und Ausblick 8.1 Antworten auf die Forschungsfragen In 1.4 wurde das Forschungsziel der vorliegenden Arbeit in Form zweier Forschungsfragen abgesteckt. - (1) Wie sind die phonologischen Komponenten beschaffen, aus denen sich sprechmelodische Zeichen zusammensetzen? - (2) Welche auditiven Verarbeitungsprozesse liegen der Perzeption sprechmelodischer Zeichen zugrunde? Diese beiden Forschungsfragen wurden von zwei Seiten aus angegangen, die durch die Teile (A) und (B) der Arbeit repräsentiert werden. In Teil (A) wurden im Rahmen von Perzeptionsexperimenten Einflüsse ausgewählter akustischer Faktoren auf die Wahrnehmung der drei etablierten sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET des Standarddeutschen untersucht. Dabei basierte die Auswahl der Faktoren auf den bereits vorhandenen phonologischen Modellierungen des KIM und der AM-Phonologie und den hierzu gewonnenen empirischen Erkenntnissen. Die experimentelle Methode lehnte sich an das Paradigma des KIM an. Hinsichtlich der Datenerhebung bedeutet dies, dass die sprechmelodischen Zeichen, die von den Versuchspersonen wahrgenommen wurden, über deren Bedeutung erfasst wurden. Insofern handelte es sich um bedeutungsbasierte Perzeptionsexperimente. Sie haben klar herausgestellt, dass die derzeitigen phonologischen Modellierungen der sprechmelodischen Zeichen in mehrfacher Hinsicht unzureichend sind. In Teil (B) wurden dann unabhängig von den Ergebnissen dieses ersten Schrittes in einem zweiten Schritt Ansätze einer Theorie zur Wahrnehmung der Sprechmelodie entworfen, die als grundlegende Verarbeitungsstufe eine (höhere syntagmatische) Kontrastbildung und -verstärkung vorsehen und insofern als Kontrast-Theorie bezeichnet wurden. Im diesem theoretischen Rahmen haben sich perzeptorische Grundbausteine der Sprechmelodie herauskristallisiert, anhand derer die phonologischen Formen der sprechmelodischen Zeichen auf einem perzeptorischen Fundament neu konzeptualisiert werden konnten. Dies geschah in einem letzten dritten Schritt, indem die beiden vorangegangenen zunächst voneinander unabhängigen Arbeitsschritte zusammengeführt wurden. Das
368 368
Einleitung Antworten und Ausblick
heißt, die Ergebnisse der Perzeptionsexperimente wurden auf die Ansätze zur Kontrast-Theorie projiziert. Auf Basis der skizzierten Progression können die folgenden Antworten auf die eingangs genannten Forschungsfragen gegeben werden. Bezüglich Forschungsfrage (1) besagen die revidierten Zeichenformen, dass sprechmelodische Zeichen bikomponential aufgebaut sind und sowohl ein Tonhöhenmuster als auch ein Prominenzmuster umfassen. Somit integrieren die Zeichenformen die perzeptorischen Größen Tonhöhe, Länge und Lautheit und umfassen demzufolge auf akustischer Ebene nicht nur F0, wie es die Modellierungen im KIM und in der AM-Phonologie vorsehen, sondern darüber hinaus auch Dauer- und Intensitätseigenschaften. Die Tonhöhen- und Prominenzmuster müssen für sich allein genommen nicht zeichenspezifisch ausfallen. Jedes sprechmelodische Zeichen ist vielmehr durch eine charakteristische Kombination beider Mustertypen gekennzeichnet. Die Träger dieser Muster sind melodisch saliente Ereignisse, die durch stationäre Einzeltöne oder die Endpunkte konstruierter Tonhöhenbewegungen repräsentiert werden und die als tonale Elemente bezeichnet wurden. Aus letzterem geht hervor, dass die phonologischen Komponenten der entwickelten Zeichenformen keine Konturen im Sinne des KIM darstellen. Dadurch, dass die tonalen Elemente phonologisch gesehen jedoch per se keine relevanten Ereignisse, sondern lediglich Instrumente zur Erzeugung von Musterqualitäten sind, ist das entwickelte Zeichenformkonzept eng mit dem des KIM verwandt. An dieser Stelle ist erneut die Genese des entwickelten Zeichenformkonzeptes zu unterstreichen. Es berücksichtigt zum einen modalitätsübergreifende Charakteristika in der Funktionsweise der Perzeption. Hierin eingebunden wurden die Erkenntnisse einer umfassenden Serie von Perzeptionsexperimenten, in denen die Urteile der Versuchspersonen unter kommunikationsnahen Bedingungen gegeben wurden. Insofern repräsentieren die daraus entstandenen Zeichenformen hinsichtlich der seit langem bestehenden Kontroverse zwischen dem „contour camp“ und dem „level camp“ (Bolinger 1972:156), die in der vorliegenden Arbeit durch das KIM und die an Tonsequenzen ausgerichtete AM-Phonologie vertreten wurden, ein gewichtiges Plädoyer für das contour camp. Demgegenüber grenzen sich die in der vorliegenden Arbeit entwickelten Zeichenformen gleichermaßen von denen des KIM und der AM-Phonologie dadurch ab, dass sie keinen expliziten Bezug mehr zu Einheiten des lautlichen Kanals herstellen. Die Zeichenformen des KIM und der AM-Phonologie haben sich auf den Akzentvokalbeginn bzw. die Akzentsilbe bezogen. Ein Bezug zu lautlichen Einheiten kommt im phonologischen Konzept der vorliegenden Arbeit jedoch indirekt über die Abstim-
Zum Begriff der Forschungsfragen Sprechmelodie Antworten auf die
369 369
mung von Tonhöhen- und Prominenzmuster herein, da letzteres durch die Dauer- und Intensitätseigenschaften lautlicher Einheiten mitgestaltet wird. Was Forschungsfrage (2) anlangt, so wurden in den Ansätzen zur Kontrast-Theorie drei Säulen für die Konstruktion der Sprechmelodie angenommen: Kontrast, Gestaltgesetze und Wissen. An den wesentlichen Eckpunkten ausgerichtet, stellt sich der Konstruktionsprozess der Sprechmelodie auf Basis der genannten drei Säulen wie folgt dar. Beginnend bei einem Punkt in der Verarbeitung des akustischen Signals, an dem bereits Silben konstruiert und innerhalb der Silben stationäre Einzeltöne oder Tonhöhenbewegungen erzeugt wurden, besteht der erste Verarbeitungsschritt zur Konstruktion der Sprechmelodie in einer multidimensionalen Kontrastbildung. Diese wird zwischen den tonalen Elementen vorgenommen, die durch die stationären Einzeltöne bzw. im Falle von Tonhöhenbewegungen durch die Endpunkte dieser Bewegungen repräsentiert werden. Dabei werden die Tonhöhen-, Längen- und Lautheitseigenschaften eines tonalen Elementes mit denen der vorausgehenden tonalen Elemente (d.h. syntagmatisch) kontrastiert. Die gebildeten Kontraste werden verstärkt. Die verstärkten Kontraste sind anschließend Grundlage einer auf top-down Wissen basierenden Prominenzkonstruktion, die für jedes tonale Element stattfindet. Aus den lokalen Prominenzen der einzelnen tonalen Elemente einer Silbe ergibt sich deren globale Prominenz. Diese wird verwendet, um anhand des Gestaltgesetzes der Prägnanz zu größeren sprechmelodischen Konstruktionseinheiten zu gelangen, indem Silben entlang von Prominenzspitzen zusammengruppiert werden. Diese größeren sprechmelodischen Konstruktionseinheiten, die somit als Gestalten aufgefasst werden können, stellen letztlich den (phonetischen) Bezugsrahmen für die Identifikation sprechmelodischer Zeichen dar und sind darüber hinaus auch für die Dekodierung eines weiteren Bedeutungstyps der Sprechmelodie, der Hervorhebung, von zentraler Relevanz. Alle drei prozessoralen Säulen betonen die wichtige Rolle des Kontextes in der Perzeption der Sprechmelodie. Durch den Bezug zu top-down Wissen erhält der Konstruktionsprozess überdies einen interpretativen Charakter. Der Umstand, dass sich der melodische Kontext über die Zeit hinweg entwickelt, spiegelt sich im skizzierten Konstruktionsprozess dadurch wider, dass jedes neu hinzutretende tonale Element vor allem durch seinen Effekt auf die Kontrastverstärkung mit den vorausgehenden Elementen über das Potential verfügt, die Prominenzeigenschaften über einen großen Zeitraum hinweg einschneidend zu verändern und so auch eine Reorganisation der größeren gestalthaften Konstruktionseinheiten zu bewirken, die wiederum Auswirkungen auf die Identifikation sprechmelodischer Zeichen hat. Insofern stellt jedes Perzept – im Einklang mit den
370 370
Einleitung Antworten und Ausblick
gegenwärtigen Vorstellungen von der Wahrnehmung im allgemeinen – eine auf dem aktuellen melodischen und sprachlichen Kontext basierende Hypothese dar. Die in den vorangegangenen Ausführungen angeklungenen Konstruktionsschleifen können dementsprechend nicht als ein Unikum der entwickelten theoretischen Ansätze, sondern als ein Charakteristikum der auditiven und visuellen Wahrnehmung angesehen werden47. Ferner ist in den Schilderungen des Konstruktionsprozesses der Sprechmelodie angeklungen, dass die tonalen Elemente hierin – aus funktionaler Sicht – als die zentralen melodischen Bausteine betrachtet werden können. Die Silben, in denen sie enthalten sind, dienen lediglich als Transport- und Organisationseinheit der tonalen Elemente. Abschließend ist darauf hinzuweisen, dass es sich bei den zuvor gegebenen Antworten um vorläufige Antworten handelt. Es bedarf weiterer Forschung, um die sowohl die experimentellen Ergebnisse aus Teil (A) als auch die Postulate in den Ansätzen zur Kontrast-Theorie aus Teil (B) weiter zu festigen und auszubauen. Darüber hinaus haben sich auch neue Forschungsfragen ergeben, denen nachgegangen werden muss. Dahingehende Aspekte werden im nachfolgenden Abschnitt 8.2 thematisiert.
8.2 Ausblick Die in dieser Arbeit begonnene Forschung hat zwei parallele Wege beschritten. Zum einen wurde untersucht, welche Einflussfaktoren an der Signalisierung (ausgewählter) sprechmelodischer Zeichen beteiligt sind. Daneben wurden die Prozesse bei der Konstruktion der Sprechmelodie und damit die Grundbausteine für die Wahrnehmung sprechmelodischer Zeichen beleuchtet. Beide Forschungsstränge wurden zusammengeführt, um eine erste Antwort auf die zentrale Frage zu erhalten, wie die phonologischen Formen sprechmelodischer Zeichen aussehen. Um diese Frage nun weiterzuverfolgen, müssen beide Forschungsstränge nebeneinander – aber nicht unabhängig voneinander – fortgesetzt werden. Vor dem Hintergrund dieser Perspektive wird sich der gegebene Ausblick beiden Forschungssträngen widmen. Zu jedem Forschungsstrang werden zunächst die weiteren Untersuchungsziele skizziert. Unter dem Gesichts_____________ 47
Genau genommen erlauben die damit zusammenhängenden Phänomene mehrere prozessorale Lesarten, von denen die der Konstruktionsschleife, bei der sich das perzipierende Individuum jeweils nur der aktuellen Ausgabe der Schleife bewusst ist, aufgrund verschiedener Argumente der Vorzug zu geben ist. Dies wurde in Fußnote 33 auf (S. 264) behandelt. Ein modalitätsübergreifendes Charakteristikum der Wahrnehmung sind somit eigentlich nur die zu beobachtenden Phänomene, die sich einheitlich in der genannten Weise interpretieren lassen.
Zum Begriff der Forschungsfragen Sprechmelodie Antworten auf die
371 371
punkt der hiermit verbundenen Anforderungen werden anschließend Möglichkeiten für die Weiterentwicklung der experimentellen Methoden aufgezeigt. 8.2.1 Weitere Forschungen zur Signalisierung sprechmelodischer Zeichen Einen der Grundsteine für die Erforschung der Wahrnehmung und phonologischen Formgebung sprechmelodischer Zeichen hat Kohler (1987) gelegt, indem er den Einfluss der Gipfelsynchronisation auf die Perzeption der Zeichentriade aus GEGEBEN, NEU und UNERWARTET aufgezeigt hat. Die Erkenntnisse von Kohler wurden in zahlreichen Folgeuntersuchungen – unter anderem auch im Rahmen der vorliegenden Arbeit – bestätigt und ausgebaut. Letzteres geschah beispielsweise durch den Nachweis der perzeptorischen Relevanz weiterer F0-Gipfeleigenschaften wie der Gipfelgestalt und -höhe. Analoges muss nun auch für die neu hinzugekommenen Parameter der Dauer und Intensität geschehen. In der vorliegenden Arbeit wurde der Grundstein dazu gelegt, Dauer- und Intensitätseigenschaften in die Wahrnehmung und phonologische Formgebung sprechmelodischer Zeichen mit einzubeziehen. Die Aufgabe folgender experimenteller Untersuchungen wird es somit sein, die gefundenen Einflüsse zu untermauern und die dahingehenden Erkenntnisse auszubauen. Ein Ausbau der Erkenntnisse bedeutet aus der derzeitigen Perspektive heraus betrachtet zum einen, die Eigenschaften des Intensitätsverlaufs zu analysieren und so zu Hypothesen über dessen Beteiligung an der Signalisierung der sprechmelodischen Zeichen gelangen, die in Perzeptionsexperimenten geprüft werden können. Als Grundlage einer solchen akustischen Analyse bieten sich die im Rahmen der vorliegenden Arbeit erhobenen Sprachdaten an, da hierin diejenigen Einflüsse auf die Ausprägung der Intensität, die nicht mit der Kodierung sprechmelodischer Zeichen in Verbindung stehen, weitgehend kontrolliert wurden. In den hieran anschließenden Perzeptionsexperimenten ist zu berücksichtigen, dass sich der Intensitätsverlauf und das Intensitätsniveau nicht unabhängig voneinander ausprägen können. Eine Anhebung des Intensitätsniveaus in einem bestimmten Zeitintervall ist zum Beispiel an steilere An- und Abstiegsflanken im Intensitätsverlauf gekoppelt. Derartige Verknüpfungen wurden bereits im Zusammenhang mit der Gipfelgestalt und -höhe dargelegt. Daher muss das experimentelle Design so entworfen werden, dass die Frage geklärt werden kann, inwieweit mögliche perzeptorische Effekte des Intensitätsverlaufs mit den in Teil (A) gefundenen Effekten des Intensitätsniveaus interagieren.
372 372
Einleitung Antworten und Ausblick
Ein Ausbau der Erkenntnisse zur Rolle der Dauer und Intensität in der Signalisierung sprechmelodischer Zeichen muss des weiteren darauf ausgerichtet sein, das Zusammenspiel der Vorakzent-, Akzent- und Nachakzentsilbe hierbei besser zu verstehen. Dies betrifft nicht nur die Formgebung des Intensitätsverlaufs, sondern vor allem auch die Herstellung der gefundenen Beziehungen zwischen den Intensitäts- und Dauerrelationen in den Silbenpaarungen aus Vorakzent- und Akzent- sowie aus Akzentund Nachakzentsilbe. Die akustischen Befunde aus Teil (A) haben gezeigt, dass die Akzentsilbe an der Herstellung dieser Relationen maßgeblich beteiligt ist. In den bisher durchgeführten Perzeptionsexperimenten wurden allerdings die Dauer- und Intensitätsrelationen aus methodischen Gründen zunächst nur über die Manipulation der Vorakzent- und Nachakzentsilbe relativ zu einer konstanten Akzentsilbe hergestellt. Nachfolgende Experimente müssen daher auch die Akzentsilbe selbst in die Manipulationen einbinden. Die Ergebnisse aus solchen Stimulusserien, die enger an die tatsächlich eingesetzten Strategien zur Signalisierung der sprechmelodischen Zeichen angelehnt sind, können dann mit den Ergebnissen der Serien verglichen werden, die in Teil (A) der vorliegenden Arbeit gefunden wurden. Das Resultat dieses Vergleichs wird für die weitere Entwicklung der Zeichenformen sehr aufschlussreich sein. Letztlich muss der Ausbau der Erkenntnisse zur Dauer und Intensität der Frage nachgehen, in welchem Umfang die durch die Einheiten des lautlichen Kanals vorgeformten Dauer- und Intensitätseigenschaften zur Signalisierung sprechmelodischer Zeichen modifiziert werden können. Auch diese Frage muss zunächst von akustischen Analysen innerhalb der erhobenen lesesprachlichen Daten ausgehen und dann in Perzeptionsexperimente mit Stimuli münden, die auf Basis der akustischen Befunde gezielt manipuliert werden. Im diesem Zusammenhang ist es naheliegend, dass das Ausmaß der zeichenbedingten Modifikationen lautlich vorgeformter Dauer- und Intensitätseigenschaften auch von der Ausprägung des F0-Gipfels abhängt. Beispielsweise ist anzunehmen, dass Dauer- und Intensitätseigenschaften unter solchen Bedingungen verstärkt in die Signalisierung sprechmelodischer Zeichen eingebunden werden, in denen sich F0 als Kodierungsparameter nicht klar ausprägen kann. Letzteres ist unter anderem der Fall, wenn sprechmelodische Zeichen in überwiegend stimmloser Umgebung und/oder in einem zeitlich eng begrenzten Intervall signalisiert werden müssen, in dem umfangreiche und komplexe F0-Bewegungen physiologisch nicht realisiert werden können. In Richtung solcher Überlegungen weisen zum Beispiel die Beobachtungen von Gartenberg und Panzlaff-Reuter (1991), wonach die Dauer des Akzentvokals zunimmt, je weniger Silben oder stimmhaftes Lautmaterial zwischen der Akzentsilbe und dem Äußerungsende steht (vgl. 3.2.1). Insofern muss bei der
Zum BegriffAusblick der Sprechmelodie
373 373
genannten Frage nach dem Umfang, in dem die sprechmelodischen Zeichen die lautliche Dauer- und Intensitätsgrundlage verändern, auch F0 berücksichtigt werden (vgl. auch die Ausführungen in Anhang G). Hieraus wird ferner erkennbar, dass Fragestellungen wie die zuvor umrissene in das Forschungsfeld der trading relations führen. Die Erforschung der Wechselbeziehungen zwischen F0, Dauer und Intensität wird von großer Wichtigkeit sein. Der Bedarf einer dahingehenden Forschung ist bislang kaum ins Blickfeld getreten, da die Kodierung sprechmelodischer Zeichen immer nur auf einen einzigen Parameter, F0 bzw. Tonhöhe, bezogen wurde. Dementsprechend wurden zum Beispiel Veränderungen in der Laut- bzw. Silbendauer, die in Abhängigkeit von sprechmelodischen Zeichen beobachtet wurden, als F0-bedingt interpretiert. Das heißt, die Dauer wird lediglich angepasst, um die erforderlichen Rahmenbedingungen für die Ausprägung des F0-Gipfels zu schaffen. Dass die Veränderungen in der Dauer (ebenso wie in der Intensität) auch von einem eigenständigen Beitrag zur Signalisierung sprechmelodischer Zeichen herrühren könnten, wurde hingegen nicht in Erwägung gezogen. Die Erforschung von trading relations zwischen F0, Dauer und Intensität bei der Signalisierung sprechmelodischer Zeichen kann daher nur sehr begrenzt auch bereits vorliegenden Forschungsarbeiten aufbauen. Der Weg zur Erforschung von trading relations führt ebenfalls über die Erkenntnisspirale, in der akustische Analysen und Perzeptionsexperimente einander abwechseln. Für die akustische Analyse, die hierbei am Ausgangspunkt steht, ist es jedoch erforderlich, weitere Sprachdaten zu erheben, in denen nicht alle Faktoren bis auf die Zeichen selbst konstant gehalten werden, wie es im Rahmen der vorliegenden Arbeit nötig war, sondern in denen zusammen mit den Zeichen weitere lautliche, melodische und außersprachliche Faktoren variiert werden (letzteres betrifft zum Beispiel Alter und Geschlecht der Sprecher). Die Erkenntnisse, die sich aus der Erforschung der trading relations ergeben, werden zwar auch für die weitere Entwicklung der Zeichenformen herangezogen werden können. In erster Linie jedoch erscheinen sie in einer darüber hinausgehenden Perspektive für die Modellierung von sprechmelodischen Zeichen im Rahmen einer Sprachsynthese relevant, die neben dem bloßen sprachlichen Kontext auch den Sprecher und die Sprechsituation berücksichtigt. Über eine detailliertere Untersuchung der Rolle von Dauer und Intensität in der Wahrnehmung sprechmelodischer Zeichen hinaus, ist in einem weiterreichenden Forschungsrahmen zu berücksichtigen, dass die Trennung zwischen lautlichem und melodischem Kanal ein metasprachliches Konstrukt darstellt (vgl. 1.2.4). Die Mitwirkung der Dauer und Intensität an der Signalisierung der sprechmelodischen Zeichen unterstreicht bereits, dass dieses zweikanalige Konzept, dem in der Literatur oft über ein bloßes
374 374
Einleitung Antworten und Ausblick
Konstrukt hinaus ein Realitätsanspruch anhaftet, nicht überbetont werden darf. Das heißt, es ist davon auszugehen, dass sprachliche Informationen sehr viel stärker, als es bislang ins Blickfeld geraten ist, über beide Kanäle hinweg kodiert werden. In diesem Licht ist unter anderem zu untersuchen, inwieweit die phonetische Ausprägung von Morphemen oder einzelnen Lautsegmenten in die Signalisierung sprechmelodischer Zeichen involviert sind. Erste dahingehende Untersuchungen wurden bereits durchgeführt. Sie legen in der Tat nahe, dass eine Kodierung sprechmelodischer Zeichen auch über klassische segmentelle Eigenschaften erfolgt. Dies geht zum einen zurück auf eine akustische Analyse, die auf dem Sprachdatenkorpus basiert, das im Rahmen der Studie von Gartenberg und Panzlaff-Reuter (1991) erhoben und ausgewertet wurde (vgl. auch 3.2.1). Die Äußerungen dieses Korpus wurden von einem trainierten Sprecher (kk) jeweils mehrfach mit den Zeichen GEGEBEN, NEU und UNERWARTET produziert. Für die eigene akustische Analyse wurden hieraus die Äußerungen der Art „Sie ___“ verwendet, wobei an der variierten Strukturstelle einsilbige Verben standen, die auf einen alveolaren Fortisplosiv /t/ endeten. Für diesen äußerungsfinalen Plosiv hat sich nun gezeigt, dass dessen Aspirationen in Verbindung mit dem Zeichen UNERWARTET durch eine signifikant größere Dauer und kleinere Intensität gekennzeichnet sind als in Verbindung mit dem Zeichen GEGEBEN. Die Beurteilung eines trainierten musikalischen Hörers (ed) hat überdies ergeben, dass die Aspiration im Falle von UNERWARTET einen höheren Tonhöheneindruck vermittelt als im Falle von GEGEBEN. Ausgehend von diesen Befunden wurde ein Perzeptionsexperiment auf Basis der Äußerung „Sie tickt“ durchgeführt. Die Stimuli wiesen ein gleichbleibendes Tonhöhenniveau auf, während die Dauer, Intensität und spektrale Zusammensetzung der Aspiration des finalen /t/ variiert wurde (über die spektrale Variation wurden unterschiedliche Tonhöheneindrücke in der Aspiration hergestellt). Naive Versuchspersonen haben die Stimuli anhand eines semantischen Differentials bezüglich ihrer Bedeutung beurteilt. Hierbei hat sich für die akustisch gefundenen Aspirationskonfigurationen ein Bedeutungsprofil herausgebildet, das deutliche Ähnlichkeiten zu den Profilen aufweist, die zuvor bereits im Rahmen von F0-Gipfelverschiebungen bei Dombrowski (2003b) und Kohler (2005) für die Zeichen GEGEBEN und UNERWARTET entstanden sind. Über diesen experimentellen Befund hinaus weisen informelle Versuche auf weitere Einbindungen klassischer segmenteller Eigenschaften in die Signalisierung sprechmelodischer Zeichen hin. Für das Standarddeutsche ist beispielsweise bekannt, dass der Frikativ /5/ mit deutlicher Lippenrundung realisiert wird und dass diese Rundung in den vorangehenden Vokal zurückwirkt (vgl. Kohler 1995). Dementsprechend geht /+/ vor
Zum BegriffAusblick der Sprechmelodie
375 375
/5/ in der Regel in Richtung eines [;]. Im Rahmen der Äußerung „auf dem Tisch“ wurde nun aber für die Akzentsilbe „Tisch“ (/t+5/) sowohl auditiv als auch visuell beobachtet, dass sich die Rundung innerhalb Vokal-Frikativ-Sequenz in Verbindung mit Zeichen auf Basis von fallend-steigenden F0-Tälern (z.B. frühe und späte Talkonturen im Sinne des KIM, vgl. auch Abb. 1) deutlich schwächer ausprägt als in Verbindung den Zeichen GEGEBEN und NEU, die auf F0-Gipfeln basieren. Dies betrifft insbesondere den (Akzent-)Vokal. Derartige Verflechtungen des lautlichen und melodischen Kanals bei der Signalisierung sprechmelodischer Zeichen müssen experimentell weiter verfolgt werden. Wenn sich die Befunde für die Existenz solcher Verflechtungen weiter erhärten und verdichten, zeigt dies, dass die Forschung an einem Punkt angekommen ist, an dem das metasprachliche Konstrukt eines zweikanaligen Sprachkodes für den weiteren Erkenntnisgewinn nicht länger hilfreich, sondern eher hinderlich ist. In diesem Sinne sind die genannten Verflechtungen auch klare Evidenzen gegen Konzepte, in denen dieses metasprachliche Konstrukt einen Realitätsanspruch erhält. Es müssen neue metasprachliche Überlegungen angestellt werden, die nicht länger davon ausgehen, dass die sprachlich transportieren Bedeutungstypen und deren Kodierung trennscharf auf einen lautlichen und einen melodischen Kanal aufgeteilt werden können. Über solche tiefgreifenden Revisionen zu Erkenntnissen zu gelangen, die näher an die tatsächliche Funktionsweise des Sprachkodes heranführen, wird eine Aufgabe für die Zukunft sein. Im Zusammenhang mit der Weiterentwicklung der Vorstellungen zum Sprachkode ist letztlich noch herauszustellen, dass die weitere experimentelle Forschung sukzessive mehr sprechmelodische Zeichen mit einbeziehen muss. Hinsichtlich der Generierung entsprechender Stimulusserien und der zu überprüfenden Hypothesen können die bislang gewonnenen Erkenntnisse zu den Zeichen GEGEBEN, NEU und UNERWARTET als Grundlage dienen. Die Erweiterung des empirischen Blickfeldes auf zusätzliche Zeichen wird zu einem vollständigeren Bild vom Kodierungssystem der Sprache führen. Gleichzeitig werden die Erkenntnisse, wie in der vorliegenden Arbeit demonstriert, dabei behilflich sein, die Wahrnehmung der Sprechmelodie besser zu verstehen. Die Einbeziehung weiterer sprechmelodischer Zeichen betrifft vor allem den phonetischen Unterschied zwischen äußerungs- bzw. phrasenfinal fallenden und steigenden F0-Bewegungen. Dieser phonetische Unterschied wird häufig mit der Veränderung des Satzmodus in Verbindung gebracht. Bei näherer Betrachtung über verschiedene syntaktische Kontexte und Äußerungssituationen hinweg wird allerdings deutlich, dass dieser phonetische Unterschied tatsächlich Bedeutungen des attitudinalen Typs
376 376
Einleitung Antworten und Ausblick
differenziert (vgl. Barry 1981 und 1.3). Von den gefundenen kontextspezifischen (d.h. relationalen) Bedeutungen abstrahierend, lässt sich der Unterschied zwischen final fallenden und steigenden F0-Bewegungen so paraphrasieren, dass der Sprecher sich seinem Dialogpartner unter- bzw. überordnet (vgl. Kohler 1991a). Im Rahmen syntaktischer Fragen kann so beispielsweise über final steigende F0-Bewegungen zum Ausdruck gebracht werden, dass der Sprecher dem Dialogpartner die Freiheit einräumt, den Inhalt seiner Antwort selbst zu bestimmen (vgl. Kohler 2004a) und somit eine eigene Entscheidung bezüglich einer zuvor gestellten Frage zu treffen. Die Verwendung final fallender F0-Bewegungen zeigt dem Dialogpartner dementsprechend an, dass eine bestimmte vom Sprecher erwartete Antwort gegeben werden soll. Die Einbeziehung des umrissenen Phänomenkreises ist auch deswegen besonders wichtig, da die phonologischen Modellierungen hierzu weit auseinanderklaffen. So führt das KIM im Zusammenhang mit final steigenden F0-Bewegungen neben der phonologischen Klasse der Gipfelkonturen die Klasse der Talkonturen ein. Diese zeichnen sich durch einen F0-Verlauf aus, der ab dem Bereich der Akzentsilbe in einen durchgehenden (konkaven) Anstieg bis zum Ende der Äußerung bzw. der melodischen Phrase übergeht. Je nach Synchronisation des Anstiegsbeginns zum Einsatz des Akzentvokals werden zwei Talkategorien, frühe und späte Täler, phonologisch differenziert. Neben der attitudinalen Bedeutung einer final steigenden F0-Bewegung, die beide Talkategorien tragen, deckt die Differenzierung zwischen frühen und späten Tälern einen zusätzlichen attitudinalen Bedeutungsunterschied ab. Diese bezieht sich auf das Ausmaß der Anteilnahme, das dem Gesprächspartner und dessen erwartetem Beitrag entgegengebracht wird (vgl. Niebuhr und Kohler 2004). So können die frühen und späten Täler grob durch die Begriffe INTERESSIERT (frühes Tal) und FORDERND (spätes Tal) repräsentiert werden (vgl. 1.3.1 und 2.3.1). Im AM-Rahmen gibt es kein Pendant zu den beiden Talkategorien bzw. den hiermit erfassten attitudinalen Bedeutungen. Vereinfacht gesagt, geht dies darauf zurück, dass in der AM-Phonologie eine Differenzierung zwischen Gipfel- und Talkategorien nicht ins Blickfeld gerät und auch nicht phonologisch repräsentiert werden kann. Entscheidend hierbei ist, dass der finale F0-Anstieg und dessen attitudinale Bedeutung, die in beiden Talkategorien identisch ist, durch den Grenzton separat vom übrigen F0-Verlauf abgedeckt werden. Dadurch geht der charakteristische Konturunterschied verloren, auf dem die Differenzierung zwischen Gipfel- und Talkonturen basiert. Der Tonakzent, der lediglich auf lokale F0-Zielpunkte innerhalb der Akzentsilbe ausgerichtet ist, kann diese Differenzierung nicht leisten. Im Bereich der Akzentsilbe ist das frühe und späte Tal nicht
Zum BegriffAusblick der Sprechmelodie
377 377
von anderen Kategorien wie Gipfelkategorien unterscheidbar. Dementsprechend werden das frühe und späte Tal bzw. die damit verbundenen Bedeutungen INTERESSIERT und FORDERND auf die Tonakzente H* bzw. L*+H abgebildet, die bereits die in dieser Arbeit behandelten Bedeutungen NEU und UNERWARTET signalisieren.48 Doch nicht nur die AM-Phonologie erscheint bezüglich der sprechmelodisch kodierten Bedeutungen unterspezifiziert. Die Ergebnisse der korpusbasierten akustischen Analyse von Dombrowski und Niebuhr (2005b) legen nahe, dass auch innerhalb des frühen und späten Tals weitere Bedeutungen unterschieden werden und damit zusätzliche phonologische Differenzierungen erforderlich sind Insgesamt gesehen sind die Beziehungen zwischen phonetischen Ausprägungen und (attitudinalen) Bedeutungen auf der einen sowie phonologischen Formen auf der anderen Seite im Bereich final steigender F0-Verläufe noch nicht sehr gefestigt. Eine bedeutungsbezogene und von den Ansätzen zur Kontrast-Theorie ausgehende Forschung wird entscheidend zu einer phonologischen Systematisierung im genannten phonetischen Phänomenbereich beitragen können. Bezogen auf die phonologische Gleichbehandlung der attitudinalen Bedeutungspaare NEU und UNERWARTET sowie INTERESSIERT und FORDERND im AM-Rahmen besteht vor dem Hintergrund einer multidimensionalen Kodierung zum Beispiel die Möglichkeit aufzuzeigen, dass _____________ 48
Im Rahmen des dargestellten phonologischen Vergleichs ist darauf hinzuweisen, dass im KIM nicht nur für finale Akzentpositionen eine Differenzierung zwischen Gipfel- und Talkategorien vorgenommen wird, sondern auch für phraseninterne Akzentpositionen. Die phraseninternen Täler des KIM wurden jedoch vor allem aus zwei Gründen nicht thematisiert. Zum einen sind solche phraseninternen Täler in der Regel an darauf folgende finale Täler gebunden. Hierdurch stellt sich unter phonologischen Gesichtspunkten die Frage nach der strukturellen Eigenständigkeit phraseninterner Täler im Sinne des Potentials, paradigmatische Oppositionen im sprechmelodischen Syntagma zu bilden. Gegebenenfalls ist es angemessener, das Konzept der Konkatenation (mindestens) zweier eigenständiger Talkategorien zugunsten einer übergeordneten integrativen phonologischen Einheit zu revidieren, wie es in ähnlicher Weise für das Hutmuster bereits gilt, das aus mindestens zwei Gipfelkategorien als übergeordnete Einheit hervorgeht. Der zweite Grund, die phraseninternen Täler des KIM in den phonologischen Vergleich mit dem AM-Ansatz nicht mit einzubeziehen, besteht darin, dass ein solcher Vergleich nicht konsistent erfolgen kann. In Sprechmelodien, die im KIM als Sequenz zweier Talkategorien modelliert werden, fällt zumeist bereits der F0-Anstieg, der mit der ersten melodischen Kategorie einhergeht, sehr umfangreich aus (dies wird im KIM als ein charakteristischer Unterschied zu einer Sequenz aus Gipfel- und Talkategorie angesehen). Um diese Eigenschaft in Tonsequenzen zu erfassen, wird die AM-Phonologie in vielen Fällen dazu gezwungen sein, zusätzlich zu den Tonakzenten Grenztöne hinzuzuziehen. Das heißt, Sprechmelodien, die das KIM einheitlich als direkte Aufeinanderfolgen von Talkategorien modelliert, werden in der AM-Phonologie nicht immer analog als direkt aufeinanderfolgende Tonakzente dargestellt. Stattdessen wird im AM-Rahmen in vielen Fällen eine (intermediäre, vgl. 2.4.1) Phrasengrenze zwischen den Tonakzenten postuliert (unabhängig davon, ob dies mit den übrigen phonetischen Gegebenheiten oder dem Perzeptionseindruck im Einklang steht).
378 378
Einleitung Antworten und Ausblick
sich die Kodierung der Bedeutungen NEU und UNERWARTET nicht nur hinsichtlich F0 von der Kodierung der Bedeutungen INTERESSIERT und FORDERND abhebt, sondern auch bezüglich Dauer und Intensität. Über solche in mehrfacher Hinsicht divergierenden Signalisierungsstrategien kann viel prononcierter herausgearbeitet werden, dass zusätzlich zur Zeichentriade aus GEGEBEN, NEU und UNERWARTET die vom KIM postulierten frühen und späten Talkategorien als Träger der Bedeutungen INTERESSIERT und FORDERND im Standarddeutschen berücksichtigt werden müssen. Die vorgezeichnete auf die Empirie gerichtete Progression muss, insbesondere im Hinblick auf den Parameter der Intensität, mit einer Weiterentwicklung der experimentellen Methode einhergehen. So müssen beispielsweise Möglichkeiten gefunden werden, die im Rahmen der Intensitätsmanipulation veränderten Signaleigenschaften näher an die natürlichsprachliche Intensitätsvariation heranzuführen. Das heißt unter anderem, dass die Manipulation nicht, wie bislang geschehen, alle Harmonischen gleichermaßen betreffen darf. Im Rahmen der experimentellen Methode muss auch über Alternativen zum Identifikationstest-Paradigma nachgedacht werden. Auch mit Blick auf die Diskussion dieses Paradigmas in 4.4.3 ist es für einige Fragestellungen vorteilhafter, wenn die Versuchspersonen auf präsentierte Stimuli lautsprachlich antworten, anstelle mit dem Drücken von Tasten oder dem Ankreuzen von Kästchen zu reagieren. Die Versuchsperson ist auf diese Weise stärker in eine dialogartige Aufgabe eingebunden. Die Antworten können zum Beispiel aus einer Reihe schriftlich vorgegebener Äußerungen ausgewählt und produziert werden, sodass die gewählte Antwort Rückschlüsse über das im Stimulus zuvor perzipierte Zeichen erlaubt. Es ist des weiteren auch denkbar, die Versuchspersonen auf auditive Instruktionen hin zu bestimmten Handlungen zu veranlassen, wobei die relevanten Stimuli in die Instruktionen eingefügt werden. Aus den erfolgten Handlungen oder den Reaktionszeiten vor dem Einsetzen der Handlungen kann dann auf die identifizierten (sprechmelodischen) Bedeutungen in den Instruktionen zurückgeschlossen werden. Es sind noch weitere Hörtestvarianten wie etwa ein Abgleich von auditiven und visuellen Stimuli vorstellbar. In jedem Fall müssen jedoch zweierlei Anforderungen berücksichtigt werden: Erstens müssen sich die auszuwertenden Reaktionen der Versuchspersonen auf die Bedeutung der Stimuli und nicht auf deren Klang beziehen. Zweitens müssen diese Reaktionen auf der Grundlage einer möglichst natürlichsprachlichen Aufgabenstellung und Situation erfolgen. Hinter diesen Anforderungen steht das Postulat, dass die phonetische Forschung immer mit kommunikativem Bezug stattfinden muss. Eine phonetische Realisierung muss als das Er-
Zum BegriffAusblick der Sprechmelodie
379 379
gebnis einer Kommunikation zwischen Sprecher und Hörer verstanden werden und nicht als eine bloße Manifestation der sprachlichen Kompetenz des Sprechers. Insofern muss die Bedeutung der Ausgangs- und Fixpunkt in der Erforschung sprachlicher Einheiten sein. Darüber hinaus fließen durch die Beziehung zwischen Sprecher und Hörer auch kulturelle und soziale Aspekte in die Realisierung der Sprache ein. Diese Aspekte können in einer weiterführenden Perspektive selbst zum Untersuchungsgegenstand werden, sie sind jedoch in jedem Fall im Rahmen einer Erhebung und Interpretation experimenteller Daten zu beachten. Die skizzierte kommunikativ ausgerichtete Herangehensweise an phonetische Untersuchungen gilt nicht nur für Perzeptionsexperimente, sondern auch für die Aufnahme von Sprache (zur gezielten Bearbeitung gegebener Forschungsfragen). Diesbezüglich wurde in der vorliegenden Arbeit bereits ein großer Schritt gemacht. Dieser führte weg von der Produktion isolierter Sätze durch trainierte Sprecher oder der Imitation dargebotener Einzelsätze durch untrainierte Sprecher. Stattdessen wurden ganze zusammenhängende Äußerungsblöcke von untrainierten Sprechern abgelesen und produziert, wobei die Elizitation der sprechmelodischen Zeichen ohne direkten Einfluss auf die Sprecher kontextgesteuert über die Zeichenbedeutungen herbeigeführt wurde. Diese Methode muss dahingehend weiter verfeinert werden, für die Produktion einen noch natürlicheren Kommunikationsrahmen zu schaffen. Dies kann beispielsweise dadurch geschehen, dass zwei Sprecher Dialoge produzieren. Die schriftliche Vorgabe hierbei kann zum Beispiel nur aus Schlüsselwörtern bestehen. Alternativ dazu ist es vorstellbar, den Sprechern gezielt zu zeigen, an welchen Stellen sie vom schriftlich fixierten Text abweichen dürfen. Letzteres gibt ihnen die Möglichkeit, durch die Einbindung eigener Formulierungen eine noch bessere Identifikation mit dem Gesprochenen zu erreichen. Hierdurch werden noch authentischere Produktionen erreicht. Eine solche Vorgehensweise ist jedoch zeitaufwendig, da sich die Sprecher vor der (endgültigen) Aufnahme sehr ausgiebig mit dem Text befasst haben müssen. Vor diesem Hintergrund muss auch in Betracht gezogen werden, die Textgrundlage durch Bilder zu unterstützen. Für bestimmte Fragestellungen kann auch eine reine Bildergeschichte herangezogen werden, die ohne schriftliche Vorgaben auskommt. Einige der angeführten methodischen Elaborationen haben sich in einer laufenden Forschungsarbeit von Kohler und Niebuhr (2007) zum Themenkreis der Emphase bereits im Hinblick auf die Natürlichkeit der gewonnenen Produktionen bewährt. Im Zusammenhang mit den Erkenntnissen zur Emphase von Kohler und Niebuhr (2007) ist es letztlich auch wichtig, dass sich die weitere Forschung – parallel zu den sprechmelodischen Zeichen – auch dem Bedeu-
380 380
Einleitung Antworten und Ausblick
tungstyp der Hervorhebung widmet. Das Kategoriensystem der Hervorhebung ist weit weniger gut verstanden als das der sprechmelodischen Zeichen, sowohl im Hinblick das Bedeutungsspektrum als auch hinsichtlich der bedeutungstragenden Einheiten selbst. Beispielsweise wird dieser Bedeutungstyp vielfach schlicht auf einzelne (Akzent-)Silben bezogen, die entweder eine Hervorhebung aufweisen oder nicht. Die Hervorhebungsphonologie, die an der das Kieler Intonationsmodell KIM angehängt ist (vgl. Kohler 1991a, b; Peters und Kohler 2004) ist demgegenüber schon elaborierter. Hierin werden vor dem Hintergrund einer funktionalen Argumentation und mit Blick auf die Stärke der Prominenz drei Hervorhebungsstufen phonologisch unterschieden. Kohler und Niebuhr (2007) entwickeln zudem ein darauf aufbauendes System emphatischer Hervorhebungen. Das (Haupt-)Augenmerk bleibt dabei allerdings insgesamt weiterhin auf die einzelne (Akzent-)Silbe gerichtet. Xu et al. (2004) argumentieren jedoch auf der Basis akustischer und perzeptorischer Befunde, dass Hervorhebungen auch globaler kodiert sind (vgl. auch Cooper et al. 1985; Rump und Collier 1996). Die vorliegende Arbeit zeichnet nun eine Perspektive des Bedeutungssystems der Hervorhebung, die noch einen Schritt weiter geht als die Hervorhebungsphonologie des KIM und die Konzepte von Xu et al. (2004). So wird angenommen, dass es eine Grundeinheit der Hervorhebung gibt, die (ggf. neben weiteren schwächeren Prominenzen) genau eine Prominenzspitze umfasst und deren kontextunabhängig immer gleichbleibende Bedeutung in der Kennzeichnung von Informationsschwerpunkten besteht. Aus diesen Grundeinheiten werden auf Äußerungsebene größere bedeutungstragende Einheiten der Hervorhebung geformt, die auch mehrere Prominenzspitzen einschließen können und deren spezifische funktionale Interpretation je nach Kontext variiert (vgl. 1.3.1). Diese Perspektive sollte auch vor dem folgenden Aspekt betrachtet werden. Die Kodierung sprechmelodischer Zeichen wie die in der vorliegenden Arbeit behandelten ist in der Phonologie des KIM und in der AM-Phonologie als Beziehung zwischen lokalen F0-Punkten und lokalen segmentellen Referenzen konzeptualisiert. Diese atomistische Auffassung wurde in der vorliegenden Arbeit auf empirischer und theoretischer Grundlage zugunsten globalerer Muster reformuliert. Das heißt, die Identifikation sprechmelodischer Zeichen wird als Mustererkennung postuliert, und neuere experimentelle Erkenntnisse unterstützen die eingeschlagene Richtung (vgl. z.B. Dombrowski 2007). Im Bereich der Hervorhebung sollte eine vergleichbare Neuausrichtung folgen. Anstelle Akzentsilben in atomistischer Weise als einzelne, voneinander unabhängige Ereignisse anzusehen, sollten bedeutungstragende Einheiten (auch) in einer globaleren, zum Beispiel akzentübergreifenden Perspektive gesucht und hinsichtlich ihrer Form und
Zum BegriffAusblick der Sprechmelodie
381 381
Bedeutung erforscht werden. Ein erster Ansatzpunkt in eine solche Richtung liegt in Form des Hutmusters im KIM bereits vor (vgl. Kohler 1991a, b). Allerdings ist hierbei der Schwerpunkt bislang auf den darin integrierten sprechmelodischen Zeichen und nicht auf den Prominenzspitzen. Darüber hinaus sollte der Blickwinkel im Rahmen der Hervorhebung dahingehend erweitert werden, dass Hervorhebungen auch auf ohne daran gebundene sprechmelodische Zeichen und auf Basis von atonalen und sogar nicht-melodischen Prominenzen vorkommen können. Letztere können auch durch die Ansätze zur Kontrast-Theorie noch nicht abgedeckt werden. 8.2.2 Weitere Forschungen zur Wahrnehmung der Sprechmelodie Die Ausführungen in 8.2.1 haben an mehreren Stellen angedeutet, dass Erkenntnisse aus der weiteren Erforschung der Signalisierung sprechmelodischer Zeichen gleichzeitig zu einem besseren Verständnis der Wahrnehmung der Sprechmelodie beitragen werden. Dennoch muss der letztgenannte auf theoretische Fragen ausgerichtete Forschungsstrang auch eigenständig weitergeführt werden. Dies bezieht sich vor allem auf die Weiterentwicklung der Ansätze zur Kontrast-Theorie. Diese Weiterentwicklung muss auf zweierlei Arten stattfinden. Erstens müssen die bereits formulierten Postulate experimentell evaluiert werden. Zweitens müssen die Ansätze selbst weiter ausgebaut werden. Ein wichtiger Aspekt in der Evaluierung der bereits vorliegenden Postulate besteht darin, systematische und umfassende Untersuchungen zur Kontrastverstärkung in der Sprechmelodie durchzuführen. Daneben müssen die Faktoren der Prominenzkonstruktion näher betrachtet werden. Des weiteren ist das zentrale Postulat der Existenz tonaler Elemente zu überprüfen. Wenn dieses Postulat validiert werden kann, ist hierbei zusätzlich von Interesse, wie die tonalen Elemente zum Tonhöhenverlauf in Beziehung gesetzt werden können. Befinden sie sich wie angenommen immer an den Eckpunkten der Tonhöhenbewegungen? Oder ist ihre Lage zum Beispiel vom Gradienten der Tonhöhenbewegung abhängig, ebenso wie die perzipierten Eckpunkte von Tonhöhenbewegungen von der Dynamik des zugrundeliegenden F0-Verlaufs abhängen (vgl. u.a. Rossi 1971)? Darüber hinaus muss geprüft werden, ob das Zustandekommen der größeren sprechmelodischen Konstruktionseinheiten den Vorhersagen der Ansätze zur Kontrast-Theorie entspricht. Hieran sind in erster Linie drei Fragen gebunden. Bezieht sich die Zusammenstellung solcher Einheiten auf die Silbe? Ist die Zusammenstellung auf die perzeptorische Größe der Prominenz gerichtet und lässt sie sich mit dem Gestaltgesetz der Prägnanz adäquat beschreiben?
382 382
Einleitung Antworten und Ausblick
Was den weiteren Ausbau der Ansätze zur Kontrast-Theorie anlangt, wurden viele Aspekte bereits im Zusammenhang mit der kritischen Diskussion der Ansätze in 7.2.2 angesprochen. An dieser Stelle ist hieraus insbesondere die Forderung nach einer stärkeren Einbindung der Ansätze zur Kontrast-Theorie in die Wahrnehmung im allgemeinen zu unterstreichen. Vor diesem Hintergrund sollte auch angesichts phänomenaler Parallelen eines der nachfolgenden Forschungsziele darin bestehen, Theorien zur Musikwahrnehmung in den Ansätzen zur Kontrast-Theorie stärker zu berücksichtigen. Hierzu zählt zum Beispiel die Theorie von Lerdahl und Jackendoff (1983), die insbesondere der Entstehung von Rhythmen gewidmet ist. Überdies muss der Prozess der Identifikation bedeutungstragender Einheiten der Sprechmelodie detaillierter ausgearbeitet werden. Diese Ausarbeitung muss dahingehend geschehen, den Interpretationscharakter und die Kreativität dieses Prozesses deutlicher herauszustellen. Hierfür ist eine Struktur zu entwickeln, bei der in die Identifikation top-down Wissen einfließt, das über die reine Kenntnis der phonologischen Formen hinausgeht. Die Struktur muss zudem der multimodalen Natur der Sprachwahrnehmung Rechnung tragen und die Integration visueller Informationen bei der Identifikation sprechmelodischer Einheiten berücksichtigen. In Kapitel 6 wurde deutlich, dass die Silbe als Transport- und Organisationseinheit in der Konstruktion der Sprechmelodie eine zentrale Rolle spielt. Gleichzeitig jedoch ist die Silbe als Wahrnehmungseinheit kaum erforscht. Wie kommt es zu einer Entstehung einer silbischen Gliederung der Sprache beim Hörer? Ist diese Gliederung von sprachspezifischen Strukturen abhängig? Gibt es demzufolge Veränderungen in der Perzeption von Silben über den Prozess des Spracherwerbs hinweg? Ist Silbigkeit ggf. nicht nur ein Phänomen der Perzeption, sondern auch in der Sprachproduktion vorhanden und wie korrespondiert diese Silbigkeit mit der in der Perzeption? Diesen und weiteren Fragen muss im Zusammenhang mit dem Ausbau der Ansätze zur Kontrast-Theorie ebenfalls nachgegangen werden. Es ist denkbar, dass hierbei die im vorangegangenen Absatz geforderte Einbeziehung musiktheoretischer Hintergründe hilfreich ist. Was die Frage nach der Existenz von Silben außerhalb der Perzeption anlangt, so liegen bereits einige Definitionen auf Basis der Artikulation und Akustik vor. Hierbei ist es jedoch nie gelungen, eine Definition zu erarbeiten, die mit der perzeptorischen Gliederung in Silben vollständig kongruent ausfällt (vgl. Stetson 1951; Ladefoged 1967; Kloster Jensen 1963; Kohler 1966; Laver 1994). Laver (1994:113) verweist im Zusammenhang mit diesem Problem auf die Feststellung von Brosnahan und Malmberg (1970): „Within the one language a child can usually count on its fingers the number of syllables in a sequence, but no phonetician has succeeded so far in giving an exhaustive and
Zum BegriffAusblick der Sprechmelodie
383 383
adequate of what the syllable is [...] No physiological theory of the syllable so far developed seems sufficiently well founded instrumentally to be acceptable as definitive and exhaustive”. Angesichts der Darstellung der Wahrnehmung als kreativen und interpretativen Prozess stellt sich die Frage, ob das im Zitat angedeutete Ziel, eindeutige Korrelate für perzipierte Silben im Bereich der Sprachproduktion anzugeben, überhaupt erreichbar sein kann. Vielmehr ist zu überprüfen, ob die vorliegenden Definitionen möglicherweise bereits insofern treffend sind, als dass die Kriterien angeben, die von der Wahrnehmung als Ausgangspunkt für den Prozess verwendet werden, der letztlich zur Konstruktion von Silbigkeit führt. Hinsichtlich der phonologischen Überlegungen, die an die Ansätze zur Kontrast-Theorie anknüpfen, sind ferner die Fragen anzugehen, wie über die bereits behandelten sprechmelodischen Zeichen hinaus das gesamte sprechmelodische Bedeutungsspektrum in ein phonologisches System zu integrieren ist und wie hierin die verschiedenen Klassen phonologischer Formen aussehen und miteinander zusammenhängen. Hinsichtlich des Zusammenhangs der phonologischen Formen kann beispielsweise die von Xu (2004a) im PENTA-Modell entwickelte Vorstellung aufgegriffen werden, wonach die einzelnen sprachlichen Bedeutungen nicht sequentiell, sondern superpositional kodiert sind. Bereits in ihrer jetzigen Form gehen die Ansätze zur Kontrast-Theorie angesichts der angenommenen Kodierung von Hervorhebung und attitudinaler Bedeutung und ihrer Verbindung über die Prominenz(-muster) von einer derartigen Konzeption aus. Insofern kann in einer weiterführenden Forschungsperspektive die Möglichkeit in Betracht gezogen werden, die auf Basis der Kontrast-Theorie entworfenen Zeichenformen in encoding schemes zu übersetzen, die als Grundlage für die phonetische Ausgabe des PENTA-Modells dienen. Auf diese Weise kann das PENTA-Modell als ein Interface fungieren, das die entworfenen Zeichenformen zusammen mit einer lautlichen Grundlage in konkrete auditive Sprachstimuli transformiert, die in Perzeptionsexperimente eingebunden werden können. Die Ergebnisse dieser Experimente können dann in die Weiterentwicklung der Zeichenformen und die Erstellung des angesprochenen phonologischen Systems zurückfließen. Allerdings ist es hierfür gleichsam erforderlich, dass das PENTA-Modell ausgebaut wird, da es gegenwärtig von den melodischen Parametern nur F0 abdeckt. Die Evaluierung und der weitere Ausbau der Ansätze zur KontrastTheorie müssen anhand von Perzeptionsexperimenten erfolgen. Diese Experimente sind unter Berücksichtigung der in 8.2.1 geforderten kommunikativ ausgerichteten phonetischen Perspektive weitgehend so zu gestalten, dass Wahrnehmungen der Versuchspersonen über Urteile zu Bedeutungsveränderungen innerhalb der Sprechmelodie erfasst werden. Die-
384 384
Einleitung Antworten und Ausblick
se Urteile können direkter oder indirekter Art sein. Das heißt, es kann direkt nach bestimmten Bedeutungen gefragt werden oder aber danach, ob zum Beispiel bestimmte Äußerungsabschnitte hinsichtlich ihrer Bedeutung zusammenpassen oder nicht. In dem skizzierten methodischen Rahmen kann beispielsweise die Bedeutung von upstep (vgl. Peters und Kohler 2004) dafür ausgenutzt werden, Kontrastverstärkungen im Bereich der Tonhöhe sichtbar zu machen. Ein möglicher Ausgangspunkt hierbei sind sprachliche Stimuli, die in kurzer Abfolge zwei durch eine Einbuchtung verbundene F0-Gipfel (d.h. zwei sprechmelodische Zeichen) enthalten, wobei das zweite F0-Gipfelmaximum dicht unter dem ersten liegt. Treten nun bei der Konstruktion der Tonhöhenbewegungen auf Basis des beschriebenen F0-Verlaufs Kontrastverstärkungen in der Weise auf, wie sie in 6.2 beschrieben sind, dann kann allein über Variationen in der Stärke der Einbuchtung zwischen den F0-Gipfeln und am Ende des zweiten Gipfels erreicht werden, dass das zweite Tonhöhenmaximum von einer Lage unterhalb in eine Lage oberhalb des ersten Maximums angehoben wird. Das heißt, die beiden Melodiegipfel werden im Hinblick auf ihre Hochpunkte erst absteigend und dann aufsteigend perzipiert. Hiermit geht eine sprechmelodische Bedeutungsveränderung einher, die im KIM auf die formalen Merkmale downstep und upstep abgebildet wird. Diese Bedeutungsveränderung kann von Versuchspersonen in einem Perzeptionsexperiment festgestellt und so dazu instrumentalisiert werden, Kontrastverstärkungen in der Sprechmelodie auf indirektem Wege nachzuweisen. Analog zum indirekten Nachweis von Kontrastverstärkungen über den Bedeutungsunterschied zwischen downstep und upstep kann die Beziehung zwischen den lokalen Prominenzen tonaler Elemente in einer Silbe und der globalen Prominenz dieser Silbe über die Verbindung von Prominenz zum Bedeutungstyp der Hervorhebung sichtbar und somit untersuchbar gemacht werden. Das heißt, eine gewählte Äußerung wird so manipuliert, dass die Anzahl der tonalen Elemente in einer Silbe oder mehreren Silben variiert wird. Durch die Auswirkungen dieser Manipulationen auf die Prominenz werden sich die Akzentstärken (vgl. 2.3.1) dieser Silben und die Akzentstruktur der Äußerung verändern. Die daran gebundenen Bedeutungsveränderungen können von Versuchspersonen in Perzeptionsexperimenten erkannt und als indirektes Urteil über die wahrgenommenen Prominenzen verwendet werden. Aus den zuvor skizzierten Perzeptionsexperimenten werden zwei Aspekte erkennbar. Erstens kann eine Evaluierung der Postulate aus den Ansätzen zur Kontrast-Theorie nicht nur über die attitudinalen Bedeutungen sprechmelodischer Zeichen stattfinden. Darüber hinaus muss auch der Bedeutungstyp der Hervorhebung in seinem gesamten Spektrum und da-
Zum BegriffAusblick der Sprechmelodie
385 385
mit die Akzentsilbe und -struktur einbezogen werden. Zweitens müssen neue experimentelle Wege beschritten werden. Anders als im Forschungsstrang, der den sprechmelodischen Zeichen gewidmet ist (vgl. 8.2.1), heißt dies nicht, dass mit neuen Methoden ein noch stärkerer sprachlicher Bezug hergestellt werden muss. Für die Forschung im Bereich der Wahrnehmung der Sprechmelodie ist das Gegenteil erforderlich. Angesichts des großen Spektrums an zu überprüfenden Postulaten wird es nicht immer möglich sein, die Wahrnehmungen der Versuchspersonen auf dem Umweg über deren Beziehungen zu sprechmelodischen Bedeutungen sichtbar zu machen. Hier müssen andere, weniger sprachbezogene Experimente hinzukommen, sowohl im Hinblick auf die Aufgabenstellungen als auch auf das Stimulusmaterial. Es ist für eine Reihe von Fragestellungen unumgänglich, dass Versuchspersonen zum Beispiel Logatome oder stärker psychoakustisch geprägte Stimuli präsentiert werden mit der Instruktion, sich gezielt auf einzelne perzeptorische Parameter zu konzentrieren. Die in 6.1.4 erläuterten Experimente von Niebuhr (2006) gehen in eine solche Richtung. Die Ergebnisse hierzu wurden anschließend mit denen aus sprachbezogenen Beurteilungen verglichen. Diese parallele Datenerhebung ist eine Möglichkeit, um zu neuen Erkenntnissen zu gelangen, ohne den sprachlichen Bezug ganz aus den Augen zu verlieren. Eine weitere Möglichkeit liegt in der Auffassung von Fox (1984:6): „with a little practice, even without particular musical gifts, it is possible for most people to hear the pitch pattern of utterances and to write it down“. Das heißt, Versuchspersonen können dazu instruiert werden, für systematisch manipulierte bzw. selektierte Stimuli den wahrgenommenen Tonhöhenverlauf in Form von Konturen über schriftlich gegebenen Wortfolgen einzutragen. Aus der Beziehung zwischen den zugrundeliegenden akustischen Parametern und den Tonhöhentranskriptionen können sich wichtige Erkenntnisse bezüglich der Postulate aus den Ansätzen zur Kontrast-Theorie ergeben. Erste Vorversuche hierzu haben sich bereits als sehr vielversprechend erwiesen. Im Zusammenhang mit neuen experimentellen Herangehensweisen ist es letztlich auch möglich, Perzeptionsexperimente in Anlehnung an Experimente aus der visuellen Wahrnehmung zu erstellen, insbesondere mit Blick auf den modalitätsübergreifenden Hintergrund der Ansätze zur Kontrast-Theorie. So kann es beispielsweise zur Evaluierung der Ansätze zur Kontrast-Theorie hilfreich sein, auditive Stimuli gezielt in Analogie zu visuellen Reizanordnungen bzw. Effekten zu generieren, wie sie etwa aus der Erforschung der Gestaltgesetze oder der sogenannten optischen Täuschungen bzw. Wahrnehmungstäuschungen bekannt sind. Hierzu zählen beispielsweise sprachliche Stimuli mit doppeldeutigen Akzentstrukturen als Analogie zum Necker-Würfel aus der visuellen Wahrnehmung (vgl. Gregory 1998).
386 386
Einleitung Antworten und Ausblick
Abschließend ist darauf hinzuweisen, dass der im Rahmen der Ansätze zur Kontrast-Theorie entwickelte Konstruktionsprozess aus Kontrastbildung, -verstärkung, Gestaltgesetzen und Wissen über das Potential verfügt, auf weiteren Ebenen der sprachlichen bzw. sprechmelodischen Struktur anwendbar zu sein. Es ist beispielsweise denkbar, dass die zuvor bereits angesprochenen Silben ihrerseits zuvor aus einem vergleichbaren Konstruktionsprozess mit Kontrast, Gestaltgesetzen und Wissen hervorgegangen sind. In 7.1.2 wurde bereits darauf hingewiesen, dass der formulierte Konstruktionsprozess prinzipiell auch zur Entstehung von Silbigkeit herangezogen werden kann. Dies entspricht – sowohl aus prozessoraler Hinsicht als auch im Hinblick auf die Größe der Konstruktionseinheiten als Ausgabe des Prozesses – einer Übertragung des Konstruktionsprozesses nach unten in der sprachlichen bzw. sprechmelodischen Struktur. In entgegengesetzter Richtung kann der Konstruktionsprozess auch auf die Entstehung melodischer Phrasen übertragbar sein. Der vermuteten Rekursivität mit theoretischen und experimentellen Mitteln nachzugehen, ist eine weitere Forschungsperspektive. Im Licht dieser Perspektive wird die Relevanz der Forschung, die in der vorliegenden Arbeit begonnen wurde, besonders deutlich erkennbar. Sie muss auf beiden dargestellten Forschungssträngen, das heißt unter gleichzeitiger Berücksichtigung phonologischer und perzeptorischer Fragestellungen, fortgesetzt werden.
Literatur Adelson, E. H. (1993). Perceptual organization and the jugement of brightness. Science 262, S. 2042-2044. Adriaens, L. M. H. (1991). Ein Modell deutscher Intonation. PhD Diss., Technische Universität Eindhoven. Aitchison, J. (1994). Words in the mind. Introduction to the mental lexicon. Oxford: Blackwell. Aitchison, J, (1998). The articulate mammal: an introduction to psycholinguistics. London: Routledge. Aitchison, J. (2000). The seeds of speech: Language origin and evolution. Cambridge: Cambridge University Press. d’Alessandro, C., S. Rosset und O. Piot (1995). Measurement of pitch perception for F0 glides. Proceedings of the 4th European Conference on Speech Communication and Technology, EUROSPEECH, Madrid, Spain, S. 957-960. Ambrazaitis, G. I. (2005). Between fall and fall-rise: substance-function relations in German phrase-final intonation contours. Phonetica 62, S. 196-214. Ambrazaitis, G. I. (2006). Prosodic signalling of (un)expected information in South Swedish – an interactive manipulation experiment. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 911-914. Antoniadis, Z. und H. W. Strube (1981). Untersuchungen zum ‚intrinsic pitch’ deutscher Vokale. Phonetica 38, S. 277-290. Armstrong, L.E. und I.C. Ward (1967). A Handbook of English Intonation. Cambridge: Heffer. Arvaniti, A., D. R. Ladd und I. Mennen (1998). Stability of tonal alignment: the case of Greek prenuclear accents. Journal of Phonetics 26, S. 3-25. Arvaniti, A., D. R. Ladd und I. Mennen (2000). What is a starred tone? Evidence from Greek. In M. Broe und J. B. Pierrehumbert (Hrsg.). Papers in Laboratory Phonology V. Cambridge: Cambridge University Press. S. 119-131 Atterer, M. und D. R. Ladd (2004). On the phonetics and phonology of „segmental anchoring“ of F0: Evidence from German. Journal of Phonetics 32, S. 177-197. Bannert, R. (1983). Modellskizze für die deutsche Intonation. Zeitschrift für Literaturwissenschaft und Linguistik 49, S. 9-34. Barry, W. J. (1981). Prosodic functions revisited again! Phonetica 38, S. 120-134. Bashford, J. A. und R. M. Warren (1987). Multiple phonemic restorations follow the rules for auditory induction. Perception & Psychophysics 42(2), S. 114-121. Baumann, S., M. Grice und S. Steindamm (2006). Prosodic marking of focus domains – categorical or gradient? Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 301-304. Beckman, M. E. und J. B. Pierrehumbert (1986). Intonational structure in Japanese and English. Phonology Yearbook 3, S. 255-310.
388 388
Literatur Literatur
Beckman, M. E. (1995). Problems of intonation. Proceedings of the 13th ICPhS, Stockholm, Sweden, S. 450-457. Békésy, G. von (1960). Experiments in hearing. New York: McGraw-Hill. Békésy, G. von (1972). The missing fundamental and periodicity detection in hearing. JASA 51(2), S. 631-637. Benary, W. (1924). Beobachtungen zu einem Experiment über Helligkeitskontrast. Psychologische Forschung 5, S. 131-142. Biederman, I. (1987). Recognition-by-components: a theory of human image understanding. Psychological Review 94, S. 115-147. Bloch, B. (1948). A set of postulates for phonemic analysis. Language 24, S. 3-46. Bloomfield, L. (1935). Language. London: George Allen & Unwin. Bolinger, D. (1972). Around the edge of language: Intonation. In: D. Bolinger (Hrsg.). Intonation – Selected readings. Harmondsworth: Penguin. S. 19-29. Bolinger, D. (1986). Intonation and ist parts. Palo Alto: Stanford University Press. Borden, G. J., K. S. Harris und R. J. Lawrence (1994). Speech science primer. Physiology, acoustics, and perception of speech. Baltimore/Philadelphia: Williams & Wilkins. Bregman, A. S. (1990). Auditory scene analysis. Cambridge, Mass.: MIT Press. Brosnahan, L. F. und B. Malmberg (1970). Introduction to phonetics. Cambridge: Cambridge University Press. Browman, C. P. und L. Goldstein (1992). Articulatory Phonology: an overwiev. Phonetica 49, S. 155-180. Bruce, G. (1977). Swedish word accents in sentence perspective. Lund: Gleerup. Bruce, G. (1990). Alignment and composition of tonal accents: Comments on Silverman and Pierrehumbert’s paper. In J. Kingston und M. E. Beckman (Hrsg.). Papers in Laboratory Phonology I. Cambridge: Cambridge University Press. S. 107114. Bühler, K. (1927). Die Krise der Psychologie. Jena: G. Fischer. Campbell, N. und P. Mokthari (2003). Voice quality; the 4th prosodic parameter. Proceedings of the 15th ICPhS, Barcelona, Spain, S. 2417-2420. Caspers, J. und V. J. van Heuven (1993). Effects of time pressure on the phonetic realization of the Dutch accent-lending pitch rise and fall. Phonetica 50, S. 161-171. Cherry, E. C. (1953). Some experiments on the recognition of speech with one and with two ears. JASA 25, S. 975-979. Chiba, T. (1935). A study of accent. Research into its nature and scope in the light of experimental phonetics. The Hague: Mouton. Chuang, C.-K. und W. S.-Y. Wang (1978). Psychophysical pitch biases related to vowel quality, intensity difference, and sequential order. JASA 64(4), S. 10041014. Ciocca, V. und A. S. Bregman (1987). Perceived continuity of gliding and steady-state tones through interrupting noise. Perception and Psychophysics 42, S. 476-484. Clark, J. und C. Yallop (1995). An introduction to phonetics and phonology. Oxford: Blackwell. Cohen, A. und J. ´t Hart (1967). On the anatomy of intonation. Lingua 19, S. 177-192. Cohen, M. A., G. Stephen und L. L. Wyse (1995). A spectral network model of pitch perception. JASA 98(2), S. 862-879. Collier, R. (1972). From pitch to intonation. PhD Diss., Universität Leuven.
Literatur Literatur
389 389
Cooper, W. E., S. J. Eady und P. R. Mueller (1985). Acoustical aspects of contrastive stress in question-answer contexts. JASA 77, S. 2142-2156. Cruttenden, A. (1997). Intonation. Cambridge: Cambridge University Press. Crystal, D. (1995). Die Cambridge Enzyklopädie der Sprache. Frankfurt/New York: Campus. David, H. A., H. O. Hartley und E. S. Pearson. (1954). The distribution of the ratio, in a single normal sample, of range and standard deviation. Biometrika 41, S. 482-493. Delattre, P. (1972). The distinctive function of intonation. In: D. Bolinger (Hrsg.). Intonation – Selected readings. Harmondsworth: Penguin. S. 159-174. Delattre, P., E. Poenack und C. Olsen (1965). Some characteristics of German intonation for the expression of continuation and finality. Phonetica 13, S. 134-161. Denes, P. B. und E. N. Pinson (1973). The speech chain. The physics and biology of spoken language. New York: Anchor Press. Dimmick, F L. und R. M. Olsen (1941). The intensive difference limens in audition. JASA 12, S. 517-525. Dombrowski, E. (2003a). Steps to a common description of melody in music and speech. Proceedings of the 5th triennial ESCOM conference, Hannover, Germany, S. 479483. Dombrowski, E. (2003b). Semantic features of accent contours: effects of F0 peak position and F0 time shape. Proceedings of the 15th ICPhS, Barcelona, Spain, S. 12171220. Dombrowski, E. (2007). Prosodic rise and rise-fall contours and musical rising twotone patterns. Proceedings of the 16th ICPhS, Saarbrücken, Germany. Dombrowski, E. und O. Niebuhr (2005a). Phrase-final rises in German: some examples. URL: http://www.ipds.uni-kiel.de/kjk/forschung/lautmuster.en.html. Dombrowski, E. und O. Niebuhr (2005b). Acoustic patterns and communicative functions of phrase-final rises in German: activating and restricting contours. Phonetica 62, S. 176-195. Dommelen, W. A. van (1983). Parameter interaction in the perception of French plosives. Phonetica 40, S. 32-62. Dommelen, W. A. van (1995). Interactions of fundamental frequency contour and perceived duration in Norwegian. Phonetica 52, S. 180-187. Dubeda, T. (2006). Intensity as a macroprosodic variable in Czech. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 185-188. Duez, D. (2001). Restoration of deleted and assimilated consonant sequences in conversational French speech: effects of preceding and following context. Journal of the International Phoneic Association 31(1), S. 101-114 Duifhuis, H., L. F. Wilems und R. J. Sluyter (1982). Measurement of pitch in speech: an implementation of Goldstein´s theory of pitch perception. JASA 71(6), S. 1568-1580. Eriksson, A., E. Grabe und H. Traunmüller (2002). Perception of syllable prominence by listeners with and without competence in the tested language. Proceedings of the 1st international conference of speech prosody, Aix-en-Provence, France, S. 275-278. Ernestus, M., H. Baayen und R. Schreuder (2002). The recognition of reduced word forms. Brain and Language 81, S. 162-173. Essen, O. von (1964). Grundzüge der hochdeutschen Satzintonation. Ratingen: A. Hehn.
390 390
Literatur Literatur
Ewan, W. G. (1975). Explaining the intrinsic pitch of vowels. Tthe Fifth California Linguistics Association Conference, San José, May 4, 1975, S. 1-19. Fant, G. (1970). Acoustic theory of speech production. The Hague/Paris: Mouton. Fant,G. (1979). Glottal source and excitation analysis. Speech Transmission Laboratory – Quarterly Progress and Status Report 1, S. 85-107. Farnetani, E. (1997). Coartculation in connected speech processes. In W. J. Hardcastle und J. Laver (Hrsg.). Handbook of phonetic sciences. Oxford: Blackwell. S. 371-404. Féry, C. (1993). German Intonational Patterns. Tübingen: Max Niemeyer. Fischer-Jørgensen, E. (1969). Untersuchungen zum sogenannten festen und losen Anschluss. Kopenhagener germanistische Studien I, S. 138-164. Flanagan, J. L. (1955). Difference limen for the intensity of a vowel sound. JASA 27, S. 613-617. Flanagan, J. L. (1957). Difference limen for formant amplitude. Journal of Speech and Hearing Disorders 22, S. 206-212. Flanagan, J. J. und M. G. Saslow (1958). Pitch discrimination for synthetic vowels. JASA 30, S. 435-442. Flemming, E. (2005). A phonetically-based model of phonological vowel reduction. Manuskript. URL: http://web.mit.edu/~flemming/www/paper/vowelred.pdf Fletcher, H. (1940). Auditory patterns. Reviews of Modern Physics 12, S. 47-65. Fónagy, I. und K. Magdics (1963). Emotional patterns in intonation and music. Zeitschrift für Phonetik und allgemeine Sprachwissenschaft 16, S. 293-326. Fowler, C. A. und J. M. Brown (1997). Intrinsic f0 differences in spoken and sung vowels and their perception by listeners. Perception & Psychphysics 59(5), S. 729-738. Fox, A. (1984). German Intonation. Oxford: Clarendon. Fox, A. (2000). Prosodic features and prosodic structure – the phonology of suprasegmentals. Oxford: Oxford University Press. Fraisse, P. (1956). Les structures rhymiques. Louvain: Publication Universitaires de Louvain. Fry, D. B. (1955). Duration and intensity as physical correlates of linguistic stress. JASA 27, S. 765-768. Fry, D. B. (1958). Experiments in the perception of stress. Language and Speech 1, S. 126-152. Gårding, E. (1994). Prosody in Lund. Speech Communication 15, S. 59-67. Gartenberg, R. und C. Panzlaff-Reuter (1991). Production and perception of f0 peak patterns in German. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 25, S. 29-115. Gay, T. (1978). Physiological and acoustic correlates of perceived stress. Language and Speech 21, S. 347-353. Gendrot, C. und M. Adda-Decker (2005). Impact of duration on F1/F2 formant values of oral vowels: an automatic analysis of large broadcast news corpora in French and German. Proceedings of Interspeech 2005, Lisbon, Portugal, S. 2453-2456. Gilchrist, A., C. Kossyfidis, T. Agostini, X. Li, F. Bonato, J. Cataliotti, B. Spehar, V. Annan und E. Economou (1999). An anchoring theory of lightness perception. Psychological Review 106, S. 795-834.
Literatur Literatur
391 391
Gili Fivela, B. und M. Savino (2003). Segments, syllables and tonal alignment: A study on two varieties of Italian. Proceedings of the 15th ICPhS, Barcelona, Spain, S. 29332936. Gilles, P. (2005). Regionale Prosodie im Deutschen – Variabilität in der Intonation von Abschluss und Weiterweisung. Berlin/New York: de Gruyter. Gogel, W. C. (1978). The adjacency principle in visual perception. Scientific American 238, S. 126-139. Goldsmith, J. A. (1976). Autosegmental phonology. PhD Diss., MIT. Goldsmith, J. A. (1990). Autosegmental and metrical phonology. Oxford: Blackwell. Goldsmith, J. A. (1995). The handbook of phonological theory. Oxford: Blackwell. Goldstein, E. B. (1989). Sensation and perception. Belmont: Waldsworth. Goldstein, E. B. (2002). Wahrnehmungspsychologie. Heidelberg/Berlin: Spektrum. Goldstein, J. L. (1973). An optimum processor theory for the central formation of the pitch of complex tones. JASA 54, S. 1496-1516. Gósy, M. und J. Terken (1994). Question marking in Hungarian: timing and height of pitch peaks. Journal of Phonetics 22, S. 269-281. Grabe, E. (1998). Comparative intonational phonology: English and German. Wageningen. PhD Diss., Universität Nijmegen. Gregory, R. L. (1998). Psychologie des Sehens. Reinbeck: rororo. Grice, M. (1995). Leading tones and downstep in English. Phonology 12, S. 183-233. Grice, M. und S. Baumann (2000). Deutsche Intonation und GToBI. Linguistische Berichte 181, S. 1-33. Grice, M., D. R. Ladd und A. Arvaniti (2000). On the place of phrase accents in intonational phonology. Phonology 17, S. 143-185. Grønnum, N. (1992). The groundworks of Danish intonation. An introduction. Copenhagen: Museum Tusculanum Press. Gussenhoven, C. (1984). On the grammar and semantics of sentence accents. Dordrecht: Foris. Gussenhoven, C. (2000). The boundary tones are coming: On the nonperipheral realization of boundary tones. In M. Broe und J. B. Pierrehumbert (Hrsg.). Papers in Laboratory Phonology V. Cambridge: Cambridge University Press. S. 132-151. Gussenhoven, C. (2004). Explaining two correlations between vowel quality and tone: the duration connection. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 179-182. Gussenhoven, C. und B. H. Repp, A. C. M. Rietveld, H. H. Rump und J. Terken (1997). The perceptual prominence of fundamental frequency peaks. JASA 102, S. 3009-3021. Halliday, M. A. K. (1967). Intonation and grammar in British English. The Hague: Mouton. Halliday, M. A. K. (1978). Language as social semiotic: The social interpretation of language and meaning. London: Edward Arnold. Handel, S. (1986). Listening – An introduction to the perception of auditory events. Cambridge, Mass.: MIT Press. Harris, M. S. und Umeda, N. (1987). Difference limens for fundamental frequency contours in sentences. JASA 81(4), S. 1139-1145. Harris, Z. S. (1951). Structural Linguistics. Chicago: University of Chicago Press. ´t Hart, J. (1981). Differential sensitivity to pitch distance, particularly in speech. JASA 69, S. 811-821.
392 392
Literatur Literatur
‘t Hart, J., R. Collier und A. Cohen (1990). A perceptual study of intonation. An experimenttal- phonetic approach to speech melody. Cambridge/New York: Cambridge University Press. Hartline, H. K., H. G. Wagner und F. Ratliff (1956). Inhibition in the eye of limulus. Journal of Gen. Physiology 39, S. 651-673. Heider, F. (1930). Die Leistungen des Wahrnehmungssystems. Zeitschrift für Psychologie 114, S. 371-394. Helmholtz, H. von (1863). Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Unveränderter Nachdruck, 1981, Frankfurt: Minerva. Helsloot, K. und B. M. Streefkerk (1998). Perceived prominence and the metricalprosodic structure of Dutch sentences. Proceedings of the Institute of Phonetic Sciences of the University of Amsterdam 22, S. 97-111. Hermes, D. J. (1997). Timing of pitch movements and accentuation of syllables in Dutch. JASA 102, S. 2390-2401. Hirst, D. (2004). The phonology and phonetics of speech prosody: Between acoustics and interpretation. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 163-169. Hockett, C. F. (1958). A course in modern linguistics. New York: Macmillan. Hoffman, D. D. (2003). Visuelle Intelligenz – Wie die Welt im Kopf entsteht. München: dtv. Hollien, H. (1990). The acoustics of crime : the new science of forensic phonetics. New York: Plenum Press House, A. S. (1959). A note on optimal vocal frequency. Journal of Speech and Hearing Research 2, S. 55-60. House, D. (1990). Tonal perception in speech. Travaux de l’institute de linguistique de Lund 24, S. 7-163. House, D. (1996). Differential perception of tonal contours through the syllable. Proceedings of the 4th International Conference of Spoken Language Processing, Philadelphia, PA, USA, S. 2048-2051. House, D. (1999). Perception of pitch and tonal timing: implications for mechanisms of tonogenesis. Proceedings of the 14th ICPhS, San Francisco, USA, S. 1823-1826. House, D. und J.-O. Svantesson (1996). Tonal timing and vowel onset characteristics in Thai. Proceedings of the 4th International Symposiumon Languages and Linguistics 1, Bangkok, Thailand, S. 104-113. House, J. (1989). Syllable structure constraints on F0 timing. Poster präsentiert im Rahmen der LabPhon II, Edinburgh. Householder, F. W. (1971). Linguistic speculations. Cambridge: Cambridge University Press. Igarashi, Y. (2004). „Segmental anchoring“ of F0 under changes in speech rate: Evi dence from Russian. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 25-28. D’Imperio, M. und D. House (1997). Perception of questions and statements in Nea politan Italian. Proceedings of Eurospeech ‘97, Rhodes, Greece, S. 251-254. IPDS (1994). The Kiel corpus of read speech, volume 1, CD-ROM#1. Kiel: IPDS. IPDS (1995). The Kiel corpus of spontaneous speech, volume 1, CD-ROM#2. Kiel: IPDS. IPDS (1996). The Kiel corpus of spontaneous speech, volume 2, CD-ROM#3. Kiel: IPDS. IPDS (1997). The Kiel corpus of spontaneous speech, volume 3, CD-ROM#4. Kiel: IPDS.
Literatur Literatur
393 393
Irtel, H. (1991). Psychophysische Invarianzen in der Farb- und Helligkeitswahrnehmung. Berlin/New York: Springer. Isacenko, A. V. und H. J. Schädlich (1970). A model of Standard German intonation. The Hague: Mouton. Isenberg, D. und T. Gay (1978). Acoustic correlates of perceived stress in an isolated synthetic disyllable. JASA 64, S. 21. Jakobson, R. (1964). On visual and auditory signs. Phonetica 11, S. 216-220. Jokisch, O. und M. Kühne (2003). An investigation of intensity patterns for German. Proceedings of Eurospeech 2003, Geneva, Switzerland, S. 165-168. Jones, D. (1957). The history and meaning of the term ‘phoneme’. London: International Phonetic Association. Jones, D. (1962). The phoneme: its nature and use. Cambridge: Heffer. Jones, D. (1969). An outline of English phonetics. 9. Aufl., Cambridge: Heffer. Jones, M. R. (1981). A tutorial on some issues and methods in serial pattern research. Perception & Psychophysics 30(5), S. 492-504. Jones, W. E. und J. Laver (1973). Phonetics in Linguistics. London: Longman. Jong, K. de (1995). The supraglottal articulation of prominence in English: Linguistic stress as localized hyperarticulation. JASA 97, S. 491-504. Jongman, A. (1998). Effects of vowel length and syllable structure on segment duration in Dutch. Journal of Phonetics 26, S. 207-222. Julesz, B. und I. J. Hirsh (1972). Visual and auditory perception – an essay of comparison. In E. E. David und P. B. Denes (Hrsg.). Human communication – a unified view. New York: McGraw-Gill. S. 283-340. Kemps, R., M. Ernestus, R. Schreuder und H. Baayen (2004). Processing of reduced word forms: The suffix restotration effect. Brain and Language 90, S. 117-127. Kent, R. D. (1997). The speech sciences. San Diego/London: Singular. Kingdon, R. (1958). The Groundwork of English Intonation. London: Longmans. Klatt, D. H. (1973). Discrimination of fundamental frequency contours in synthetic speech: implications for models of pitch perception. JASA 53(1), S. 8-16. Klatt, D. H. (1979). Synthesis by rule of segmental duration in English sentences. In B. Lindblom und S. Öhman (Hrsg.). Frontiers of Speech Communication Research. London/New York: Academic Press. S. 287-299. Kleber, F. (2005). Experimentalphonetische Untersuchungen zu Form und Funktion fallender Intonationskonturen im Englischen. MA Diss., Universität Kiel. Kleber, F. (2006). Form and function of falling pitch contours in English. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 61-64. Kloster Jensen, M. (1963). Die Silbe in der Phonetik und Phonemik. Phonetica 9, S. 1738. Knudsen, E. I. und M. Konishi (1978). Center-surround organization of auditory receptive fields in the owl. Science 202, S. 778-780. Kohler, K. J. (1966). Is the syllable a phonological universal? Journal of Linguistics 2, S. 207-208. Kohler, K. J. (1979). Dimensions in the perception of lenis and fortis plosives. Phonetica 36, S. 332-343.
394 394
Literatur Literatur
Kohler, K. J. (1986). Parameters of speech rate perception in German words and sentences: duration, F0 movement, and F0 level. Language and Speech 29, S. 115139. Kohler, K. J. (1987). Categorical pitch perception. Proceedings of the 11th ICPhS, Tallinn, Estonia, S. 331-333. Kohler, K. J. (1990). Macro and micro F0 in the synthesis of intonation. In J. Kingston und M. E. Beckman (Hrsg.). Papers in Laboratory Phonology I. Cambridge: Cambridge University Press. S. 115-138. Kohler, K. J. (1991a). A model of German intonation. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 25, S. 295-360. Kohler, K. J. (1991b). Prosody in speech synthesis: the interplay between basic research and TTS application. Journal of Phonetics 19, S. 121-138. Kohler, K. J. (1991c). Terminal intonation patterns in single-accent utterances in German: phonetics, phonology and semantics. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 25, S. 117-185. Kohler, K. J. (1991d). The interaction of fundamental frequency and intensity in the perception of intonation. Proceedings of the 12th ICPhS, Aix-en-Provence, France, S. 186189. Kohler, K. J. (1995). Einführung in die Phonetik des Deutschen. Berlin: Erich Schmidt. Kohler, K. J. (1997). Modelling prosody in spontaneous speech. In Y Sagisaka, N. Campbell und H. Higuchi (Hrsg.). Computing prosody. Computational models for processing spontaneous speech. New York: Springer. S. 187-210. Kohler, K. J. (1998). The disappearance of words in connected speech. ZAS Working Papers in Linguistics 11, S. 21-34. Kohler, K. J. (2001a). Articulatory dynamics of vowel and consonants in speech communication. JIPA 31, S. 1-16. Kohler, K. J. (2001b). Plosive-related glottalization phenomena in read and spontaneous speech. A stod in German? In N. Gronnum und J. Rischel (Hrsg.). To honour Eli Fischer-Jorgensen (Traveaux du Cercle Linguistique de Copenhague XXXI). Copenhagen: C. A. Reitzel. S. 174-211. Kohler, K.J. (2004a) Pragmatic and attitudinal meanings of pitch patterns in German syntactically marked questions. In G. Fant, H. Fujisaki, J. Cao und Y. Xu (Hrsg.). From traditional phonology to modern speech processing – Festschrift for Professor Wu Zongji’s 95th Birthday. Beijing: Foreign Language Teaching and Research Press. S. 205-215. Kohler, K.J. (2004b) Prosody revisited – Function, time, and the listener in intonational phonology. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 171-174. Kohler, K. J. (2005). Timing and communicative functions of pitch contours. Phonetica 62, S. 88-105. Kohler, K. J. (2006a). Beyond laboratory phonology – the phonetics of speech communication. Manuskript. URL: http://www.ipds.uni-kiel.de/kjk/pub_exx/kk2006_3/ ohala.pdf. Kohler, K. J. (2006b). What is emphasis and how is it coded? Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 748-751. Kohler, K. J. und R. Gartenberg (1991). The perception of accents: F0 peak heigt versus F0 peak position. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 25, S. 219-294.
Literatur Literatur
395 395
Kohler, K. J. und O. Niebuhr (2007). The phonetics of emphasis. Proceedings of the 16th ICPhS, Saarbrücken, Germany. Koiso, H., Y. Horiuchi, S. Tutiya, A. Ichikawa und Y. Den (1998). An analysis of turn-taking and backchannels based on prosodic and syntactic features in Japanese map task dialogs. Language and Speech 41, S. 295-321. Koreman, J. (2006). The role of articulation rate in distinguishing fast and slow speakers. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 471-474. Kucera, H. und W. N. Francis (1967). Computational analysis of present-day American English. Providence: Brown University Press. Künzel, H. J., A. Braun und U. Eysholdt (1992). Einfluß von Alkohol auf Sprache und Stimme. Heidelberg: Kriminalistik-Verlag. Ladd, D. R. (1983). Phonological features of intonation peaks. Language 59, S. 721759. Ladd, D. R. (1996). Intonational Phonology. Cambridge: Cambridge University Press. Ladd, D. R. (2003). Phonological conditioning of F0 target alignment. Proceedings of the 15th ICPhS, Barcelona, Spain, S. 249-252. Ladd, D. R. und R. Morton (1997). The perception of intonational emphasis: continuous or categorical? Journal of Phonetics 25, S. 313-342. Ladd, D. R., D. Faulkner, H. Faulkner und A. Schepman (1999). Constant „segmental anchoring“ of F0 movements under changes in speech rate. JASA 106, S. 15431554. Ladd, D. R., I. Mennen und A. Schepman (2000). Phonological conditioning of peak alignment in rising pitch accents in Dutch. JASA 107, S. 2685-2696. Ladefoged, P. (1967). Three areas of experimental phonetics. London: Oxford University Press. Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich. Ladefoged, P. (1996). Elements of acoustic phonetics. Chicago/London: University of Chicago Press. Ladefoged, P. (2001). Vowels and consonants – an introduction to the sounds of language. Oxford: Blackwell. Landgraf, K. (2003). Steigende Intonationskonturen im Deutschen. Experimentalphonetische Untersuchungen zur auditiven Kategorisierung. MA Diss., Universität Kiel. Laver, J. (1994). Principles of phonetics. Cambridge/New York: Cambridge University Press. Legewie, H. und W. Ehlers (1999). Handbuch Moderne Psychologie. Augsburg: Bechtermünz. Lehiste, I. (1970). Suprasegmentals. Cambridge, Mass.: MIT Press. Lehiste, I. (1976). Influence of fundamental frequency pattern on the perception of duration. Journal of Phonetics 4, S. 113-117. Lehiste, I. und G. E. Peterson (1959). Vowel amplitude and phonemic stress in American English. JASA 31, S. 428-435. Lehiste, I. und G. E. Peterson (1961). Some basic considerations in the analysis of intonation. JASA 34(4), S. 419-425. Lehrdahl, F. und R. Jackendorff (1983). A generative theory of tonal music. Cambridge: MIT Press. Lenneberg, E. H. (1967). Biological foundations of language. New York: Wiley.
396 396
Literatur Literatur
Liberman, A. M., F. S. Cooper, D. P. Shankweiler und M. Studdert-Kennedy (1967). Perception of the speech code. Psychological Review 74, S. 431-461. Liberman, M.Y. (1975). The intonational system of English. PhD Diss, MIT. Liberman, M. Y. und A. Prince (1977). On stress and linguistic rhythm. Linguistic inquiry 8, S. 249-336. Liberman, M. Y. und J. B. Pierrehumbert (1984). Intonational invariance under changes in pitch range and length. In M. Arnoff und R. Oehrle (Hrsg.). Language Sound and Structure. Cambridge, Mass.: MIT Press. S. 157-233. Lindblom, B. (1963). Spectrographic study of vowel reduction. JASA 35, S. 11731181. Lindblom, B. (1983). Economy of speech gestures. In P. F. MacNeilage (Hrsg.). The production of speech. New York: Springer. S. 217-246. Lindblom, B. (1990). Explaining phonetic variation: a sketch of the H&H theory. In W. J. Hardcastle und A. Marchal (Hrsg.). Speech production and speech modelling. Dordrecht: Kluwer Academic Publishers. S. 403-439. Linville, S.E. (2001). Vocal Ageing. San Diego: Singular Publishing Group. Llisterri, J., R. Marin, C. de la Mota und A. Rios (1995). Factors affecting F0 peak displacement in Spanish. Proceedings of the 4th European conference on speech communication and technology, Eurospeech’95, Madrid, Spain, S. 2061-2064. Lotto, A.J. und K.R. Kluender (1998). General contrast effects in speech perception: Effect of preceding liquid and Stopp consonant identification. Perception and Psychophysics 60(4), S. 602-619. Lyons, J. (1972). Human language. In: R. Hinde (Hrsg.). Non-verbal communication. Cambridge: Cambridge University Press. S. 49-85. Mach, E. (1914). Die Analyse der Empfindungen und das Verhältnis des Psychischen zum Physischen. Jena: G. Fischer. Mack, M. und B. Gold (1986). The effect of linguistic content upon the discrimination of pitch in monotone stimuli. Jounral of Phonetics 14, S. 333-337. Maeda, S. (1974). A charaterization of fundamental frequency contours of speech. Speech Communication 16, S. 193-210. Marr, D. (1982). Vision. San Francisco: H. W. Freeman. Martin, P. (2002). Intonation’s many functions. The Multimodality of Human Communication: Theories, Problems and Applications, Toronto, Canada. Massaro, D. W. (1972). Perceptual images, processing time, and perceptual units in auditory perception. Psychological Review 79, S. 124-145. Menzerath, P. und A. de Lacerda (1933). Koartikulation, Steuerung und Lautabgrenzung. Bonn: Dümmler. Miller, G. A. (1948). The perception of short bursts of noise. JASA 20, S. 160-170. Miller, J. D., C. C. Wier, R. E. Pastore, W. J. Kelly und R. J. Dooling (1976). Discrimination and labeling of noise-buzz sequences with varying noise-lead times: an example of categorical perception. JASA 74(2), S. 502-517. Miller, R. L. (1953). Auditory tests with synthetic vowels. JASA 25, S. 144. Möbius, B. (1993). Ein quantitatives Modell der deutschen Intonation. Tübingen: Niemeyer. Moon, S.-J. und B. Lindblom (1994). Interaction between duration, context, and speaking style in English stressed vowels. JASA 96, S. 40-56. Moore, B. C. J. (1997). An introduction to the psychology of hearing. New York: Academic.
Literatur Literatur
397 397
Moray, N. (1959). Attention in dichotic listening: affective cues and the influence of instruction. Quart. Journal of Experimental Psychology 11, S. 56-60. Morgan, N. und E. Fosler-Lussier (1998). Combining multiple estimators of speaking rate. Proceedings ICASSP 1998, S. 729-732. Moulines, E. und F. Charpentier (1990). Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication 9, S. 453-467. Nábelek I. und I. J. Hirsh (1969). On the discrimination of frequency transitions. JASA 45(6), S. 1510-1519. Nakatani, L. und C. H. Aston (1978). Perceiving stress patterns of words in sentences. JASA 63, S. 55. Nespor, M. und I. Vogel (1986). Prosodic Phonology. Dordrecht: Foris. Niebuhr, O. (2003a). Perzeptorische Untersuchung zu Zeitvariablen in Grundfrequenzgipfeln. MA Diss., Universität Kiel. Niebuhr, O. (2003b). Perceptual study of timing variables in F0 peaks. Proceedings of the 15th ICPhS, Barcelona, Spain, S. 1225-1228. Niebuhr, O. (2004). Intrinsic pitch in opening and closing diphthongs of German. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 733-736. Niebuhr, O. (2006). The role of the accented-vowel onset in the perception of German early and medial peaks. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 109-112. Niebuhr, O. und Kohler, K. J. (2004). Perception and cognitive processing of tonal alignment in German. Proceedings of the International Symposium on Tonal Aspects of Languages: Emphasis on Tone Languages (TAL), Beijing, China, S. 155-158. Niebuhr, O. und Ambrazaitis, G. I. (2006). Alignment of medial and late peaks in German spontaneous speech. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 161-164. Noble, W. (1983). Hearing, hearing impairment, and the audible world: a theoretical essay. Audiology 22(4), S. 325-338. Nolan, F. und K. Farrar (1999). Timing of F0 peaks and peak lag. Proceedings of the 14th ICPhS, San Francisco, USA, S. 961-964. Nooteboom, S. G. (1972). Production and perception of vowel duration. PhD Diss., Universität Utrecht. Nooteboom, S. G., J. P. L. Brokx und J. J. de Rooij (1978). Contributions of prosody to speech perception. In W. J. M. Levelt und G. B. Flores d’Arcais (Hrsg.). Studies in the perception of language. New York: Wiley. S. 75-107. Ohala, J. J. (1973). Explanations for the intrinsic pitch of vowels. Monthly internal memorandum, Phonology Laboratory University of California, Berkeley, S. 9-26. O’Connor, J. D. und J. F. Arnold (1970). Intonation of colloquial English. London: Longman. Ohala, J. J. (1983). Cross-language use of pitch: An ethological view. Phonetica 40, S. 118. Ohala, J. J. (1984). An ethological perspective on common cross-language utilization of f0 of voice. Phonetica 41, S. 1-16.
398 398
Literatur Literatur
Ohala, J. J. (1992). The segment – Primitive or derived? In G. J. Docherty und D. R. Ladd (Hrsg.). Papers in Laboratory Phonology II. Cambridge: Cambridge University Press. S. 166-183. Ohala, J. J. (2004). Prosody and phonology. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 161. Öhman, S. (1966). Coarticulation in VCV utterances: spectrographic measurements. JASA 39, S. 151-168. Öhman, S. (1967). A numerical model of coarticulation. JASA 41, S. 310-320. Palmer, S. E. (1992). Common region: a new principal of perceptual grouping. Cognitive Psychology 24, S. 436-447. Palmer, S. E. (1999). Vision science. Cambridge: MIT Press. Palmer, S. E. und I. Rock (1994). Rethinking perceptual organization: the role of uniform connectedness. Psychonomic Bulletin and Review 1, S. 29-55. Pape, D., C. Mooshammer, S. Fuchs und P. Hoole (2005). Intrinsic pitch differences between German vowels /i:/, /I/ and /y:/ in a cross-linguistic perception experiment. Proceedings of the ISCA workshop on plasticity in speech perception, London, UK, S. 134-137. Peperkamp, S., E. Dupoux und N. Sebastián.Gallés (1999). Perception of stress by French, Spanish, and bilingual subjects. Proceedings of the 7th European Conference on Speech Communication and Technology, ESCA, S. 2683-2686. Perkell, J. und D. H. Klatt (1986). Invariance and variability in speech processes. Hillsdale: LEA. Peters, B. (2006). Form und Funktion prosodischer Grenzen im Gespräch. PhD Diss., Universiät Kiel. Peters, B. und K. J. Kohler (2004). Trainingsmaterialien zur prosodischen Etikettierung mit dem Kieler Intonationsmodell KIM. URL: www.ipds.unikiel.de/kjk/pub_exx/bpkk2004_1/ TrainerA4.pdf. Peters, B., K. J. Kohler und T. Wesener (2006). Melodische Satzakzentmuster in prosodischen Phrasen deutscher Spontansprache – statistische Verteilung und sprachliche Funktion. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 35a, S. 7-54. Peters, J. (1999). The timing of nuclear high accents in German dialects. Proceedings of the 14th ICPhS, San Francisco, USA, S. 1877-1880. Peterson, G. E. und H. L. Barney (1952). Control methods used in a study of the vowels. JASA 24, S. 118-127. Peterson, G. E. und N. P. McKinney (1961). The measurement of speech power. Phonetica 7, S. 65-84. Pfitzinger, H. R. (1998). Local speech rate as a combination of syllable and phone rate. Proceedings of the ICSLP ’98, Sydney, Australia, S. 1087-1090. Pfitzinger, H. R. (2001). Phonetische Analyse der Sprechgeschwindigkeit. Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation 38, S. 117264. Pickles, J. O. (1988). An introduction to the physiology of hearing. London: Academic Press. Pierrehumbert, J. B. (1979). The perception of fundamental frequency declination. JASA 66, S. 363-369. Pierrehumbert, J. B. (1980). The phonology and phonetics of English intonation. PhD Diss, MIT.
Literatur Literatur
399 399
Pierrehumbert, J. B. und M. E. Beckman (1988). Japanese tone structure. Cambridge, Mass.: MIT Press. Pierrehumbert, J. B. und S. A. Steele (1989). Categories of tonal alignment in English. Phonetica 46, S. 181-196. Pierrehumbert, J. B. und J. Hirschberg (1990). The meaning of intonation contours in the interpretation of discourse. In P. R. Cohen, J. Morgan und M. E. Pollack (Hrsg.). Intentions in communication. Cambridge, Mass.: MIT Press. S. 271-311. Pijper, J. R. de (1983). Modelling British English intonation. Dordrecht/Cinnaminson: Foris. Pike, K. L. (1967). Language in relation to a unified theory of the structure of human behaviour. The Hague: Mouton. Pisoni, D. B. (1977). Identification and discrimination of the relative onset time of two component tones: implications for voicing perception in stops. JASA 61(5), S. 1351-1361. Plomp, R. (1967). Pitch of complex tones. JASA 41, S. 1526-1533. Plomp, R., W. A. Wagenaar und A. M. Mimpen (1973). Musical interval recognition with simultaneous tones. Acoustica 29, S. 101-109. Pollack, I. (1968). Detection of the rate of change of auditory frequency. Journal of the Experimental Psychology 77, S. 535-541. Povel, D. J. und H. Okkerman (1981). Accents in equitone sequencies. Perception & Psychophysics 30(6), S. 565-572. Prieto, P., J. van Santen und J. Hirschberg (1995). Tonal alignment patterns in Spanish. Journal of Phonetics 23, S. 429-451. Prinz, W. (1990). Wahrnehmung. In H. Spada (Hrsg.). Lehrbuch Allgemeine Psychologie. Bern: Huber. S. 25-114. Quast, H. (2000). Absolute perceived loudness of speech. Proceedings of the 7th joint symposium on neural computation, Los Angeles, California. Ramus, F. (2002).Acoustic correlates of linguistic rhythm: Perspectives. Proceedings of the 1st international conference of speech prosody, Aix-en-Provence, France, S. 115-120 Reetz, H. (1999). Artikulatorische und akustische Phonetik. Trier: WVT Wissenschaftlicher Verlag Trier. Repp, B. H. (1982). Phonetic trading relations and context effects: new experimental evidence for a speech mode of perception. Psychological Bullentin 92, S. 81-110. Riesz R. R. (1928). Differential intensity of the ear for pure tones. Physical Review 31, S. 867-875. Rietveld, A. C. M. und C. Gussenhoven (1985). On the relation between pitch excursion size and prominence. Journal of Phonetics 13, S. 299-308. Rietveld, T. und C. Gussenhoven (1995). Aligning pitch targets in speech synthesis: Effects of syllable structure. Journal of Phonetics 23, S. 375-385. Ritsma, R. (1967). Frequency dominant in the perception of the pitch of complex sounds. JASA 42, S. 191-198. Rosenvold, E. (1981). The role of intrinsic F0 and duration in the perception of stress. ARIPUC 15, S. 147-166. Rossi, M. (1971). Le seuil de glissando ou seuil de perception des variations tonales pour les sons de la parole. Phonetica 23, S. 1-33.
400 400
Literatur Literatur
Rossi, M. (2000). Intonation: Past, present, future. In A. Botinis (Hrsg.). Intonation. Dordrecht/Norwell: Kluwer Academic Publishers. S. 13-52. Rossing, T. D. und A. J. M. Houtsma (1986). Effects of signal envelope on the pitch of short sinusoidal tones. JASA 79, S. 1926-1933. Rubin, D. C. (1974). The subjective estimation of relative syllable frequency. Perception & Psychophysics 16, S. 193-196. Rubin, E. (1915). Synsoplevede Figurer. Copenhagen: Gyldendanske. Rump, H. H. und R. Collier (1996). Focus conditions and the prominence of pitchaccented syllables. Language and Speech 39, S. 1-17. Rutherford, W. (1886). A new theory of hearing. Journal of anatomy and physiology 21, S. 166-168. Sachs, L. (1972). Statistische Auswertungsmethoden. Berlin/New York: Springer. Santen, J. van und J. Hirschberg (1994). Segmental effects on timing and height of pitch contours. Proceedings of the international conference on spoken language processing, Yokohama, Japan, S. 719-722. Santen, J. van und B. Möbius (1997). Modeling pitch accent curves. Proceedings of the ESCA workshop, Intonation: Theory, Models, and Applications, Athens, Greece, S. 321324. Sasaki, T. (1980). Sound restoration and temporal localization of noise in speech and music sounds. Tohuku Psychological Folia 39, S. 79-88. Savin, H. B. und T. G. Bever (1970). The nonperceptual reality of the phoneme. Journal of Verbal Learning and Verbal Behaviour 9, S. 295-302. Saussure, F. de (1916). Cours de linguistique général. Paris: Payot. Schouten, J. F. (1940). The perception of subjective tones. Proceedings Koninklijke Nederlandse Akademie Wetenschappen 41, S. 1086-1093. Schröder, H. (1858). Über eine optische Inversion bei Betrachtung verkehrter, durch eine optische Vorrichtung entworfener physischer Bilder. Annalen der Physik und Chemie 181, S. 298-311. Seebeck, A. (1841). Beobachtungen über einige Bedingungen zur Entstehung von Tönen. Annalen der Physik und Chemie 53, S. 417-436. Selkirk, E. O. (1984). Phonology and Syntax: The relation between sound and structure. Cambridge, Mass.: MIT Press. Selting, M. (1987). Descriptive categories for the auditive analysis of intonation in conversation. Journal of Pragmatics 11, S. 777-791. Selting, M. (2004). Regionalized intonation in its conversational context. In: P. Gilles und J. Peters (Hrsg.). Regional variation in intonation. Tübingen: Niemeyer. S. 49-74. Sergeant, R. L. und J. D. Harris (1962). Sensitivity to unidirectional frequency modulation. JASA 34, S. 1625-1628. Shattuck-Hufnagel, S. (1992). The role of word structure in segmental serial ordering. Cognition 42, S. 213-259. Shinozaki, T. und S. Furui (2003). Hidden mode HMM using bayesian network for modeling speaking rate fluctuation. Proceedings of automatic speech recognition and understanding, St. Thomas, Virgin Islands, S. 566-571. Shinya, T. (2006). Lexical accent status affects perceived prominence of intonational peaks in Japanese. Proceedings of the 3rd Iinternational Conference of Speech Prosody, Dresden, Germany, S. 89-92.
Literatur Literatur
401 401
Sievers, E. (1901). Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. Leipzig: Breitkopf & Härtel. Silverman, K. E. (1987). The structure and processing of fundamental frequency contours. PhD Diss., Universität Cambridge. Silverman, K. E. und J. B. Pierrehumbert (1990). The timing of prenuclear high accents in English. In J. Kingston und M. E. Beckman (Hrsg.). Papers in Laboratory Phonology I. Cambridge: Cambridge University Press. S. 72-106. Simpson, A. P. (1998). Phonetische Datenbanken des Deutschen in der empirischen Sprachforschung und der phonologischen Theoriebildung. Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung 33, S. 1-233. Sodian, B. (2002). Entwicklung begrifflichen Wissens. In R. Oerter und L. Montada (Hrsg.). Entwicklungspsychologie. Basel/Berlin: Beltz. S. 443-466. Sommerstein, A. H. (1977). Modern phonology. London: Edward Arnold. Steele, S. A. (1986). Nuclear accent F0 peak location: Effects of rate, vowel, and number of following syllables. JASA 80, S. 51. Sternberg, S. (1969). The discovery of processing stages: extensions of Donders’ method. Acta Psychologica 30, S. 276-315. Stetson, R. H. (1951). Motor phonetics. Amsterdam: North-Holland. Stock, E. und C. Zacharias (1973). Deutsche Satzintonation. Leipzig: Verlag Enzyklopädie. Stoll, G. (1984). Pitch of vowels: experimental and theoretical investigation of its dependence on vowel quality. Speech Communication 3, S. 137-150. Strangert, E. (2003). Emphasis by pausing. Proceedings of the 15th ICPhS, Barceoina, Spain, S. 612-615. Summerfield, Q. (1981). Articulatory rate and perceptual constancy in phonetic perception. Journal of Experimental Psychology 7, S. 1074-1095. Tamburini, F. (2006). Reliable prominence identification in English spontaneous speech. Proceedings of the 3rd international conference of speech prosody, Dresden, Germany, S. 57-60. Taylor, J. R. (1989). Linguistic categorization: prototypes in linguistic theory. Oxford: Clarendon Press. Tent, J. und J. E. Clark (1980). An experimental investigation into the perception of slips of the tongue. Journal of Phonetics 8, S. 317-325. Terhardt, E. (1974). Pitch, consonance, and harmony. JASA 55, S. 1061-1069. Terken, J. (1991). Fundamental frequency and perceived prominence. JASA 89, S. 1768-1776. Thurlow, W. R. und A. M. Small (1955). Pitch perception for certain periodic auditory stimuli. JASA 27, S. 132. Tingsabadh, M. R. K. und A. S. Abramson (1999). Thai. In The International Phonetic Association. Handbook of the International Phonetic Association. A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press. S. 147150. Traunmüller, H. (1981). Perceptual dimension of openness in vowels. JASA 69, S. 1465-1475. Traunmüller, H. (1984). Articulatory and perceptual factors controlling the age- and sex-conditioned variability in formant frequencies of vowels. Speech Communication 3, S. 49-61.
402 402
Literatur Literatur
Traunmüller, H. (1985). The role of the fundamental and the higher formants in the perception of speaker size, vocal effort, and vowel openness. Inst. Linguist., Univ. Stockholm, PERLIUS 4, S. 99-102. Traunmüller, H. (1987). Some aspects of the sound of speech sounds. In M. E. H. Schouten (Hrsg.). The Psychophysics of Speech Perception. Dordrecht: Martinus Nijhoff. S. 293-305. Treisman, A. (1960). Contextual cues in selective listening. Quart. Journal of Experimental Psychology 12, S. 242-248. Treisman, A. (1987). Properties, parts, and objects. In K. R. Boff, L. Kaufman und F. P. Thomas (Hrsg.). Handbook of perception and human performance. New York: Wiley. S. 1-70. Trubetzkoy, N. S. (1939). Grundzüge der Phonologie – Travaux du Cercle Linguistique de Prague no. 7. Prag: Cercle Linguistique de Prague. Tseng, C.-Y. und B.-L. Fu (2005). Duration, intensity, and pause predictions in relation to prosody organization. Proceedings of Interspeech 2005, Lisbon, Portugal, S. 14051408. Uldall, E. (1972). Dimensions of meaning in intonation. In Bolinger, D. (Hrsg.). Intonation – Selected readings. Harmondsworth: Penguin. S. 250-259. Ungeheuer, G. (1968). Neuere Entwicklungen der Phonetik, Bulletin Fonograficzny IX, S. 3-28. Wallach, H., E. B. Newman und M. R. Rosenzweig (1949). The precedence effect in sound localization. Americam Journal of Psychology 62, S. 315-336. Warren, R. M. (1970). Perceptual restoration of missing speech sounds. Science 167, S. 392-393. Warren, R. M. (1984). Perceptual restoration of obliterated sounds. Psychological Bulletin 96, S. 371-383. Warren, R. M. und C. J. Obusek (1971). Speech perception and phonemic restorations. Perception and Psychophysics 9, S. 358-362. Warren, R. M. und G. L. Sherman (1974). Phonemic restorations based on subsequent context. Perception & Psychophysics 16(1), S. 150-156. Watson, J. B. (1930). Behaviorism. New York: Norton. Wendt, D. (1989). Allgemeine Psychologie – Eine Einführung. Stuttgart/Berlin: Kohlhammer. Wertheimer, M. (1921). Untersuchungen zur Lehre von der Gestalt I. Psychologische Forschung 1, S. 47-58. Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt II. Psychologische Forschung 4, S. 301-350. Wesener, T. (2001). Some non-sequential phenomena in German function words. JIPA 31, S. 17-27. Wessel, D. L. (1979). Timbre space as a musical control structure. Computer Music Journal 3, S. 45-52. White, M. (1981). The effect of the nature of surround on the perceived lightness of grey bars within square test gratings. Perception 10, S. 215-230. Whitney, W. D. (1867). Language and the study of language. London: N. Trübner.
Literatur Literatur
403 403
Wichmann, A., J. House und T. Rietveld (2000). Discourse constraints on F0 peak timing in English. In A. Botinis (Hrsg.). Intonation. Dordrecht/Norwell: Kluwer Academic Publishers. S. 163-182. Wiese, R. (1988). Silbische und lexikalische Phonologie: Studien zum Chinesischen und Deutschen. Tübingen: Niemeyer. Wightman, F. L. (1973). The pattern transformation model of pitch. JASA 54, S. 407416. Willems, N. J, R. Collier und J. ´t Hart (1988). A synthesis scheme for British English intonation. JASA 84, S. 1250-1261. Woodrow, H. (1951). Time perception. In S. S. Stevens (Hrsg.). Handbook of experimenttal psychology. New York: Wiley. S. 1224-1236. Xu, Y. (1998). Consistency of tone-syllable alignment across different syllable structures and speaking rates. Phonetica 55, S. 179-203. Xu, Y. (2004a). The PENTA model of speech melody: transmitting multiple communicative functions in parallel. Symposium 'From sound to sense’, Cambridge, USA, S. 9196. Xu, Y. (2004b). Separation of functional components of tone and intonation from observed F0 patterns. In G. Fant, H. Fujisaki, J. Cao & Y. Xu (Hrsg.). From traditional phonology to modern speech processing – Festschrift for Professor Wu Zongji’s 95th Birthday. Beijing: Foreign Language Teaching and Research Press. S. 483-506. Xu, Y. und X. Sun (2000). How fast can we really change pitch? Maximum speed of pitch change revisited. Proceedings of the 6th international conference on spoken language Processing, Beijing 2000, S. 666-669. Xu, Y. und X. Sun (2002). Maximum speed of pitch change and how it may relate to speech, JASA 111, S. 1399-1413. Xu, Y., C. X. Xu und X. Sun (2004). On the temporal domain of focus. Proceedings of the 2nd international conference of speech prosody, Nara, Japan, S. 81-84. Yule, G. (1993). The study of language. Cambridge: Cambridge University Press. Zaminer, F. (1979). Melodie. In C. Dahlhaus und H. H. Eggebrecht (Hrsg.). Brockhaus-Riemann Musiklexikon in vier Bänden. Wiesbaden/Mainz: Brockhaus. S. 108-110. Zimbardo, P. G. und F. L. Ruch (1978). Lehrbuch der Psychologie. Berlin/New York: Springer. Zimbardo, P. G. (1995). Psychologie. Berlin/New York: Springer. Zwicker, E. und R. Feldtkeller (1967). Das Ohr als Nachrichtenempfänger. Stuttgart: Hirzel. Zwislocki, J. J. (1969). Temporal summation of loudness. JASA 46, S. 431-441.