Refine
Has Fulltext
- yes (3) (remove)
Is part of the Bibliography
- yes (3)
Document Type
- Doctoral Thesis (3)
Language
- German (3) (remove)
Keywords
- speech recognition test (3) (remove)
In der CI-Forschung ist bislang wenig untersucht worden, ob CI-Träger in der Lage sind, mit Hilfe ihrer Implantate Melodie- und Betonungsverläufe in der menschlichen Sprache zu erkennen. Da Cochlea-Implantate ursprünglich mit dem Fokus auf das phonologische Sprachverstehen entwickelt wurden, in den letzten Jahren jedoch technologische Verbesserungen kontinuierlich eingeführt wurden, ist diese Fragestellung besonders interessant. Solche Merkmale der Sprache, die sich in Form von Grundfrequenz- und Lautheitsschwankungen, sowie Sprechtempo- und Rhythmus darstellen, werden als Prosodie bezeichnet. Die menschliche Sprache ist affektiv geprägt und bei intensiven Gemütsregungen sind diese Melodieverläufe bzw. die prosodischen Merkmale besonders deutlich. Daher bietet es sich an, mit emotionaler Sprache zu arbeiten, sie dient als Lieferant für Grundfrequenz- und Intensitätsschwankungen. Im Rahmen psychologischer und linguistischer Untersuchungen sind solcherlei Versuche bereits an normalhörenden Personen durchgeführt worden, allerdings stets auf der Grundlage semantisch-sinntragender Sprache, deren Inhalt bei der Bewertung des Gehörten nicht ohne Einfluss bleibt. Daher wurde in der vorliegenden Arbeit eine künstliche Sprache automatisiert erzeugt, die in der statistischen Struktur ihrer Buchstabenzusammensetzung und Lautfolge der deutschen Sprache ähnelt. Diese Pseudosprache wurde in Form von 44 Sätzen in zehn verschiedenen Emotionen aufgenommen und durch nachträgliche Schneide- und Auswahlarbeiten als abhörbare Audiodateien fertiggestellt. Dabei lagen sie je zur Hälfte als 10- und 15-silbige Sätze vor. Es kamen professionelle digitale Aufnahmegeräte zum Einsatz, deren Aufstellung in Vorversuchen systematisch optimiert wurde. Die Evaluierung der Sätze und die anschließende Auswertung der Ergebnisse geschahen im Rahmen einer Untersuchung mit Probanden ohne Höreinschränkungen, um diesen neuartigen Test zunächst auf seine prinzipielle Anwendbarkeit hin zu prüfen. Die zugrundeliegende Fragestellung war, ob bei normalhörenden Personen ein korrektes Erkennen von Emotionen in der gesprochenen Sprache nachweisbar ist. Durch die Ergebnisse sollten Hinweise auf die Einsatzmöglichkeiten des Tests bei CI-Trägern gewonnen werden. Der Test wurde erst nach Ablauf einer vorgeschalteten Pilotstudie konstruiert. Dadurch konnten Verbesserungsmöglichkeiten im Design und in der Durchführung des Tests vorab erkannt und umgesetzt werden. Die Sätze wurden den Probanden der Hauptgruppe in einem genau festgelegten Schema vorgespielt, der Test war untergliedert in einen offen und einen geschlossen zu beurteilenden Abschnitt. Die Ergebnisse zeigen, dass die Fähigkeit der Probanden zur Erkennung der Emotionen nachweislich vorhanden ist, ohne Unterschied zwischen männlichen und weiblichen Probanden. Dabei wurden sowohl im offenen als auch im geschlossenen Test bestimmte Emotionen (z.B. Gleichgültigkeit, Panik, Trauer) grundsätzlich besser erkannt als andere (z.B. Ekel, Freude, Stolz). Zwei der Emotionen (Ärger, Zorn) erwiesen sich als kaum unterscheidbar, weswegen eine davon herausgenommen werden sollte und somit neun verwendbare Emotionen resultieren. Die Aufsprachen und die Evaluierung der prosodischen Sätze in dieser Arbeit sind Grundsteine für die Erörterung und Durchführung sinnvoller Veränderungen an diesem Prosodieverständnistest, bevor er bei CI-Trägern zur Anwendung kommt. Solche Veränderungen könnten in technischen Verbesserungen bestehen, in der Variation der prosodischen Darstellungsmöglichkeiten von Emotionen, in der Aufsprache durch professionelle Schauspieler oder in der Erweiterung um eine weibliche Sprecherstimme. Das Ziel zukünftiger Arbeiten zu diesem Thema ist es, den vorliegenden Test so weiterzuentwickeln, dass er in der Lage ist, in der CI-Forschung zur Gewinnung neuer Erkenntnisse beizutragen. Im Hinblick auf den weiteren praktischen Einsatz konnten bereits in dieser Arbeit die wichtigsten Voraussetzungen und Anforderungen erfüllt und das Konzept eines klinisch anwendbaren Emotions-Prosodietests erfolgreich umgesetzt werden.
Der Freiburger Einsilbersprachverständnistest weist einige Mängel auf, die seit vielen Jahren bekannt und in der Literatur beschrieben sind. Im Rahmen dieser Dissertation wurde eine Basis geschaffen, um diese Mängel zu beheben. Zunächst wurden möglichst viele Einsilber der deutschen Sprache zusammengetragen und durch eine Vorauswahl auf 1526 reduziert. Zur Verbesserung der Aufnahmequalität im Vergleich zu derjenigen von 1968 und 1976 kamen professionelle digitale Aufnahmegeräte zum Einsatz, deren Aufstellung in Vorversuchen systematisch optimiert wurde. Die Sprachaufnahmen wurden von einem Sprecher (Dipl.-Ing. Stefan Brill) und einer Sprecherin (Maria Mahfoud, Verfasserin dieser Dissertation) ausgeführt. Bei der Evaluierung der neuen Aufsprachen beschränkten wir uns auf die Schnittmenge der Freiburger Aufsprachen von 1968 und 1976. Der Aufsprachenvergleich dieser 378 Einsilber in den vier verschiedenen Fassungen 1968, 1976, 2007 mit männlicher Stimme und 2007 mit weiblicher Stimme erbrachte Aussagen über die Qualität der neuen in Bezug auf die alten Aufnahmen. Dies geschah im Rahmen einer Untersuchung an normalhörenden Probanden. Normalhörende verstehen Sprache ohne Störgeräusch in der Regel problemlos, sodass mit nahezu perfektem Wortverständnis gerechnet werden muss. Der Vergleich der Aufsprachen wäre so nicht möglich. Daher wurde das Wortverständnis erschwert, indem die Aufsprachen mit einem unterschiedlich starken Störgeräusch in Form eines CCITT-Rauschens überlagert wurden. Die Variation des Rauschpegels erlaubte es außerdem, die Verstehbarkeitseinbuße der Aufsprachen in Abhängigkeit vom Störgeräusch zu erfassen und zu vergleichen. Der Bereich der Variation wurde mithilfe einer vorgeschalteten Pilotstudie auf 0 dB bis -16 dB (SNR) festgelegt. Dadurch wurde ein Verständlichkeitsbereich von 5,5 % im schwersten bis 94,4 % im leichtesten Fall abgedeckt. Das Auftreteten von Randeffekten konnte somit vermieden werden. Die Sprachstimuli wurden den Probanden in einem genau auf die Fragestellung abgestimmten Reihenfolge- und Zuordnungsschema vorgespielt. Dabei wurde darauf geachtet, dass jeder Proband die gleiche Anzahl an Einsilbern aus den vier verschiedenen Aufsprachen hörte. Die Sprachverständlichkeitsschwellen ("speech reception threshold", SRT) betrugen -3,75 dB (1968), -5,80 dB (1976), -8,54 dB (2007M) und -7,59 dB (2007W). Im paarweisen Vergleich mit dem McNemar-Test erwiesen sich alle Aufsprachen mit Ausnahme des Paares 2007M - 2007W als statistisch signifikant unterschiedlich. Die Ergebnisse zeigen, dass die Verständlichkeit der Neuaufsprachen besser ist als diejenige der Aufsprachen von 1968 und 1976. Dies wurde besonders im Kontrast zu der Aufsprache von 1968 deutlich. Die Aufsprachen der 1526 Einsilber und die Evaluierung der ersten 378 Einsilber an Normalhörenden sind Grundsteine für die Erörterung sinnvoller Veränderungen am Einsilbersprachverständnistest. Solche Veränderungen könnten in der Bildung neuer Listen bestehen, innerhalb derer u. a. auf Phonemverteilungen, die Art und Weise der Zusammenstellung der Wörter und einen neuen Ablauf des Prüfungssystems geachtet werden sollte. Außerdem ermöglichen die Erkenntnisse dieser Dissertation eine Verbesserung des Vorgehens im Rahmen weiterführender Untersuchungen. Das Ziel ist ein Test, der den neuen technischen Möglichkeiten entspricht und bisherigen Kritikpunkten standhält.
Der im klinischen Alltag gebräuchlichste Sprachverständnistest ist der von Hahlbrock 1953 entwickelte Freiburger Sprachtest. Dieser Sprachtest steht allerdings wegen einer Vielzahl bestehender Mängel in der Kritik. Um einen neuen Sprachtest zur Verfügung stellen zu können, der diesen Kritikpunkten standhält, hatte Mahfoud (2009) einen Großteil der in Deutschland gebräuchlichen Einsilber mit modernen digitalen Geräten mit Hilfe eines semiprofessionellen Sprechers (Dipl.-Ing. S. Brill) aufgenommen. In dieser Arbeit wurden die 378 Wörter, die die Schnittmenge der beiden Aufnahmen des Freiburger Einsilberverständnistests von 1968 und 1976 bilden, in den drei Aufsprachevarianten an vier Probanden evaluiert. Dabei hatten sich Sprachverständlichkeitsschwellen (SRTs) von -3,75 dB (1968), -5,8 dB (1976) und -8,54 dB (M-2007) ergeben. Es hatte sich also gezeigt, dass das neu aufgenommene Sprachmaterial wesentlich besser verstanden wird als die Aufnahmen von 1968 und 1976. Mahfoud hatte die Grundlagen für einen neuen Sprachtests geschaffen. Diese wurden ausgebaut, indem die Aufnahmen der ausgewählten Wörter vervollständigt, die Qualität des gesamten Materials überprüft und gegebenenfalls verbessert wurde. Ziel der vorliegenden Arbeit war die Erzeugung eines Einsilber-Sprachtests mit ausgeglichener durchschnittlicher Verständlichkeit der Wortlisten. Die Evaluierung erfolgte mit einer homogenen Gruppe 20 normalhörender, junger Erwachsener. Um in einen empfindlichen Messbereich zu gelangen, wurden die WAV-Dateien nach Lautheitsabgleich aller Sprachsignale anhand des Maximums des SPL-Zeitverlaufs, mit einem CCITT-Rauschen von -8 dB belegt. Jeder der Probanden hörte alle 1554 Wörter in jeweils unterschiedlicher Reihenfolge ab und gab später Auskunft, ob er die Wörter und ihre Bedeutung kannte. Die Ergebnisse wurden mit Hilfe eines Programms, das in der Statistik- Programmiersprache "R" erstellt wurde, ausgewertet. So konnte nicht nur der Schwierigkeitsgrad aller 1554 Einsilber ermittelt werden, sondern auch der Bekanntheitsgrad jedes einzelnen Wortes. Ebenso konnten die Wortstrukturen, die Hauptvokale und deren Länge, die Anzahl der Lehnwörter und die Information, ob die betreffenden Wörter auch in den jeweiligen Aufnahmen des Freiburger Sprachverständnistests enthalten gewesen waren, mit einbezogen werden. Diese Worteigenschaften wurden für die Zuordnung der Wörter in Listen verwendet. Das wichtigste Kriterium war dabei der Schwierigkeitsgrad der Wörter. So konnte automatisiert eine zufällige initiale Verteilung der Wörter auf möglichst viele Listen und eine anschließende Harmonisierung der Listen in Bezug auf deren Schwierigkeitsgrad vorgenommen werden. Es wurden vier verschiedene Methoden der Zuordnung implementiert, die sich als unterschiedlich leistungsfähig erwiesen. Das bezüglich der Homogenität der Listen beste Resultat bestand aus 57 Listen mit einem MAD-Wert der Schwierigkeitsgrade von 0,00371 und einem Median der Verständlichkeit von 48,50 %. Das bezüglich der Anzahl günstigste Resultat bestand aus 61 Listen mit einem MAD-Wert von 0,01853 und einem Median von 47,25 %. Das Geschlecht der Probanden hatte keine Auswirkungen auf das Sprachverständnis, ebenso konnte keine Abhängigkeit von der Vokallänge und von der Zeitposition im Testverlauf nachgewiesen werden. Die Eigenschaften Wortstruktur, Zentralvokal, Sprachherkunft und Bekanntheitsgrad erwiesen sich jedoch als statistisch signifikante Einflussfaktoren. Damit ist die Grundlage eines neuen Sprachtests entstanden, der für Forschungszwecke mit Normalhörenden geeignet ist. Für die Verwendung mit hörgeschädigten Probanden ist jedoch eine weitere Evaluierung wünschenswert.