006 Spezielle Computerverfahren
Refine
Has Fulltext
- yes (3)
Is part of the Bibliography
- yes (3)
Document Type
- Journal article (1)
- Conference Proceeding (1)
- Master Thesis (1)
Language
- German (3) (remove)
Keywords
- Digital Humanities (2)
- Digitale Textanalyse (1)
- Domänenadaption (1)
- Entscheidungsfindung (1)
- Ethik (1)
- Figurenerkennung (1)
- Figurenkonstellation (1)
- Figurennetzwerke (1)
- Künstliche Intelligenz (1)
- Literatur (1)
Institute
Die künstliche Intelligenz (KI) entwickelt sich rasant und hat bereits eindrucksvolle Erfolge zu verzeichnen, darunter übermenschliche Kompetenz in den meisten Spielen und vielen Quizshows, intelligente Suchmaschinen, individualisierte Werbung, Spracherkennung, -ausgabe und -übersetzung auf sehr hohem Niveau und hervorragende Leistungen bei der Bildverarbeitung, u. a. in der Medizin, der optischen Zeichenerkennung, beim autonomen Fahren, aber auch beim Erkennen von Menschen auf Bildern und Videos oder bei Deep Fakes für Fotos und Videos. Es ist zu erwarten, dass die KI auch in der Entscheidungsfindung Menschen übertreffen wird; ein alter Traum der Expertensysteme, der durch Lernverfahren, Big Data und Zugang zu dem gesammelten Wissen im Web in greifbare Nähe rückt. Gegenstand dieses Beitrags sind aber weniger die technischen Entwicklungen, sondern mögliche gesellschaftliche Auswirkungen einer spezialisierten, kompetenten KI für verschiedene Bereiche der autonomen, d. h. nicht nur unterstützenden Entscheidungsfindung: als Fußballschiedsrichter, in der Medizin, für richterliche Entscheidungen und sehr spekulativ auch im politischen Bereich. Dabei werden Vor- und Nachteile dieser Szenarien aus gesellschaftlicher Sicht diskutiert.
Die vorliegende Arbeit lässt sich dem Bereich der quantitativen Literaturanalyse zuordnen und verfolgt das Ziel, mittels computergestützter Verfahren zu untersuchen, inwieweit sich Romane hinsichtlich ihrer Figurenkonstellation ähneln. Dazu wird die Figurenkonstellation, als wichtiges strukturgebendes Ordnungsprinzip eines Romans, als soziales Netzwerk der Figuren operationalisiert. Solche Netzwerke können unter Anwendung von Verfahren des Natural Language Processing automatisch aus dem Text erstellt werden.
Als Datengrundlage dient ein Korpus von deutschsprachigen Romanen aus dem 19. Jahrhundert, das mit automatischen Verfahren zur Figurenerkennung und Koreferenzauflösung prozessiert und manuell nachkorrigiert wurde, um eine möglichst saubere Datenbasis zu schaffen.
Ausgehend von der intensiven vergleichenden Betrachtung der Figurenkonstellationen von Fontanes "Effi Briest" und Flauberts "Madame Bovary" wurde in einer manuell erstellten Distanzmatrix die menschliche Intuition solcher Ähnlichkeit zwischen allen Romanen des Korpus festgehalten, basierend auf der Lektüre von Zusammenfassungen der Romane. Diese Daten werden als Evaluationsgrundlage genutzt.
Mit Hilfe von Methoden der sozialen Netzwerkanalyse können strukturelle Eigenschaften dieser Netzwerke als Features erhoben werden. Diese wurden anschließend zur Berechnung der Kosinusdistanz zwischen den Romanen verwendet.
Obwohl die automatisch erstellten Netzwerke die Figurenkonstellationen der Romane im Allgemeinen gut widerspiegeln und die Netzwerkfeatures sinnvoll interpretierbar sind, war die Korrelation mit der Evaluationsgrundlage niedrig. Dies legt die Vermutung nahe, dass neben der Struktur der Figurenkonstellation auch wiederkehrende Themen und Motive die Erstellung der Evaluationsgrundlage unterbewusst beeinflusst haben.
Daher wurde Topic Modeling angewendet, um wichtige zwischenmenschliche Motive zu modellieren, die für die Figurenkonstellation von Bedeutung sein können. Die Netzwerkfeatures und die Topic-Verteilung wurden in Kombination zur Distanzberechnung herangezogen. Außerdem wurde versucht, jeder Kante des Figurennetzwerks ein Topic zuzuordnen, das diese Kante inhaltlich beschreibt. Hier zeigte sich, dass einerseits Topics, die sehr spezifisch für bestimmte Texte sind, und andererseits Topics, die über alle Texte hinweg stark vertreten sind, das Ergebnis bestimmen, sodass wiederum keine, bzw. nur eine sehr schwache Korrelation mit der Evaluationsgrundlage gefunden werden konnte.
Der Umstand, dass keine Verbindung zwischen den berechneten Distanzen und der Evaluationsgrundlage gefunden werden konnte, obwohl die einzelnen Features sinnvoll interpretierbar sind, lässt Zweifel an der Evaluationsmatrix aufkommen. Diese scheint stärker als zu Beginn angenommen unterbewusst von thematischen und motivischen Ähnlichkeiten zwischen den Romanen beeinflusst zu sein. Auch die Qualität der jeweiligen Zusammenfassung hat hier einen nicht unwesentlichen Einfluss. Daher wäre eine weniger subjektiv geprägte Möglichkeit der Auswertung von Nöten, beispielsweise durch die parallele Einschätzung mehrerer Annotatoren. Auch die weitere Verbesserung von NLP-Verfahren für literarische Texte in deutscher Sprache ist ein Desideratum für anknüpfende Forschungsansätze.
Eine wichtige Grundlage für die quantitative Analyse von Erzähltexten, etwa eine Netzwerkanalyse der Figurenkonstellation, ist die automatische Erkennung von Referenzen auf Figuren in Erzähltexten, ein Sonderfall des generischen NLP-Problems der Named Entity Recognition. Bestehende, auf Zeitungstexten trainierte Modelle sind für literarische Texte nur eingeschränkt brauchbar, da die Einbeziehung von Appellativen in die Named Entity-Definition und deren häufige Verwendung in Romantexten zu einem schlechten Ergebnis führt. Dieses Paper stellt eine anhand eines manuell annotierten Korpus auf deutschsprachige Romane des 19. Jahrhunderts angepasste NER-Komponente vor.