Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung
Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter Johann-Mattis List∗ ∗Institut für Romanistik II Heinrich Heine Universität Düsseldorf 2011/07/01 1 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Gliederung des Vortrags Kognatenidentifikation in der historischen Linguistik Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Vorüberlegungen für eine automatische Implementierung Alinierung Ähnlichkeit Lautklassen Die neue Methode zur automatischen Kognatenidentifikation Arbeitsweise Arbeitsschritte Implementierung Evaluierung der Methode Kontrolldatensätze Ergebnisse 2 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kognatenidentifikation 3 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten The Geological Evidences of The Antiquity of Man with Remarks on Theories of The Origin of Species by Variation By Sir Charles Lyell London John Murray, Albemarle Street 1863 4 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten If we new not- hing of the existence of Latin, - if all historical documents previous to the fin- teenth century had been lost, - if tra- dition even was si- lent as to the former existance of a Ro- man empire, a me- re comparison of the Italian, Spanish, Portuguese, French, Wallachian, and Rhaetian dialects would enable us to say that at some time there must ha- ve been a language, from which these six modern dialects derive their origin in common. 4 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus 5 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. 5 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. 5 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. Indiziengestützte Beweisführung: Ausgehend von in der Gegenwart gegebenen Tatsachen wird, vor dem Hintergrund der Annahme graduellen Wandels, auf Tat- sachen in der Vergangenheit geschlossen. 5 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen 6 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprachlichen Zeichens (eine Lautkette). 6 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprachlichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. 6 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprachlichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. System: Die Sprache, in der das sprachliche Zeichen durch seine Form mit einer Bedeutung verknüpft wird. 6 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage 1 7 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen 8 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. 8 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. 8 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegangen. 8 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegangen. Kognatenbeziehung: Zwei Zeichen sind Nachfolger desselben Zeichens. 8 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English *[kupːas] “vessel” *kuppas Germanic hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasMeaning inLanguage isAncestor isDescendant isCognate isCognate isAncestor isDescendant hasForm 9 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kup] “cup” Kopf coupe German French *[kupːas] [kuːpa] *kuppas cūpa Germanic “vessel” “vessel” Latin hasForm hasMeaning inLanguage isDonor isRecipient isEtymologicallyRelated isEtymologicallyRelated hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasForm hasMeaning inLanguage isAncestor isDescendant isAncestor isDescendant 9 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. nicht-genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil das eine Wort durch einen Entlehnungsprozess aus dem anderen hervorgegangen ist. 10 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten similarities coincidental Grk. theós Lat. deus ‘god’ non-coincidental natural Chi. māma Ger. Mama ‘mother’ non-natural genealogical Eng. tooth Ger. Zahn ‘tooth’ non-genealogical Eng. Marlboro Chi. wànbǎolù proper name 11 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kumulative Evidenz The force of our evidence is cumulative; while it might be possible to doubt the validity of each item taken separately, the inference from all the items combined is in many cases practically certain. Sturtevant (1940: 29) 12 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - * Proto-Germanic t a n d English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - Proto-Germanic t a n θ - English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ Proto-Indo-European d e n t - Italian d ɛ n t ə Proto-Romance d e n t e French d ã - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː - θ Proto-Indo-European d e n t Italian d ɛ n t ə * Proto-Romance d e n t French d ã - - 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ 13 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Intuition und Objektivität Part of the process of “becoming” a competent Indo- Europeanist has always been recognized as coming to grasp “intuitively” concepts and types of changes in language so as to be able to pick and choose be- tween alternative explanations for the history and de- velopment of specific features of the reconstructed language and its offspring. Schwink (1994: 29) 14 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen 15 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. 15 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. 15 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. → Um das Problem der Zirkularität zu umgehen, wird all- gemein eine iterative Heuristik verwendet, mit deren Hilfe erste Hypothesen aufgestellt und sukzessive bestärkt oder verworfen werden. 15 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen h j - ä r t a - h - e - r z - - h - e a r t - - c - - o r d i s hjärta herz heart cordis Vorüberlegungen 16 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 17 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. 17 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in derselben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. 17 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in derselben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. Alinierungsanalysen sind grundsätzlich indifferent in Bezug auf die Natur der Korrespondenzen, die mit ihrer Hilfe dargestellt oder ermittelt werden. Eine ex- plizite historische Interpretation der Fakten muss im- mer in einem zweiten Schritt vorgenommen werden. 17 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H 0 18 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H H 0 18 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit 19 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resemblence, Lass 1997). 19 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resemblence, Lass 1997). Genotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn gezeigt werden kann, dass systematische Korrespondenzbeziehungen zwischen ihren Seg- menten bestehen (genotypic resemblence, Lass 1997). 19 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ 20 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ Genotypische Ähnlichkeit German ʦʰaːn ‘tooth’ ≈ English tʊːθ ‘tooth’ Spanish eʧo ‘fact’ ≈ French fɛ ‘fact’ 20 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 21 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. 21 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. Genotypische Ähnlichkeit allein beruht auf einem bere- its vorgenommenen, im Laufe jahrelanger manueller Forschung betriebenen Vergleich der Sprachen einer Sprachfamilie. Sie taugt nicht als Heuristik für automatische Ansätze. 21 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 22 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen 23 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automatische Applikationen geeignet ist. 23 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automatische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. 23 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automatische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. Lautklassenbasierte Ansätze (vgl. bes. Dolgopolsky 1986) gruppieren sprachliche Laute basierend auf empirischen Studien in Korrespondenzklassen, wobei angenommen wird, dass Laute, die derselben Klasse aufgehören, signifikant häufiger in Korrespondenzbeziehungen in genetisch verwandten Sprachen auftauchen. 23 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen K T P S 24 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 25 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 25 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Die neue Methode 26 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise 27 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. 27 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. 27 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermittelt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. 27 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermittelt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. Ausgabe: Eine Liste der Eingabedaten mitsamt Kognaz- itätsurteilen, wobei die Kognatensets in alinierter Form aus- gegeben werden, um spätere manuelle Analysen zu erleichtern. 27 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Number Words ger eng dan ... 1 all al ɔːl æˀl ... 2 ashes aʃə æʃ asg ... 3 bark rɪndə bɑːrk bɑːg ... 4 belly baux bɛlɪ ɔnəʁliwˀ ... 4 belly - - mæːvə ... 5 big ɡroːs bɪɡ sdoˀʁ ... 5 big - ɡreɪt - ... 28 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Basic Concept: belly CogID Language Gloss GlossID Entry Aligned Entry 5 ger belly 4 baux b au x 5 swe belly 4 buk b u k 5 nld belly 4 bœyk b œy k 5 nor belly 4 bʉːk b ʉː k 6 eng belly 4 bɛlɪ b ɛ l ɪ 7 dan belly 4 ɔnəʁliwˀ ɔ n ə ʁ l i wˀ 8 dan belly 4 mæːvə m æː v ə 8 swe belly 4 maːge m aː g e 8 nor belly 4 mɑːgə m ɑː g ə 1 28 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 5. Multiple Alinierung der ermittelten Kognatensets (List 2011), um die manuelle Kontrolle der Ergebnisse zu erleichtern. 29 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung LingPy LingPy (List 2011) ist eine frei verfügbare Pythonbibliothek, welche Klassen und Funktionen für verschiedenste Aufgaben in quantitativen Ansätzen in der historischen Linguistik zur Verfügung stellt. 30 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse * * * * * * * * * * * * * v o l - d e m o r t v - l a d i m i r - v a l - d e m a r - Evaluierung 31 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Benchmark-Datensätze für automatische Analysen Sprachfamilie Sprachen Umfang Urheber Germanisch 6 germanische Sprachen 110 Basiswörter Tower of Babel (orthographische Listen), Mattis List (phonetische Kodierung) Romanisch 5 romanische Sprachen 110 Basiswörter Tower of Babel (orthographische Listen), Mattis List (phonetische Kodierung) Bai 9 Varietäten der Bai- Sprache 110 Basiswörter Wang Feng (phonetische Lis- ten) Slavisch 4 slavische Sprachen 110 Basiswörter Tower of Babel (orthographische Listen), Mattis List (phonetische Kodierung) Varia 8 Sprachen (5 in- dogermanische, 3 unverwandte) 100 Basiswörter Brat Kessler (phonetische Lis- ten) Japanisch 10 Dialekte 200 Basiswörter Shiro (1973, orthographische Listen), Mathias Dickmanns (Digitalisierung) 32 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 33 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs New Approach (Germ. Benchmark, Overlap: 6.6%) cognate non-cognate 33 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Erste Ergebnisse Datensatz Total False Pos. False Neg. Id. Kog. Kog. / Nicht-K. Germanisch 95 2 3 96 3:1 Romanisch 89 2 9 89 2:1 Slavisch 95 2 3 96 3:1 Bai 86 6 8 89 3:1 Varia 90 3 7 74 1:7 Japanisch 85 6 9 86 2:1 34 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Ergebnisse ger rom sla bai var jap Comparison of the Performance on the Testsets 0 20 40 60 80 100 Score Total Score COG Score 35 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. Automatische Ansätze, die ihre Ergebnisse explizit machen, kön- nen uns helfen, unsere traditionellen Methoden neu zu über- denken, auf deren Grenzen hinweisen, und zeigen, wo Speku- lation über objektive Analyse triumphiert. 36 / 36

Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Danke für’s Zuhören! 37 / 36

Eine neue Methode zur automatischen Identifikat...

Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter

More Decks by Johann-Mattis List

Other Decks in Science

Featured

Transcript