Slide 1

Slide 1 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter Johann-Mattis List∗ ∗Institut für Romanistik II Heinrich Heine Universität Düsseldorf 2011/07/01 1 / 36

Slide 2

Slide 2 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Gliederung des Vortrags Kognatenidentifikation in der historischen Linguistik Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Vorüberlegungen für eine automatische Implementierung Alinierung Ähnlichkeit Lautklassen Die neue Methode zur automatischen Kognatenidentifikation Arbeitsweise Arbeitsschritte Implementierung Evaluierung der Methode Kontrolldatensätze Ergebnisse 2 / 36

Slide 3

Slide 3 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kognatenidentifikation 3 / 36

Slide 4

Slide 4 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten The Geological Evidences of The Antiquity of Man with Remarks on Theories of The Origin of Species by Variation By Sir Charles Lyell London John Murray, Albemarle Street 1863 4 / 36

Slide 5

Slide 5 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten If we new not- hing of the existence of Latin, - if all historical documents previous to the fin- teenth century had been lost, - if tra- dition even was si- lent as to the former existance of a Ro- man empire, a me- re comparison of the Italian, Spanish, Portuguese, French, Wallachian, and Rhaetian dialects would enable us to say that at some time there must ha- ve been a language, from which these six modern dialects derive their origin in common. 4 / 36

Slide 6

Slide 6 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus 5 / 36

Slide 7

Slide 7 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. 5 / 36

Slide 8

Slide 8 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. 5 / 36

Slide 9

Slide 9 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. Indiziengestützte Beweisführung: Ausgehend von in der Gegenwart gegebenen Tatsachen wird, vor dem Hintergrund der Annahme graduellen Wandels, auf Tat- sachen in der Vergangenheit geschlossen. 5 / 36

Slide 10

Slide 10 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen 6 / 36

Slide 11

Slide 11 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). 6 / 36

Slide 12

Slide 12 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. 6 / 36

Slide 13

Slide 13 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. System: Die Sprache, in der das sprachliche Zeichen durch seine Form mit einer Bedeutung verknüpft wird. 6 / 36

Slide 14

Slide 14 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage 1 7 / 36

Slide 15

Slide 15 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen 8 / 36

Slide 16

Slide 16 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. 8 / 36

Slide 17

Slide 17 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. 8 / 36

Slide 18

Slide 18 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegan- gen. 8 / 36

Slide 19

Slide 19 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegan- gen. Kognatenbeziehung: Zwei Zeichen sind Nachfolger desselben Zeichens. 8 / 36

Slide 20

Slide 20 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English *[kupːas] “vessel” *kuppas Germanic hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasMeaning inLanguage isAncestor isDescendant isCognate isCognate isAncestor isDescendant hasForm 9 / 36

Slide 21

Slide 21 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kup] “cup” Kopf coupe German French *[kupːas] [kuːpa] *kuppas cūpa Germanic “vessel” “vessel” Latin hasForm hasMeaning inLanguage isDonor isRecipient isEtymologicallyRelated isEtymologicallyRelated hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasForm hasMeaning inLanguage isAncestor isDescendant isAncestor isDescendant 9 / 36

Slide 22

Slide 22 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten 10 / 36

Slide 23

Slide 23 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. 10 / 36

Slide 24

Slide 24 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. 10 / 36

Slide 25

Slide 25 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: 10 / 36

Slide 26

Slide 26 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. 10 / 36

Slide 27

Slide 27 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. nicht-genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil das eine Wort durch einen Entlehnungsprozess aus dem anderen hervorgegangen ist. 10 / 36

Slide 28

Slide 28 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten similarities coincidental Grk. theós Lat. deus ‘god’ non-coincidental natural Chi. māma Ger. Mama ‘mother’ non-natural genealogical Eng. tooth Ger. Zahn ‘tooth’ non-genealogical Eng. Marlboro Chi. wànbǎolù proper name 11 / 36

Slide 29

Slide 29 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kumulative Evidenz The force of our evidence is cumulative; while it might be possible to doubt the validity of each item taken separately, the inference from all the items combined is in many cases practically certain. Sturtevant (1940: 29) 12 / 36

Slide 30

Slide 30 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - 13 / 36

Slide 31

Slide 31 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - 13 / 36

Slide 32

Slide 32 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - * Proto-Germanic t a n d English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - - 13 / 36

Slide 33

Slide 33 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - Proto-Germanic t a n θ - English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - - 13 / 36

Slide 34

Slide 34 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - 13 / 36

Slide 35

Slide 35 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ Proto-Indo-European d e n t - Italian d ɛ n t ə Proto-Romance d e n t e French d ã - - 13 / 36

Slide 36

Slide 36 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː - θ Proto-Indo-European d e n t Italian d ɛ n t ə * Proto-Romance d e n t French d ã - - 13 / 36

Slide 37

Slide 37 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ 13 / 36

Slide 38

Slide 38 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Intuition und Objektivität Part of the process of “becoming” a competent Indo- Europeanist has always been recognized as coming to grasp “intuitively” concepts and types of changes in language so as to be able to pick and choose be- tween alternative explanations for the history and de- velopment of specific features of the reconstructed language and its offspring. Schwink (1994: 29) 14 / 36

Slide 39

Slide 39 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen 15 / 36

Slide 40

Slide 40 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. 15 / 36

Slide 41

Slide 41 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. 15 / 36

Slide 42

Slide 42 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. → Um das Problem der Zirkularität zu umgehen, wird all- gemein eine iterative Heuristik verwendet, mit deren Hilfe erste Hypothesen aufgestellt und sukzessive bestärkt oder verworfen werden. 15 / 36

Slide 43

Slide 43 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen h j - ä r t a - h - e - r z - - h - e a r t - - c - - o r d i s hjärta herz heart cordis Vorüberlegungen 16 / 36

Slide 44

Slide 44 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 17 / 36

Slide 45

Slide 45 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. 17 / 36

Slide 46

Slide 46 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in dersel- ben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. 17 / 36

Slide 47

Slide 47 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in dersel- ben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. Alinierungsanalysen sind grundsätzlich indifferent in Bezug auf die Natur der Korrespondenzen, die mit ihrer Hilfe dargestellt oder ermittelt werden. Eine ex- plizite historische Interpretation der Fakten muss im- mer in einem zweiten Schritt vorgenommen werden. 17 / 36

Slide 48

Slide 48 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H 0 18 / 36

Slide 49

Slide 49 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H 0 18 / 36

Slide 50

Slide 50 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H H 0 18 / 36

Slide 51

Slide 51 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit 19 / 36

Slide 52

Slide 52 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resem- blence, Lass 1997). 19 / 36

Slide 53

Slide 53 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resem- blence, Lass 1997). Genotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn gezeigt werden kann, dass systema- tische Korrespondenzbeziehungen zwischen ihren Seg- menten bestehen (genotypic resemblence, Lass 1997). 19 / 36

Slide 54

Slide 54 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ 20 / 36

Slide 55

Slide 55 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ Genotypische Ähnlichkeit German ʦʰaːn ‘tooth’ ≈ English tʊːθ ‘tooth’ Spanish eʧo ‘fact’ ≈ French fɛ ‘fact’ 20 / 36

Slide 56

Slide 56 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 21 / 36

Slide 57

Slide 57 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. 21 / 36

Slide 58

Slide 58 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. Genotypische Ähnlichkeit allein beruht auf einem bere- its vorgenommenen, im Laufe jahrelanger manueller Forschung betriebenen Vergleich der Sprachen einer Sprachfamilie. Sie taugt nicht als Heuristik für automa- tische Ansätze. 21 / 36

Slide 59

Slide 59 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 22 / 36

Slide 60

Slide 60 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen 23 / 36

Slide 61

Slide 61 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. 23 / 36

Slide 62

Slide 62 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. 23 / 36

Slide 63

Slide 63 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. Lautklassenbasierte Ansätze (vgl. bes. Dolgopolsky 1986) gruppieren sprachliche Laute basierend auf empirischen Studien in Korrespondenzklassen, wobei angenommen wird, dass Laute, die derselben Klasse aufgehören, signifikant häufiger in Korrespondenzbeziehungen in genetisch verwandten Sprachen auftauchen. 23 / 36

Slide 64

Slide 64 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36

Slide 65

Slide 65 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36

Slide 66

Slide 66 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36

Slide 67

Slide 67 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen K T P S 24 / 36

Slide 68

Slide 68 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 25 / 36

Slide 69

Slide 69 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 25 / 36

Slide 70

Slide 70 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Die neue Methode 26 / 36

Slide 71

Slide 71 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise 27 / 36

Slide 72

Slide 72 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. 27 / 36

Slide 73

Slide 73 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. 27 / 36

Slide 74

Slide 74 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermit- telt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. 27 / 36

Slide 75

Slide 75 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermit- telt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. Ausgabe: Eine Liste der Eingabedaten mitsamt Kognaz- itätsurteilen, wobei die Kognatensets in alinierter Form aus- gegeben werden, um spätere manuelle Analysen zu erle- ichtern. 27 / 36

Slide 76

Slide 76 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Number Words ger eng dan ... 1 all al ɔːl æˀl ... 2 ashes aʃə æʃ asg ... 3 bark rɪndə bɑːrk bɑːg ... 4 belly baux bɛlɪ ɔnəʁliwˀ ... 4 belly - - mæːvə ... 5 big ɡroːs bɪɡ sdoˀʁ ... 5 big - ɡreɪt - ... 28 / 36

Slide 77

Slide 77 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Basic Concept: belly CogID Language Gloss GlossID Entry Aligned Entry 5 ger belly 4 baux b au x 5 swe belly 4 buk b u k 5 nld belly 4 bœyk b œy k 5 nor belly 4 bʉːk b ʉː k 6 eng belly 4 bɛlɪ b ɛ l ɪ 7 dan belly 4 ɔnəʁliwˀ ɔ n ə ʁ l i wˀ 8 dan belly 4 mæːvə m æː v ə 8 swe belly 4 maːge m aː g e 8 nor belly 4 mɑːgə m ɑː g ə 1 28 / 36

Slide 78

Slide 78 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 29 / 36

Slide 79

Slide 79 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 29 / 36

Slide 80

Slide 80 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 29 / 36

Slide 81

Slide 81 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 29 / 36

Slide 82

Slide 82 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 29 / 36

Slide 83

Slide 83 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 5. Multiple Alinierung der ermittelten Kognatensets (List 2011), um die manuelle Kontrolle der Ergebnisse zu erleichtern. 29 / 36

Slide 84

Slide 84 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung LingPy LingPy (List 2011) ist eine frei verfügbare Pythonbibliothek, welche Klassen und Funktionen für verschiedenste Aufgaben in quantitativen Ansätzen in der historischen Linguistik zur Verfügung stellt. 30 / 36

Slide 85

Slide 85 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse * * * * * * * * * * * * * v o l - d e m o r t v - l a d i m i r - v a l - d e m a r - Evaluierung 31 / 36

Slide 86

Slide 86 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Benchmark-Datensätze für automatische Analysen Sprachfamilie Sprachen Umfang Urheber Germanisch 6 germanische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Romanisch 5 romanische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Bai 9 Varietäten der Bai- Sprache 110 Basiswörter Wang Feng (phonetische Lis- ten) Slavisch 4 slavische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Varia 8 Sprachen (5 in- dogermanische, 3 unverwandte) 100 Basiswörter Brat Kessler (phonetische Lis- ten) Japanisch 10 Dialekte 200 Basiswörter Shiro (1973, orthographische Listen), Mathias Dickmanns (Digitalisierung) 32 / 36

Slide 87

Slide 87 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 33 / 36

Slide 88

Slide 88 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs New Approach (Germ. Benchmark, Overlap: 6.6%) cognate non-cognate 33 / 36

Slide 89

Slide 89 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Erste Ergebnisse Datensatz Total False Pos. False Neg. Id. Kog. Kog. / Nicht-K. Germanisch 95 2 3 96 3:1 Romanisch 89 2 9 89 2:1 Slavisch 95 2 3 96 3:1 Bai 86 6 8 89 3:1 Varia 90 3 7 74 1:7 Japanisch 85 6 9 86 2:1 34 / 36

Slide 90

Slide 90 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Ergebnisse ger rom sla bai var jap Comparison of the Performance on the Testsets 0 20 40 60 80 100 Score Total Score COG Score 35 / 36

Slide 91

Slide 91 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung 36 / 36

Slide 92

Slide 92 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. 36 / 36

Slide 93

Slide 93 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. 36 / 36

Slide 94

Slide 94 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. 36 / 36

Slide 95

Slide 95 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. 36 / 36

Slide 96

Slide 96 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. Automatische Ansätze, die ihre Ergebnisse explizit machen, kön- nen uns helfen, unsere traditionellen Methoden neu zu über- denken, auf deren Grenzen hinweisen, und zeigen, wo Speku- lation über objektive Analyse triumphiert. 36 / 36

Slide 97

Slide 97 text

Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Danke für’s Zuhören! 37 / 36