Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Eine neue Methode zur automatischen Identifikat...

Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter

Talk held at the workshop NLP Methods in Historical Linguistics. Heinrich Heine University Düsseldorf. 2011/07/01.

Johann-Mattis List

July 01, 2011
Tweet

More Decks by Johann-Mattis List

Other Decks in Science

Transcript

  1. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Eine neue Methode zur automatischen Identifikation etymologisch verwandter Wörter Johann-Mattis List∗ ∗Institut für Romanistik II Heinrich Heine Universität Düsseldorf 2011/07/01 1 / 36
  2. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Gliederung des Vortrags Kognatenidentifikation in der historischen Linguistik Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Vorüberlegungen für eine automatische Implementierung Alinierung Ähnlichkeit Lautklassen Die neue Methode zur automatischen Kognatenidentifikation Arbeitsweise Arbeitsschritte Implementierung Evaluierung der Methode Kontrolldatensätze Ergebnisse 2 / 36
  3. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kognatenidentifikation 3 / 36
  4. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten The Geological Evidences of The Antiquity of Man with Remarks on Theories of The Origin of Species by Variation By Sir Charles Lyell London John Murray, Albemarle Street 1863 4 / 36
  5. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Von Schichten zu Geschichten If we new not- hing of the existence of Latin, - if all historical documents previous to the fin- teenth century had been lost, - if tra- dition even was si- lent as to the former existance of a Ro- man empire, a me- re comparison of the Italian, Spanish, Portuguese, French, Wallachian, and Rhaetian dialects would enable us to say that at some time there must ha- ve been a language, from which these six modern dialects derive their origin in common. 4 / 36
  6. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus 5 / 36
  7. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. 5 / 36
  8. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. 5 / 36
  9. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Uniformitarianismus Uniformität des Wandels: Es wird davon ausgegangen, dass die Gesetze des Wandels uniform sind, d. h. dass sie genauso in der Vergangenheit galten, wie sie in der Gegenwart gelten und in der Zukunft gelten werden. Gradualität des Wandels: Es wird davon ausgegangen, dass Wandel graduell vor sich geht. Indiziengestützte Beweisführung: Ausgehend von in der Gegenwart gegebenen Tatsachen wird, vor dem Hintergrund der Annahme graduellen Wandels, auf Tat- sachen in der Vergangenheit geschlossen. 5 / 36
  10. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen 6 / 36
  11. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). 6 / 36
  12. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. 6 / 36
  13. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen Form: Die materielle Erscheinungsform des sprach- lichen Zeichens (eine Lautkette). Funktion: Die Bedeutung des sprachlichen Zeichens. System: Die Sprache, in der das sprachliche Zeichen durch seine Form mit einer Bedeutung verknüpft wird. 6 / 36
  14. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Das sprachliche Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage 1 7 / 36
  15. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen 8 / 36
  16. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. 8 / 36
  17. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. 8 / 36
  18. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegan- gen. 8 / 36
  19. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen Etymologische Beziehung: Sprachliche Zeichen teilen eine gemeinsame Geschichte. Vorgänger-Nachfolger-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen graduellen Wandel- prozess hervorgegangen. Donor-Rezipient-Beziehung: Ein Zeichen ist aus einem anderen Zeichen durch einen diskreten Prozess der Übertragung (aus einer anderen Sprache) hervorgegan- gen. Kognatenbeziehung: Zwei Zeichen sind Nachfolger desselben Zeichens. 8 / 36
  20. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kʌp] “cup” Kopf cup German English *[kupːas] “vessel” *kuppas Germanic hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasMeaning inLanguage isAncestor isDescendant isCognate isCognate isAncestor isDescendant hasForm 9 / 36
  21. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Beziehungen zwischen sprachlichen Zeichen [kɔp͡f] “head” [kup] “cup” Kopf coupe German French *[kupːas] [kuːpa] *kuppas cūpa Germanic “vessel” “vessel” Latin hasForm hasMeaning inLanguage isDonor isRecipient isEtymologicallyRelated isEtymologicallyRelated hasForm hasMeaning hasForm hasMeaning inLanguage inLanguage hasForm hasMeaning inLanguage isAncestor isDescendant isAncestor isDescendant 9 / 36
  22. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten 10 / 36
  23. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. 10 / 36
  24. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. 10 / 36
  25. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: 10 / 36
  26. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. 10 / 36
  27. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten zufällige Ähnlichkeiten: Wörter klingen zufällig gleich oder ähnlich. natürliche Ähnlichkeiten: Wörter klingen gleich, weil sie universellen Denotatonsmustern folgen. historisch bedingte Ähnlichkeiten: genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil sie aus einer gemeinsamen Vorgängerform ent- standen sind. nicht-genealogische Ähnlichkeiten: Wörter klingen ähnlich, weil das eine Wort durch einen Entlehnungsprozess aus dem anderen hervorgegangen ist. 10 / 36
  28. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Identifizieren historisch bedingter Ähnlichkeiten similarities coincidental Grk. theós Lat. deus ‘god’ non-coincidental natural Chi. māma Ger. Mama ‘mother’ non-natural genealogical Eng. tooth Ger. Zahn ‘tooth’ non-genealogical Eng. Marlboro Chi. wànbǎolù proper name 11 / 36
  29. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Kumulative Evidenz The force of our evidence is cumulative; while it might be possible to doubt the validity of each item taken separately, the inference from all the items combined is in many cases practically certain. Sturtevant (1940: 29) 12 / 36
  30. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - 13 / 36
  31. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - 13 / 36
  32. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - * Proto-Germanic t a n d English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e * Proto-Romance d e n t French d ã - - - 13 / 36
  33. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - - Proto-Germanic t a n θ - English t ʊː - θ - ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - - 13 / 36
  34. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ ** Proto-Indo-European d o n t Italian d ɛ n t e Proto-Romance d e n t e French d ã - - 13 / 36
  35. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - Proto-Germanic t a n θ - English t ʊː - θ Proto-Indo-European d e n t - Italian d ɛ n t ə Proto-Romance d e n t e French d ã - - 13 / 36
  36. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n - * Proto-Germanic t a n d English t ʊː - θ Proto-Indo-European d e n t Italian d ɛ n t ə * Proto-Romance d e n t French d ã - - 13 / 36
  37. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Linguistische Rekonstruktion German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ German ʦʰ aː n Proto-Germanic t a n θ English t ʊː θ Proto-Indo-European d e n t Italian d ɛ n t e Proto-Romance d e n t e French d ɑ̃ 13 / 36
  38. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Intuition und Objektivität Part of the process of “becoming” a competent Indo- Europeanist has always been recognized as coming to grasp “intuitively” concepts and types of changes in language so as to be able to pick and choose be- tween alternative explanations for the history and de- velopment of specific features of the reconstructed language and its offspring. Schwink (1994: 29) 14 / 36
  39. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen 15 / 36
  40. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. 15 / 36
  41. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. 15 / 36
  42. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Die Gegenwart als Schlüssel zur Vergangenheit Beziehungen zwischen sprachlichen Zeichen Rekonstruktion von Zeichenbeziehungen Probleme Zirkularität und iteratives Vorgehen Kognatenbeziehungen können nur auf der Grund- lage nachgewiesener systematischer Korresponden- zen nachgewiesen werden. Systematische Korrespondenzen können nur auf der Grundlage nachgewiesener Kognatenbeziehun- gen ermittelt werden. → Um das Problem der Zirkularität zu umgehen, wird all- gemein eine iterative Heuristik verwendet, mit deren Hilfe erste Hypothesen aufgestellt und sukzessive bestärkt oder verworfen werden. 15 / 36
  43. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen h j - ä r t a - h - e - r z - - h - e a r t - - c - - o r d i s hjärta herz heart cordis Vorüberlegungen 16 / 36
  44. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 17 / 36
  45. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. 17 / 36
  46. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in dersel- ben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. 17 / 36
  47. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung Die Alinierung stellt die am weitesten verbreitete Meth- ode für Sequenzvergleiche dar. In Alinierungsanalysen werden zwei oder mehrere Se- quenzen dergestalt in einer Matrix angeordnet, dass miteinander korrespondierende Segmente in dersel- ben Spalte erscheinen, wobei Nullkorrespondenzen mit Hilfe von Lückensymbolen dargestellt werden. Alinierungsanalysen sind grundsätzlich indifferent in Bezug auf die Natur der Korrespondenzen, die mit ihrer Hilfe dargestellt oder ermittelt werden. Eine ex- plizite historische Interpretation der Fakten muss im- mer in einem zweiten Schritt vorgenommen werden. 17 / 36
  48. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H 0 18 / 36
  49. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H 0 18 / 36
  50. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Alinierung 0 H H H H H 0 0 H H H H H 0 18 / 36
  51. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit 19 / 36
  52. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resem- blence, Lass 1997). 19 / 36
  53. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn sie ähnlich klingen (phenotypic resem- blence, Lass 1997). Genotypische Ähnlichkeit: Wörter werden als ähnlich angesehen, wenn gezeigt werden kann, dass systema- tische Korrespondenzbeziehungen zwischen ihren Seg- menten bestehen (genotypic resemblence, Lass 1997). 19 / 36
  54. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ 20 / 36
  55. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Phänotypische und genotypische Ähnlichkeit Phänotypische Ähnlichkeit Greek mati ‘eye’ ≈ Malay mata ‘eye’ Greek θɛɔs ‘god’ ≈ Spanish diɔs ‘god’ Genotypische Ähnlichkeit German ʦʰaːn ‘tooth’ ≈ English tʊːθ ‘tooth’ Spanish eʧo ‘fact’ ≈ French fɛ ‘fact’ 20 / 36
  56. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 21 / 36
  57. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. 21 / 36
  58. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten Phänotypische Ähnlichkeit allein ist unbrauchbar als Ähnlichkeits- oder Distanzmaß für automatische Applika- tionen. Genotypische Ähnlichkeit allein beruht auf einem bere- its vorgenommenen, im Laufe jahrelanger manueller Forschung betriebenen Vergleich der Sprachen einer Sprachfamilie. Sie taugt nicht als Heuristik für automa- tische Ansätze. 21 / 36
  59. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Das Problem mit den Ähnlichkeiten 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 22 / 36
  60. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen 23 / 36
  61. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. 23 / 36
  62. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. 23 / 36
  63. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen Phänotypische und genotypische Ähnlichkeit stellen zwei gegensätzliche Positionen dar, von denen keine für automa- tische Applikationen geeignet ist. Um bisher unerforschte Sprachen automatisch zu analysieren, bedarf es eines Ähnlichkeitsmaßes, welches einen Kompro- miss zwischen den beiden Ähnlichkeitsmodellen darstellt, also basierend auf der phänotypischen Ähnlichkeit von Sequen- zen auf die Wahrscheinlichkeit genotypischer Ähnlichkeiten schließen lässt. Lautklassenbasierte Ansätze (vgl. bes. Dolgopolsky 1986) gruppieren sprachliche Laute basierend auf empirischen Studien in Korrespondenzklassen, wobei angenommen wird, dass Laute, die derselben Klasse aufgehören, signifikant häufiger in Korrespondenzbeziehungen in genetisch verwandten Sprachen auftauchen. 23 / 36
  64. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36
  65. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36
  66. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen k g p b ʧ ʤ f v t d ʃ ʒ θ ð s z 24 / 36
  67. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassen K T P S 24 / 36
  68. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Edit Distance (Germ. Benchmark, Overlap: 18.7%) cognate non-cognate 25 / 36
  69. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Alinierung Ähnlichkeit Lautklassen Lautklassenalinierung vs. phänotypische Alinierung 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 25 / 36
  70. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Die neue Methode 26 / 36
  71. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise 27 / 36
  72. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. 27 / 36
  73. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. 27 / 36
  74. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermit- telt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. 27 / 36
  75. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Eingabe: Bedeutungslisten (Swadeshlisten) für eine be- liebige Anzahl von Sprachen und von beliebiger Länge. Eingabeformat: Generell IPA, für Tonsprachen wird das in der chinesischen Linguistik übliche Format aus ein bis drei Ziffern verwendet. Analyse: Der Algorithmus analysiert alle Wortlisten, ermit- telt mögliche Lautkorrespondenzen und ermittelt, basierend auf Clusteranalysen mögliche Kognatensets. Ausgabe: Eine Liste der Eingabedaten mitsamt Kognaz- itätsurteilen, wobei die Kognatensets in alinierter Form aus- gegeben werden, um spätere manuelle Analysen zu erle- ichtern. 27 / 36
  76. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Number Words ger eng dan ... 1 all al ɔːl æˀl ... 2 ashes aʃə æʃ asg ... 3 bark rɪndə bɑːrk bɑːg ... 4 belly baux bɛlɪ ɔnəʁliwˀ ... 4 belly - - mæːvə ... 5 big ɡroːs bɪɡ sdoˀʁ ... 5 big - ɡreɪt - ... 28 / 36
  77. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsweise Basic Concept: belly CogID Language Gloss GlossID Entry Aligned Entry 5 ger belly 4 baux b au x 5 swe belly 4 buk b u k 5 nld belly 4 bœyk b œy k 5 nor belly 4 bʉːk b ʉː k 6 eng belly 4 bɛlɪ b ɛ l ɪ 7 dan belly 4 ɔnəʁliwˀ ɔ n ə ʁ l i wˀ 8 dan belly 4 mæːvə m æː v ə 8 swe belly 4 maːge m aː g e 8 nor belly 4 mɑːgə m ɑː g ə 1 28 / 36
  78. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 29 / 36
  79. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 29 / 36
  80. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 29 / 36
  81. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 29 / 36
  82. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 29 / 36
  83. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung Arbeitsschritte 1. Paarweise, lautklassenbasierte Alinierung zur Ermittlung möglicher Korrespondenzpaare (List 2010). 2. Erstellung einer korrespondenzbasierten Bewertungsmatrix auf Grundlage des Vergleichs randomisierter mit nicht-randomisierten Daten (folgt in Grundzügen Henikoff & Henikoff 1992). 3. Berechnung korrespondenzbasierter paarweiser Distanzen. 4. Gruppierung der Wörter zu Kognatensets basierend auf einer Clusteranalyse. 5. Multiple Alinierung der ermittelten Kognatensets (List 2011), um die manuelle Kontrolle der Ergebnisse zu erleichtern. 29 / 36
  84. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Arbeitsweise Arbeitsschritte Implementierung LingPy LingPy (List 2011) ist eine frei verfügbare Pythonbibliothek, welche Klassen und Funktionen für verschiedenste Aufgaben in quantitativen Ansätzen in der historischen Linguistik zur Verfügung stellt. 30 / 36
  85. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse * * * * * * * * * * * * * v o l - d e m o r t v - l a d i m i r - v a l - d e m a r - Evaluierung 31 / 36
  86. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Benchmark-Datensätze für automatische Analysen Sprachfamilie Sprachen Umfang Urheber Germanisch 6 germanische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Romanisch 5 romanische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Bai 9 Varietäten der Bai- Sprache 110 Basiswörter Wang Feng (phonetische Lis- ten) Slavisch 4 slavische Sprachen 110 Basiswörter Tower of Babel (orthographis- che Listen), Mattis List (phonetische Kodierung) Varia 8 Sprachen (5 in- dogermanische, 3 unverwandte) 100 Basiswörter Brat Kessler (phonetische Lis- ten) Japanisch 10 Dialekte 200 Basiswörter Shiro (1973, orthographische Listen), Mathias Dickmanns (Digitalisierung) 32 / 36
  87. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs Sound Class Alignment (Germ. Benchmark, Overlap: 10.2%) cognate non-cognate 33 / 36
  88. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Paarweiser Vergleich 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Pairwise Distance 0 50 100 150 200 250 300 350 400 Number of Pairs New Approach (Germ. Benchmark, Overlap: 6.6%) cognate non-cognate 33 / 36
  89. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Erste Ergebnisse Datensatz Total False Pos. False Neg. Id. Kog. Kog. / Nicht-K. Germanisch 95 2 3 96 3:1 Romanisch 89 2 9 89 2:1 Slavisch 95 2 3 96 3:1 Bai 86 6 8 89 3:1 Varia 90 3 7 74 1:7 Japanisch 85 6 9 86 2:1 34 / 36
  90. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Kontrolldatensätze Ergebnisse Ergebnisse ger rom sla bai var jap Comparison of the Performance on the Testsets 0 20 40 60 80 100 Score Total Score COG Score 35 / 36
  91. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung 36 / 36
  92. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. 36 / 36
  93. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. 36 / 36
  94. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. 36 / 36
  95. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. 36 / 36
  96. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Schlussbetrachtung Die neue Methode funktioniert definitiv besser als reine auf Edi- tierdistanzen basierende Methoden. Die Methode kommt in ihrer Arbeitsweise dem traditionellen Ver- fahren der historischen Linguistik näher als bisherige Methoden. Im Gegensatz zum Blackbox-Charakter vieler automatischer Analysen ermöglicht es die neue Methode, explizit die Ergebnisse der Computeranalyse mit den Ergebnissen der traditionellen kom- parativen Methode zu vergleichen. Abgesehen von den Grundannahmen des Verfahrens, das noch weiter modifiziert werden muss, liegen dessen Grenzen definitiv in den Daten. Es gibt Fälle von Sprachverwandtschaft, die im Rah- men von Swadeshlisten schlicht und einfach nicht zu klären sind. Automatische Ansätze, die ihre Ergebnisse explizit machen, kön- nen uns helfen, unsere traditionellen Methoden neu zu über- denken, auf deren Grenzen hinweisen, und zeigen, wo Speku- lation über objektive Analyse triumphiert. 36 / 36
  97. Kognatenidentifikation in der historischen Linguistik Vorüberlegungen für eine automatische Implementierung

    Die neue Methode zur automatischen Kognatenidentifikation Evaluierung der Methode Danke für’s Zuhören! 37 / 36