Distanz- und Alignmentanalysen in der historischen Linguistik

Distanz- und Alignmentanalysen in der historischen Linguistik

Paper, presented at the workshop "Modellierung von Lautwandelprozessen" (Düsseldorf, Heinrich Heine Universität Düsseldorf).

E01961dd2fbd219a30044ffe27c9fb70?s=128

Johann-Mattis List

January 22, 2010
Tweet

Transcript

  1. 1.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Distanz- und Alignmentanalysen in der historischen Linguistik Johann-Mattis List Heinrich Heine Universität Düsseldorf 22. Januar 2010 1 / 24
  2. 2.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Gliederung Grundlegendes zur Einführung Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Erweiterung des Alinierungsverfahrens Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Vorstellung neuerer Ansätze von Sequenzanalysen The Automated Similarity Judgment Program Covington ALINE Arbeitsstand und Ausblick 2 / 24
  3. 3.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Grundlegende Anmerkungen zur Einführung Mengen- vs. Sequenzvergleiche Mengenvergleiche Vergleich einer Anzahl ungeordneter, distinkter Elemente Sequenzvergleiche Vergleich einer Anzahl geordneter Elemente, deren Distinktivität erst durch die Anordnung hergestellt wird Sequenzvergleiche setzen eine Alinierung der Sequenzen voraus, da Sequenzdistanzen nur ermittelt werden können, wenn die korrespondierenden Segmente bestimmt wurden. 3 / 24
  4. 4.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Unigrammatische und n-grammatische Segmentierung Monogrammatisch θ i ɣ a t ɛ r a Bigrammatische ˗θ θi iɣ ɣa at tɛ ɛr ra a˗ Trigrammatische ˗˗θ ˗θi θiɣ iɣa ɣat atɛ tɛr ɛr˗ r˗˗ Tabelle: Mono- bi und trigram-basierte Segmentierung 4 / 24
  5. 5.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Paarweise und multiple Alinierung d ɔː - - tʰ ɚ - - θ i ɣ a t ɛ r a tʰ ɔ x - tʰ ɐ - - Tabelle: Multiple Alinierung von Sequenzen 5 / 24
  6. 6.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Grundidee des Algorithmus Erstellen einer Matrix mit allen möglichen Segmententsprechungen zweier Sequenzen Festsetzen von Kosten für die Gegenüberstellung der jeweiligen Segmente durch eine Vergleichsfunktion Gegenüberstellung von Segmenten (Substitution & Match) Einfügen von (Null)-Segmenten (Insertion & Deletion) Kumulative Aufrechnung von Kosten für alle möglichen Wege durch die Matrix 6 / 24
  7. 7.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Die Vergleichsfunktion der Levenshtein-Distanz Entscheidung Bedingung Kosten Gegenüberstellung Identität von Segmen- ten 0 Verschiedenheit von Segmenten 1 Einfügen und Ersetzen 1 Tabelle: Die Vergleichsfunktion der Levenshtein-Distanz 7 / 24
  8. 8.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Erstellen der Matrix ¨¨¨¨¨ ¨ - - ¨¨¨¨¨ ¨ - h ¨¨¨¨¨ ¨ - e ¨¨¨¨¨ ¨ - r ¨¨¨¨¨ ¨ - z ¨¨¨ ¨¨ ¨ h - ¨¨¨ ¨¨ ¨ h h ¨¨¨ ¨¨ ¨ h e ¨¨¨ ¨¨ ¨ h r ¨¨¨ ¨¨ ¨ h z ¨ ¨¨¨¨ ¨ e - ¨ ¨¨¨¨ ¨ e h ¨ ¨¨¨¨ ¨ e e ¨ ¨¨¨¨ ¨ e r ¨ ¨¨¨¨ ¨ e z ¨¨¨¨¨ ¨ a - ¨¨¨¨¨ ¨ a h ¨¨¨¨¨ ¨ a e ¨¨¨¨¨ ¨ a r ¨¨¨¨¨ ¨ a z ¨¨¨¨ ¨ ¨ r - ¨¨¨¨ ¨ ¨ r h ¨¨¨¨ ¨ ¨ r e ¨¨¨¨ ¨ ¨ r r ¨¨¨¨ ¨ ¨ r z ¨¨ ¨¨¨ ¨ t - ¨¨ ¨¨¨ ¨ t h ¨¨ ¨¨¨ ¨ t e ¨¨ ¨¨¨ ¨ t r ¨¨ ¨¨¨ ¨ t z Tabelle: Vergleichsmatrix für den Wagner-Fischer-Algorithmus 8 / 24
  9. 9.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Berechnen der Kosten für jeden Pfad ¨¨¨¨¨ ¨ 0 -/- ¨¨¨¨¨ ¨ 1 -/h ¨¨¨¨¨ ¨ 2 -/e ¨¨¨¨¨ ¨ 3 -/r ¨¨¨¨¨ ¨ 4 -/z ¨¨¨ ¨¨ ¨ 1 h/- ¨¨¨ ¨¨ ¨ 0 h/h ¨¨¨ ¨¨ ¨ 1 -/e ¨¨¨ ¨¨ ¨ 2 -/r ¨¨¨ ¨¨ ¨ 3 -/z ¨ ¨¨¨¨ ¨ 2 e/- ¨ ¨¨¨¨ ¨ 1 e/- ¨ ¨¨¨¨ ¨ 0 e/e ¨ ¨¨¨¨ ¨ 1 -/r ¨ ¨¨¨¨ ¨ 2 -/z ¨¨¨¨¨ ¨ 3 a/- ¨¨¨¨¨ ¨ 2 a/- ¨¨¨¨¨ ¨ 1 a/- ¨¨¨¨¨ ¨ 1 a/r ¨¨¨¨¨ ¨ 2 -/z ¨¨¨¨ ¨ ¨ 4 r/- ¨¨¨¨ ¨ ¨ 3 r/- ¨¨¨¨ ¨ ¨ 2 a/- ¨¨¨¨ ¨ ¨ 1 r/r ¨¨¨¨ ¨ ¨ 2 -/z ¨ ¨¨¨¨ ¨ 5 t/- ¨ ¨¨¨¨ ¨ 4 t/- ¨ ¨¨¨¨ ¨ 3 a/- ¨ ¨¨¨¨ ¨ 2 t/r ¨ ¨¨¨¨ ¨ 2 t/z Tabelle: Vergleichsmatrix nach der Auswertung (mit Kosten) 9 / 24
  10. 10.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Transpositionen Levenshtein f r o m a g e - - f o r m a g g i o Damerau-Levenshtein f ro m a g e - - f or m a g g i o Tabelle: Levenshtein und Damerau-Levenshtein 10 / 24
  11. 11.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Konsekutive Indels Traditionell d i d oː m i d a - - m - Gotoh-Erweiterung d i d oː m i - - d a m - Tabelle: Konsekutive indels in der Sequenzalinierung 11 / 24
  12. 12.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Kompressionen und Expansionen Levenshtein d ɔ - tʰ ɐ tʰ ɔ x tʰ ɐ Oommen-Erweiterung d ɔ tʰ ɐ tʰ ɔ xtʰ ɐ Tabelle: Kompression und Expansion in der Sequenzalinierung 12 / 24
  13. 13.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Lokale Alinierung Levenshtein - ā p a k o s ī s - w ā p i k o n ō h a Lokale Alinierung ā p a k o sīs w ā p i k o nōha 13 / 24
  14. 14.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Probleme beim Alinieren phonetischer Daten θ i ɣ a t ɛ r a d ɔː tʰ ɚ - - - - Tabelle: Problem der Alinierung phonetischer Sequenzen 14 / 24
  15. 15.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Wie gut muss die Vergleichsfunktion sein? Abbildung: Neighbor-Analyse von Levenshtein-Distanzen 15 / 24
  16. 16.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Lautklassen in der Alinierung Zuweisung von Segmenten zu einheitlichen Klassen, innerhalb derer Lautwandel als wahrscheinlicher angenommen wird, als außerhalb der Klassen Umwandlung der Segmente in ihre jeweiligen Klassen Durchführung “traditioneller” Alignmentanalysen Der Vorteil von lautklassenbasierten Ansätzen liegt in ihrer leicht zu realisierenden Implementierung. Ferner können phonetisch unzureichende Sprachdaten meist relativ einfach in ein Klassenformat überführt werden. 16 / 24
  17. 17.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Dolgopolskys Lautklassen No. Typ Beschreibung Bsp. 1 P labiale Obstruenten p,b,f 2 T dentale Obstruenten d,t,θ,ð 3 S alveolare, postalveolare und retroflexe Frikative s,z,ʃ,ʒ 4 K velare und postvelare Obstruenten und Affrikaten k,g,ʦ,ʧ 5 M labialer Nasal m 6 N übrige Nasale n,ɲ,ŋ 7 R Trills, Taps, Flaps und laterale Approximanten r,l 8 W stimmhafter labialer Frikativ und initiale gerundete Vokale v,u 9 J palataler Approximant j 10 ø Laryngale und initialer velarer Nasal h,ɦ,ŋ Tabelle: Dolgopolskys Klassifizierung von Lautwandeltypen 17 / 24
  18. 18.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Alinierung mit Hilfe von Dolgopolskys Lautklassen Interne Alinierung T V K V T V R V T V - - T V - - Ausgabe θ i ɣ a t ɛ r a d ɔː - - tʰ ɚ - - Tabelle: Interne und externe Darstellung der Dolgopolsky-Alinierung 18 / 24
  19. 19.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE The Automated Similarity Judgment Program Sprache Bedeutung IPA ASJP-Code engl. ’das’ ðis 8is engl. ’Mund’ mauθ mau8 engl. ’Zunge’ tʰəŋ th~3N dt. ’Fisch’ fiʃ fiS engl. ’Zahn’ tuːθ tu8 dt. ’Schwester’ ʃwɛstʰɐ Swasth~a Tabelle: Das universale Alphabet des ASJP-Projektes 19 / 24
  20. 20.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE Covington Penalty Conditions 0 Exact match of consonants or glides (w, y) 5 Exact match of vowels 10 Match of two vowels that differ only in length, or i and y, or u and w 30 Match of two dissimilar vowels 60 Match of two dissimilar consonants 100 Match of two segments with no discernible similarity 40 Skip preceded by another skip in the same word 50 Skip not preceded by another skip in the same word Tabelle: Covingtons ’Evaluationsmetrik’ für die Alinierung 20 / 24
  21. 21.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE Kondraks ALINE Syllabic 5 Place 40 Voice 10 Nasel 10 Lateral 10 Aspirated 5 High 5 Back 5 Manner 50 Retroflex 10 Long 1 Round 5 Tabelle: Merkmalssalienzen in ALINE 21 / 24
  22. 22.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Arbeitsstand und Ausblick Python-Programm zur umfangreichen Sequenzanalyse Modularer Aufbau, Module für Sequenzanalysen (Alignments und Distanzberechnungen), phonetische Analysen, automatische Kognatenerkennung Eingabe in Form Unicode-kodierter csv-Dateien (comma separated value), deren Struktur sich am Format etymologischer Wörterbucher in der STARLING-Software orientiert Ausgabe von Analysen und Berechnungen in verschiedenen Formaten, die wahlweise durch phylogenetische Softwarepakete weiterverarbeitet werden können (Phylip, Nexus) Skripte für Daten-Ein- und -Ausgabe sind bereits realisiert, ferner sind eine Reihe von Algorithmen/Verfahren zur Sequenzanalyse (erweiterter DPA, Dolgopolsky, ASJP, Covington) bereits verfügbar 22 / 24
  23. 23.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Das war’s! 23 / 24
  24. 24.

    . . . . . . Grundlegendes zur Einführung Erweiterung

    des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick 24 / 24