$30 off During Our Annual Pro Sale. View Details »

Distanz- und Alignmentanalysen in der historischen Linguistik

Distanz- und Alignmentanalysen in der historischen Linguistik

Paper, presented at the workshop "Modellierung von Lautwandelprozessen" (Düsseldorf, Heinrich Heine Universität Düsseldorf).

Johann-Mattis List

January 22, 2010
Tweet

More Decks by Johann-Mattis List

Other Decks in Science

Transcript

  1. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Distanz- und Alignmentanalysen in der
    historischen Linguistik
    Johann-Mattis List
    Heinrich Heine Universität Düsseldorf
    22. Januar 2010
    1 / 24

    View Slide

  2. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Gliederung
    Grundlegendes zur Einführung
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Erweiterung des Alinierungsverfahrens
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Vorstellung neuerer Ansätze von Sequenzanalysen
    The Automated Similarity Judgment Program
    Covington
    ALINE
    Arbeitsstand und Ausblick
    2 / 24

    View Slide

  3. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Grundlegende Anmerkungen zur Einführung
    Mengen- vs. Sequenzvergleiche
    Mengenvergleiche Vergleich einer Anzahl ungeordneter,
    distinkter Elemente
    Sequenzvergleiche Vergleich einer Anzahl geordneter
    Elemente, deren Distinktivität erst durch die
    Anordnung hergestellt wird
    Sequenzvergleiche setzen eine Alinierung der Sequenzen
    voraus, da Sequenzdistanzen nur ermittelt werden können,
    wenn die korrespondierenden Segmente bestimmt wurden.
    3 / 24

    View Slide

  4. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Unigrammatische und n-grammatische
    Segmentierung
    Monogrammatisch θ i ɣ a t ɛ r a
    Bigrammatische ˗θ θi iɣ ɣa at tɛ ɛr ra a˗
    Trigrammatische ˗˗θ ˗θi θiɣ iɣa ɣat atɛ tɛr ɛr˗ r˗˗
    Tabelle: Mono- bi und trigram-basierte Segmentierung
    4 / 24

    View Slide

  5. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Paarweise und multiple Alinierung
    d ɔː - - tʰ ɚ - -
    θ i ɣ a t ɛ r a
    tʰ ɔ x - tʰ ɐ - -
    Tabelle: Multiple Alinierung von Sequenzen
    5 / 24

    View Slide

  6. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Grundidee des Algorithmus
    Erstellen einer Matrix mit allen möglichen
    Segmententsprechungen zweier Sequenzen
    Festsetzen von Kosten für die Gegenüberstellung der
    jeweiligen Segmente durch eine Vergleichsfunktion
    Gegenüberstellung von Segmenten (Substitution & Match)
    Einfügen von (Null)-Segmenten (Insertion & Deletion)
    Kumulative Aufrechnung von Kosten für alle möglichen
    Wege durch die Matrix
    6 / 24

    View Slide

  7. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Die Vergleichsfunktion der Levenshtein-Distanz
    Entscheidung Bedingung Kosten
    Gegenüberstellung
    Identität von Segmen-
    ten
    0
    Verschiedenheit von
    Segmenten
    1
    Einfügen und Ersetzen 1
    Tabelle: Die Vergleichsfunktion der Levenshtein-Distanz
    7 / 24

    View Slide

  8. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Erstellen der Matrix
    ¨¨¨¨¨
    ¨
    -
    - ¨¨¨¨¨
    ¨
    -
    h ¨¨¨¨¨
    ¨
    -
    e ¨¨¨¨¨
    ¨
    -
    r ¨¨¨¨¨
    ¨
    -
    z
    ¨¨¨
    ¨¨
    ¨
    h
    - ¨¨¨
    ¨¨
    ¨
    h
    h ¨¨¨
    ¨¨
    ¨
    h
    e ¨¨¨
    ¨¨
    ¨
    h
    r ¨¨¨
    ¨¨
    ¨
    h
    z
    ¨
    ¨¨¨¨
    ¨
    e
    - ¨
    ¨¨¨¨
    ¨
    e
    h ¨
    ¨¨¨¨
    ¨
    e
    e ¨
    ¨¨¨¨
    ¨
    e
    r ¨
    ¨¨¨¨
    ¨
    e
    z
    ¨¨¨¨¨
    ¨
    a
    - ¨¨¨¨¨
    ¨
    a
    h ¨¨¨¨¨
    ¨
    a
    e ¨¨¨¨¨
    ¨
    a
    r ¨¨¨¨¨
    ¨
    a
    z
    ¨¨¨¨
    ¨
    ¨
    r
    - ¨¨¨¨
    ¨
    ¨
    r
    h ¨¨¨¨
    ¨
    ¨
    r
    e ¨¨¨¨
    ¨
    ¨
    r
    r ¨¨¨¨
    ¨
    ¨
    r
    z
    ¨¨
    ¨¨¨
    ¨
    t
    - ¨¨
    ¨¨¨
    ¨
    t
    h ¨¨
    ¨¨¨
    ¨
    t
    e ¨¨
    ¨¨¨
    ¨
    t
    r ¨¨
    ¨¨¨
    ¨
    t
    z
    Tabelle: Vergleichsmatrix für den Wagner-Fischer-Algorithmus
    8 / 24

    View Slide

  9. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Mengen- vs. Sequenzvergleiche
    Unigrammatische und n-grammatische Segmentierung
    Paarweise und multiple Alinierung
    Der dynamische Programmieralgorithmus
    Berechnen der Kosten für jeden Pfad
    ¨¨¨¨¨
    ¨
    0
    -/- ¨¨¨¨¨
    ¨
    1
    -/h ¨¨¨¨¨
    ¨
    2
    -/e ¨¨¨¨¨
    ¨
    3
    -/r ¨¨¨¨¨
    ¨
    4
    -/z
    ¨¨¨
    ¨¨
    ¨
    1
    h/- ¨¨¨
    ¨¨
    ¨
    0
    h/h ¨¨¨
    ¨¨
    ¨
    1
    -/e ¨¨¨
    ¨¨
    ¨
    2
    -/r ¨¨¨
    ¨¨
    ¨
    3
    -/z
    ¨
    ¨¨¨¨
    ¨
    2
    e/- ¨
    ¨¨¨¨
    ¨
    1
    e/- ¨
    ¨¨¨¨
    ¨
    0
    e/e ¨
    ¨¨¨¨
    ¨
    1
    -/r ¨
    ¨¨¨¨
    ¨
    2
    -/z
    ¨¨¨¨¨
    ¨
    3
    a/- ¨¨¨¨¨
    ¨
    2
    a/- ¨¨¨¨¨
    ¨
    1
    a/- ¨¨¨¨¨
    ¨
    1
    a/r ¨¨¨¨¨
    ¨
    2
    -/z
    ¨¨¨¨
    ¨
    ¨
    4
    r/- ¨¨¨¨
    ¨
    ¨
    3
    r/- ¨¨¨¨
    ¨
    ¨
    2
    a/- ¨¨¨¨
    ¨
    ¨
    1
    r/r ¨¨¨¨
    ¨
    ¨
    2
    -/z
    ¨
    ¨¨¨¨
    ¨
    5
    t/- ¨
    ¨¨¨¨
    ¨
    4
    t/- ¨
    ¨¨¨¨
    ¨
    3
    a/- ¨
    ¨¨¨¨
    ¨
    2
    t/r ¨
    ¨¨¨¨
    ¨
    2
    t/z
    Tabelle: Vergleichsmatrix nach der Auswertung (mit Kosten)
    9 / 24

    View Slide

  10. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Transpositionen
    Levenshtein
    f r o m a g e - -
    f o r m a g g i o
    Damerau-Levenshtein
    f ro m a g e - -
    f or m a g g i o
    Tabelle: Levenshtein und Damerau-Levenshtein
    10 / 24

    View Slide

  11. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Konsekutive Indels
    Traditionell
    d i d oː m i
    d a - - m -
    Gotoh-Erweiterung
    d i d oː m i
    - - d a m -
    Tabelle: Konsekutive indels in der Sequenzalinierung
    11 / 24

    View Slide

  12. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Kompressionen und Expansionen
    Levenshtein
    d ɔ - tʰ ɐ
    tʰ ɔ x tʰ ɐ
    Oommen-Erweiterung
    d ɔ tʰ ɐ
    tʰ ɔ xtʰ ɐ
    Tabelle: Kompression und Expansion in der Sequenzalinierung
    12 / 24

    View Slide

  13. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Lokale Alinierung
    Levenshtein
    - ā p a k o s ī s -
    w ā p i k o n ō h a
    Lokale Alinierung
    ā p a k o sīs
    w ā p i k o nōha
    13 / 24

    View Slide

  14. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Probleme beim Alinieren phonetischer Daten
    θ i ɣ a t ɛ r a
    d ɔː tʰ ɚ - - - -
    Tabelle: Problem der Alinierung phonetischer Sequenzen
    14 / 24

    View Slide

  15. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Wie gut muss die Vergleichsfunktion sein?
    Abbildung: Neighbor-Analyse von Levenshtein-Distanzen
    15 / 24

    View Slide

  16. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Lautklassen in der Alinierung
    Zuweisung von Segmenten zu einheitlichen Klassen,
    innerhalb derer Lautwandel als wahrscheinlicher
    angenommen wird, als außerhalb der Klassen
    Umwandlung der Segmente in ihre jeweiligen Klassen
    Durchführung “traditioneller” Alignmentanalysen
    Der Vorteil von lautklassenbasierten Ansätzen liegt in ihrer
    leicht zu realisierenden Implementierung. Ferner können
    phonetisch unzureichende Sprachdaten meist relativ einfach in
    ein Klassenformat überführt werden.
    16 / 24

    View Slide

  17. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Dolgopolskys Lautklassen
    No. Typ Beschreibung Bsp.
    1 P labiale Obstruenten
    p,b,f
    2 T dentale Obstruenten
    d,t,θ,ð
    3 S alveolare, postalveolare und retroflexe Frikative
    s,z,ʃ,ʒ
    4 K velare und postvelare Obstruenten und Affrikaten
    k,g,ʦ,ʧ
    5 M labialer Nasal
    m
    6 N übrige Nasale
    n,ɲ,ŋ
    7 R Trills, Taps, Flaps und laterale Approximanten
    r,l
    8 W stimmhafter labialer Frikativ und initiale gerundete Vokale
    v,u
    9 J palataler Approximant
    j
    10 ø Laryngale und initialer velarer Nasal
    h,ɦ,ŋ
    Tabelle: Dolgopolskys Klassifizierung von Lautwandeltypen
    17 / 24

    View Slide

  18. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Erweiterung des Algorithmus
    Erweiterung der Vergleichsfunktion
    Segmentklassen anstelle “reiner” Segmente
    Alinierung mit Hilfe von Dolgopolskys Lautklassen
    Interne Alinierung
    T V K V T V R V
    T V - - T V - -
    Ausgabe
    θ i ɣ a t ɛ r a
    d ɔː - - tʰ ɚ - -
    Tabelle: Interne und externe Darstellung der Dolgopolsky-Alinierung
    18 / 24

    View Slide

  19. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    The Automated Similarity Judgment Program
    Covington
    ALINE
    The Automated Similarity Judgment Program
    Sprache Bedeutung IPA ASJP-Code
    engl. ’das’ ðis 8is
    engl. ’Mund’ mauθ mau8
    engl. ’Zunge’ tʰəŋ th~3N
    dt. ’Fisch’ fiʃ fiS
    engl. ’Zahn’ tuːθ tu8
    dt. ’Schwester’ ʃwɛstʰɐ Swasth~a
    Tabelle: Das universale Alphabet des ASJP-Projektes
    19 / 24

    View Slide

  20. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    The Automated Similarity Judgment Program
    Covington
    ALINE
    Covington
    Penalty Conditions
    0 Exact match of consonants or glides (w, y)
    5 Exact match of vowels
    10 Match of two vowels that differ only in length, or i and
    y, or u and w
    30 Match of two dissimilar vowels
    60 Match of two dissimilar consonants
    100 Match of two segments with no discernible similarity
    40 Skip preceded by another skip in the same word
    50 Skip not preceded by another skip in the same word
    Tabelle: Covingtons ’Evaluationsmetrik’ für die Alinierung
    20 / 24

    View Slide

  21. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    The Automated Similarity Judgment Program
    Covington
    ALINE
    Kondraks ALINE
    Syllabic 5 Place 40
    Voice 10 Nasel 10
    Lateral 10 Aspirated 5
    High 5 Back 5
    Manner 50 Retroflex 10
    Long 1 Round 5
    Tabelle: Merkmalssalienzen in ALINE
    21 / 24

    View Slide

  22. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Arbeitsstand und Ausblick
    Python-Programm zur umfangreichen Sequenzanalyse
    Modularer Aufbau, Module für Sequenzanalysen (Alignments
    und Distanzberechnungen), phonetische Analysen,
    automatische Kognatenerkennung
    Eingabe in Form Unicode-kodierter csv-Dateien (comma
    separated value), deren Struktur sich am Format etymologischer
    Wörterbucher in der STARLING-Software orientiert
    Ausgabe von Analysen und Berechnungen in verschiedenen
    Formaten, die wahlweise durch phylogenetische Softwarepakete
    weiterverarbeitet werden können (Phylip, Nexus)
    Skripte für Daten-Ein- und -Ausgabe sind bereits realisiert,
    ferner sind eine Reihe von Algorithmen/Verfahren zur
    Sequenzanalyse (erweiterter DPA, Dolgopolsky, ASJP,
    Covington) bereits verfügbar
    22 / 24

    View Slide

  23. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    Das war’s!
    23 / 24

    View Slide

  24. . . . . . .
    Grundlegendes zur Einführung
    Erweiterung des Alinierungsverfahrens
    Vorstellung neuerer Ansätze von Sequenzanalysen
    Arbeitsstand und Ausblick
    24 / 24

    View Slide