Slide 1

Slide 1 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Distanz- und Alignmentanalysen in der historischen Linguistik Johann-Mattis List Heinrich Heine Universität Düsseldorf 22. Januar 2010 1 / 24

Slide 2

Slide 2 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Gliederung Grundlegendes zur Einführung Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Erweiterung des Alinierungsverfahrens Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Vorstellung neuerer Ansätze von Sequenzanalysen The Automated Similarity Judgment Program Covington ALINE Arbeitsstand und Ausblick 2 / 24

Slide 3

Slide 3 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Grundlegende Anmerkungen zur Einführung Mengen- vs. Sequenzvergleiche Mengenvergleiche Vergleich einer Anzahl ungeordneter, distinkter Elemente Sequenzvergleiche Vergleich einer Anzahl geordneter Elemente, deren Distinktivität erst durch die Anordnung hergestellt wird Sequenzvergleiche setzen eine Alinierung der Sequenzen voraus, da Sequenzdistanzen nur ermittelt werden können, wenn die korrespondierenden Segmente bestimmt wurden. 3 / 24

Slide 4

Slide 4 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Unigrammatische und n-grammatische Segmentierung Monogrammatisch θ i ɣ a t ɛ r a Bigrammatische ˗θ θi iɣ ɣa at tɛ ɛr ra a˗ Trigrammatische ˗˗θ ˗θi θiɣ iɣa ɣat atɛ tɛr ɛr˗ r˗˗ Tabelle: Mono- bi und trigram-basierte Segmentierung 4 / 24

Slide 5

Slide 5 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Paarweise und multiple Alinierung d ɔː - - tʰ ɚ - - θ i ɣ a t ɛ r a tʰ ɔ x - tʰ ɐ - - Tabelle: Multiple Alinierung von Sequenzen 5 / 24

Slide 6

Slide 6 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Grundidee des Algorithmus Erstellen einer Matrix mit allen möglichen Segmententsprechungen zweier Sequenzen Festsetzen von Kosten für die Gegenüberstellung der jeweiligen Segmente durch eine Vergleichsfunktion Gegenüberstellung von Segmenten (Substitution & Match) Einfügen von (Null)-Segmenten (Insertion & Deletion) Kumulative Aufrechnung von Kosten für alle möglichen Wege durch die Matrix 6 / 24

Slide 7

Slide 7 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Die Vergleichsfunktion der Levenshtein-Distanz Entscheidung Bedingung Kosten Gegenüberstellung Identität von Segmen- ten 0 Verschiedenheit von Segmenten 1 Einfügen und Ersetzen 1 Tabelle: Die Vergleichsfunktion der Levenshtein-Distanz 7 / 24

Slide 8

Slide 8 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Erstellen der Matrix ¨¨¨¨¨ ¨ - - ¨¨¨¨¨ ¨ - h ¨¨¨¨¨ ¨ - e ¨¨¨¨¨ ¨ - r ¨¨¨¨¨ ¨ - z ¨¨¨ ¨¨ ¨ h - ¨¨¨ ¨¨ ¨ h h ¨¨¨ ¨¨ ¨ h e ¨¨¨ ¨¨ ¨ h r ¨¨¨ ¨¨ ¨ h z ¨ ¨¨¨¨ ¨ e - ¨ ¨¨¨¨ ¨ e h ¨ ¨¨¨¨ ¨ e e ¨ ¨¨¨¨ ¨ e r ¨ ¨¨¨¨ ¨ e z ¨¨¨¨¨ ¨ a - ¨¨¨¨¨ ¨ a h ¨¨¨¨¨ ¨ a e ¨¨¨¨¨ ¨ a r ¨¨¨¨¨ ¨ a z ¨¨¨¨ ¨ ¨ r - ¨¨¨¨ ¨ ¨ r h ¨¨¨¨ ¨ ¨ r e ¨¨¨¨ ¨ ¨ r r ¨¨¨¨ ¨ ¨ r z ¨¨ ¨¨¨ ¨ t - ¨¨ ¨¨¨ ¨ t h ¨¨ ¨¨¨ ¨ t e ¨¨ ¨¨¨ ¨ t r ¨¨ ¨¨¨ ¨ t z Tabelle: Vergleichsmatrix für den Wagner-Fischer-Algorithmus 8 / 24

Slide 9

Slide 9 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Mengen- vs. Sequenzvergleiche Unigrammatische und n-grammatische Segmentierung Paarweise und multiple Alinierung Der dynamische Programmieralgorithmus Berechnen der Kosten für jeden Pfad ¨¨¨¨¨ ¨ 0 -/- ¨¨¨¨¨ ¨ 1 -/h ¨¨¨¨¨ ¨ 2 -/e ¨¨¨¨¨ ¨ 3 -/r ¨¨¨¨¨ ¨ 4 -/z ¨¨¨ ¨¨ ¨ 1 h/- ¨¨¨ ¨¨ ¨ 0 h/h ¨¨¨ ¨¨ ¨ 1 -/e ¨¨¨ ¨¨ ¨ 2 -/r ¨¨¨ ¨¨ ¨ 3 -/z ¨ ¨¨¨¨ ¨ 2 e/- ¨ ¨¨¨¨ ¨ 1 e/- ¨ ¨¨¨¨ ¨ 0 e/e ¨ ¨¨¨¨ ¨ 1 -/r ¨ ¨¨¨¨ ¨ 2 -/z ¨¨¨¨¨ ¨ 3 a/- ¨¨¨¨¨ ¨ 2 a/- ¨¨¨¨¨ ¨ 1 a/- ¨¨¨¨¨ ¨ 1 a/r ¨¨¨¨¨ ¨ 2 -/z ¨¨¨¨ ¨ ¨ 4 r/- ¨¨¨¨ ¨ ¨ 3 r/- ¨¨¨¨ ¨ ¨ 2 a/- ¨¨¨¨ ¨ ¨ 1 r/r ¨¨¨¨ ¨ ¨ 2 -/z ¨ ¨¨¨¨ ¨ 5 t/- ¨ ¨¨¨¨ ¨ 4 t/- ¨ ¨¨¨¨ ¨ 3 a/- ¨ ¨¨¨¨ ¨ 2 t/r ¨ ¨¨¨¨ ¨ 2 t/z Tabelle: Vergleichsmatrix nach der Auswertung (mit Kosten) 9 / 24

Slide 10

Slide 10 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Transpositionen Levenshtein f r o m a g e - - f o r m a g g i o Damerau-Levenshtein f ro m a g e - - f or m a g g i o Tabelle: Levenshtein und Damerau-Levenshtein 10 / 24

Slide 11

Slide 11 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Konsekutive Indels Traditionell d i d oː m i d a - - m - Gotoh-Erweiterung d i d oː m i - - d a m - Tabelle: Konsekutive indels in der Sequenzalinierung 11 / 24

Slide 12

Slide 12 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Kompressionen und Expansionen Levenshtein d ɔ - tʰ ɐ tʰ ɔ x tʰ ɐ Oommen-Erweiterung d ɔ tʰ ɐ tʰ ɔ xtʰ ɐ Tabelle: Kompression und Expansion in der Sequenzalinierung 12 / 24

Slide 13

Slide 13 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Lokale Alinierung Levenshtein - ā p a k o s ī s - w ā p i k o n ō h a Lokale Alinierung ā p a k o sīs w ā p i k o nōha 13 / 24

Slide 14

Slide 14 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Probleme beim Alinieren phonetischer Daten θ i ɣ a t ɛ r a d ɔː tʰ ɚ - - - - Tabelle: Problem der Alinierung phonetischer Sequenzen 14 / 24

Slide 15

Slide 15 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Wie gut muss die Vergleichsfunktion sein? Abbildung: Neighbor-Analyse von Levenshtein-Distanzen 15 / 24

Slide 16

Slide 16 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Lautklassen in der Alinierung Zuweisung von Segmenten zu einheitlichen Klassen, innerhalb derer Lautwandel als wahrscheinlicher angenommen wird, als außerhalb der Klassen Umwandlung der Segmente in ihre jeweiligen Klassen Durchführung “traditioneller” Alignmentanalysen Der Vorteil von lautklassenbasierten Ansätzen liegt in ihrer leicht zu realisierenden Implementierung. Ferner können phonetisch unzureichende Sprachdaten meist relativ einfach in ein Klassenformat überführt werden. 16 / 24

Slide 17

Slide 17 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Dolgopolskys Lautklassen No. Typ Beschreibung Bsp. 1 P labiale Obstruenten p,b,f 2 T dentale Obstruenten d,t,θ,ð 3 S alveolare, postalveolare und retroflexe Frikative s,z,ʃ,ʒ 4 K velare und postvelare Obstruenten und Affrikaten k,g,ʦ,ʧ 5 M labialer Nasal m 6 N übrige Nasale n,ɲ,ŋ 7 R Trills, Taps, Flaps und laterale Approximanten r,l 8 W stimmhafter labialer Frikativ und initiale gerundete Vokale v,u 9 J palataler Approximant j 10 ø Laryngale und initialer velarer Nasal h,ɦ,ŋ Tabelle: Dolgopolskys Klassifizierung von Lautwandeltypen 17 / 24

Slide 18

Slide 18 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Erweiterung des Algorithmus Erweiterung der Vergleichsfunktion Segmentklassen anstelle “reiner” Segmente Alinierung mit Hilfe von Dolgopolskys Lautklassen Interne Alinierung T V K V T V R V T V - - T V - - Ausgabe θ i ɣ a t ɛ r a d ɔː - - tʰ ɚ - - Tabelle: Interne und externe Darstellung der Dolgopolsky-Alinierung 18 / 24

Slide 19

Slide 19 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE The Automated Similarity Judgment Program Sprache Bedeutung IPA ASJP-Code engl. ’das’ ðis 8is engl. ’Mund’ mauθ mau8 engl. ’Zunge’ tʰəŋ th~3N dt. ’Fisch’ fiʃ fiS engl. ’Zahn’ tuːθ tu8 dt. ’Schwester’ ʃwɛstʰɐ Swasth~a Tabelle: Das universale Alphabet des ASJP-Projektes 19 / 24

Slide 20

Slide 20 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE Covington Penalty Conditions 0 Exact match of consonants or glides (w, y) 5 Exact match of vowels 10 Match of two vowels that differ only in length, or i and y, or u and w 30 Match of two dissimilar vowels 60 Match of two dissimilar consonants 100 Match of two segments with no discernible similarity 40 Skip preceded by another skip in the same word 50 Skip not preceded by another skip in the same word Tabelle: Covingtons ’Evaluationsmetrik’ für die Alinierung 20 / 24

Slide 21

Slide 21 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick The Automated Similarity Judgment Program Covington ALINE Kondraks ALINE Syllabic 5 Place 40 Voice 10 Nasel 10 Lateral 10 Aspirated 5 High 5 Back 5 Manner 50 Retroflex 10 Long 1 Round 5 Tabelle: Merkmalssalienzen in ALINE 21 / 24

Slide 22

Slide 22 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Arbeitsstand und Ausblick Python-Programm zur umfangreichen Sequenzanalyse Modularer Aufbau, Module für Sequenzanalysen (Alignments und Distanzberechnungen), phonetische Analysen, automatische Kognatenerkennung Eingabe in Form Unicode-kodierter csv-Dateien (comma separated value), deren Struktur sich am Format etymologischer Wörterbucher in der STARLING-Software orientiert Ausgabe von Analysen und Berechnungen in verschiedenen Formaten, die wahlweise durch phylogenetische Softwarepakete weiterverarbeitet werden können (Phylip, Nexus) Skripte für Daten-Ein- und -Ausgabe sind bereits realisiert, ferner sind eine Reihe von Algorithmen/Verfahren zur Sequenzanalyse (erweiterter DPA, Dolgopolsky, ASJP, Covington) bereits verfügbar 22 / 24

Slide 23

Slide 23 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick Das war’s! 23 / 24

Slide 24

Slide 24 text

. . . . . . Grundlegendes zur Einführung Erweiterung des Alinierungsverfahrens Vorstellung neuerer Ansätze von Sequenzanalysen Arbeitsstand und Ausblick 24 / 24