Auf dem Weg zu einer computer-gestützten historischen Sprachforschung Chancen und Herausforderungen Johann-Mattis List DFG Nachwuchsstipendiat Centre des recherches linguistiques sur l’Asie Orientale Team Adaptation, Integration, Reticulation, Evolution EHESS and UPMC, Paris 2016/11/09 1 / 45
Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45
Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45
Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45
Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45
Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45
Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45
Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyse data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45
Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (gold standards, List 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storated and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45
Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (List 2014, List and Prokić 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storage and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45
Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (List 2014, List and Prokić 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storage and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45
Chancen Sequenzvergleiche Sequenzvergleiche die grundlegenden sprachlichen Daten, auf denen die komparative Methode basiert, können als Sequenzen (“Lautketten”) modelliert werden Evolutionsbiologie und Computerwissenschaft stellen uns ein reiches Arsenal an Methoden für automatische Sequenzvergleiche zur Verfügung beim Erstellen von Software für den computergestützten Sprachvergleich dürfen wir aber nicht vergessen, dass wir die Methoden an die spezifischen linguistischen Bedürfnisse anpassen müssen, da es grundlegende Unterschiede zwischen biologischen und linguistischen Sequenzen gibt 15 / 45
Chancen Sequenzvergleiche Sequenzvergleiche: “Take-Home-Message” Automatische Kognatenerkennung und Alinierung sind weit genug, um Hilfe beim Erstellen neuer Datensätze zu bieten. Sie können Linguisten nicht ersetzen, aber das ist ja auch nicht das Ziel von CALC. Sie können das Leben der Linguisten allerdings erleichtern, und das Ausmaß dieser Erleichterung kann enorm sein, inbesondere, wenn man die Möglichkeit von interaktiven Annotationstools zur Hilfe nimmt. 20 / 45
Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke semantischer Wandel ist bisher stiefmütterlich in der historischen Linguistik behandelt worden die Tatsache, dass die meisten Prozesse sich jedoch synchron in Form von Polysemie äußern, ermöglicht es, über die Idee der Kolexifizierungsnetzwerke, die von Haspelmaths “semantischen Karten” inspiriert sind (Haspelmath 2003, Cysouw 2010), die Diachronie über die Synchronie zu erforschen Netzwerkansätze, die erfolgreich in der Bioinformatik verwendet werden, ermöglichen es, die relativ großen Datenmengen nach wiederkehrenden Mustern zu durchsuchen (List et al. 2013) 21 / 45
Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) Concept "money" is part of a cluster with the central concept "fishscale" with a total of 10 nodes. Hover over forms for each link. Click on the forms to check their sources. Click HERE to export the current network. ty: Line weights: Coloring: Family silver leather fishscale bark coin fur snail skin, hide money shell 49 links for "silver" and "money": Language Family Form 1. Ignaciano Arawakan ne 2. Aymara, Central Aymaran ḳulʸḳi 3. Tsafiki Barbacoan kaˈla 4. Seselwa Creole French Creole larzan 5. Miao, White Hmong-Mien nyiaj 6. Breton Indo-European arhant 7. French Indo-European argent 8. Gaelic, Irish Indo-European airgead 9. Welsh Indo-European arian 10. Cofán Isolate koriΦĩʔdi 22 / 45
Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) Concept "wheel" is part of a cluster with the central concept "leg" with a total of 11 nodes. Hover over the e each link. Click on the forms to check their sources. Click HERE to export the current network. ity: Line weights: Coloring: Geolocation sphere, ball round footprint foot calf of leg circle thigh wheel leg hip buttocks 6 links for "foot" and "wheel": Language Family Form 1. Cofán Isolate c̷ɨʔtʰe 2. Puinave Isolate sim 3. Yaminahua Panoan taɨ 4. Wayampi Tupi pɨ 5. Pumé Unclassified taɔ 6. Ninam Yanomam mãhuk 22 / 45
Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: Work in Progress Wir können CLICS in vielerlei Hinsicht erweitern. Derzeit arbeiten wir an einer Vergrößerung der Datenbasis, sowie an einer Verfeinerung der Algorithmen zur Voranalyse. Beispiele betreffen die Ermittlung von Artikulationspunkten und Schlüsselspielern in den semantischen Netzwerken, sowie die Inferenz partieller Beziehungen (inspiriert von Urban 2013), welche in gerichteten Netzwerken visualisiert und als gerichtete Prozesse interpretiert werden können. 23 / 45
Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: “Take-Home Message” Kolexifizierungsnetzwerke sind noch nicht ausreichend erforscht worden, obwohl die Daten einen unvergleichlichen Schatz an Informationen zu sprachgeschichtlichen Tendenzen und menschlicher Kognition liefern. Für die historische Sprachwissenschaft können Kolexifizierungstendenzen in Zukunft helfen, Theorien zur tieferen Verwandtschaft von Sprachen oder entfernter Kognazität abzusichern, indem nicht nur die Korrespondenzen der Laute auf Regelmäßigkeit überprüft werden, sondern auch die Plausibilität der semantischen Entwicklung. 25 / 45
Chancen Mustererkennung Mustererkennung Liegen Daten zu Kognaten aliniert vor, können wir mit Hilfe von Netzwerkansätzen nach Mustern suchen, die uns helfen, sowohl die Qualität der Daten zu evaluieren, als auch die Prozesse, die den Daten unterliegen, zu untersuchen. Diese Art von “quantitative pattern analysis” steckt noch in ihren Kinderschuhen und wird derzeit intensiv getestet. Grundlegende Idee ist, dass die Inferenz von Cliquen in Netzwerken, die Spalten in ähnlichen prosodischen Positionen in multiplen Alinierungen zeigen, erste Rückschlüsse zu einer computer-gestützten Rekonstruktion bieten. 26 / 45
Chancen Mustererkennung Mustererkennung: “Take-Home Message” Unsere Arbeit steckt in ihren Kinderschuhen, aber ich denke, dass wir zuversichtlich sein können, dass die computergestützte Arbeit an Korrespondenzmustern sowohl der klassischen als auch der computerbasierten historischen Linguistik helfen wird. Mit der Mustererkennung können wir nicht nur Daten schneller auf Konsistenz überprüfen, sondern auch klassischen Linguisten helfen, neue Hypothesen zu entwickeln und diese dann transparent (mensch- und maschinenlesbar!) mit Kollegen zu teilen und zu diskutieren. 29 / 45
Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) 32 / 45
Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45
Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45
Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45
Herausforderungen Standardisierung Standardisierung: Kognatenzuweisung Language Lexical Entry Cognacy Alignment Central Amis simar 2 s i m a r Thao lhimash 2 lh i m a sh Hanunóo tabáʔ 23 t a b á ʔ Nias tawõ 23 t a w õ - Mailu mona 1 m o n a - Maloh -iñak 1 - i ñ a k Tetum mina 1 m i n a - Banggi laːna 24 l aː n a - Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ Iban lemak 24 l e m a k Cognate judgments for “grease/fat” across 10 Austronesian languages (data taken from Greenhill et. al 2008, online at http://language.psy.auckland.ac.nz/austronesian/) 33 / 45
Herausforderungen Standardisierung Standardisierung: Kognatenzuweisung Cognate judgments for “grease/fat” across 10 Austronesian languages (data taken from Greenhill et. al 2008, online at http://language.psy.auckland.ac.nz/austronesian/) Language Lexical Entry Cognacy Alignment Central Amis simar 2 s i m a r Thao lhimash 2 lh i m a sh Hanunóo tabáʔ 23 t a b á ʔ Nias tawõ 23 t a w õ - Mailu mona 1 m o n a - Maloh -iñak 1 - i ñ a k Tetum mina 1 m i n a - Banggi laːna 24 l aː n a - Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ Iban lemak 24 l e m a k 33 / 45
Herausforderungen Standardisierung Standardisierung als Herausforderung Erste Versuche werden derzeit unternommen, um die Vergleichbarkeit von Daten in der historischen Linguistik zu erhöhen, sei es im Rahmen der Concepticon-Initiative, von Glottolog, eines standardisierten phonetischen Alphabets (denn IPA ist nicht standardisiert in der Form, in der es gebraucht wird), oder in Form von Vorschlägen zur besten Praktik für das Annotieren von Kognaten, und komplexeren historischen Beziehungen. Aber der Weg ist beschwerlich und wird nicht ohne eine breite Kollaboration unter Forschenden verschiedenster Bereiche möglich sein. 34 / 45
Herausforderungen Modellierung Modellierung: Analogien und Parallelen Parallels between Species and Languages (Pagel 2009) aspect species languages unit of replication gene word replication asexual und sexual reproduction learning speciation cladogenesis language split forces of change natural selection and genetic drift social selection and trends differentiation tree-like tree-like 35 / 45
Herausforderungen Modellierung Modellierung: Analogien und Parallelen Differences between Species and Languages (Geisler & List 2013) Aspect Species Languages domain Popper’s World I Popper’s World III relation between form and function mechanical arbitrary origin monogenesis unclear sequence similarity universal (indepen- dent of species) language-specific differentiation tree-like network-like 37 / 45
Herausforderungen Modellierung Modellierung: Kognazität Italian dare French donner Indo-European *deh₃- *deh₃-no- Latin dare dōnum dōnāre Italian sole French soleil Swedish sol German Sonne Germanic *sōwel- *sunnō- Latin sol soliculus Indo-European *sóh₂-wl̩ - *sh₂én- A B List (2016) 38 / 45
Herausforderungen Modellierung Modellierung als Herausforderung Anstatt nur an der Geschwindigkeit oder den statistischen Eigenschaften unserer Methoden zu arbeiten müssen wir auch insbesondere an die Prozesse denken, die wir modellieren wollen. Oftmals haben Linguisten recht gute Vorstellungen diesbezüglich, aber selten gehen diese Vorstellungen auch in die Analysen mit ein. Dies wird insbesondere an den Problemen mit der Kognazität ersichtlich, da die Annahme von einfachen Prozessen des Kognatengewinns und des Kognatenverlustes der Komplexität lexikalischen Wandels nicht gerecht werden. 40 / 45
Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE 41 / 45
Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE 41 / 45
Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE COMPUTER-ASSISTED LANGUAGE COMPARISON 41 / 45
Herausforderungen Kollaboration Kollaboration Grundlagen unserer Wissenschaft sind Objektivität, Replikabilitiät, und Validität. Um diese zu erreichen, können wir ohne Kollaboration nicht vorankommen, sei es, dass wir in Teams kollaborieren um Methoden zu entwickeln oder Datensätze zu erstellen, oder dass wir unsere Methoden anderen Forschenden so zur Verfügung stellen, dass diese sie dann auch verwenden können. Zu oft sehen Wissenschaftler die historische Sprachwissenschaft noch als Einzelsportart. Von den Naturwissenschaftlern können wir aber lernen, dass diese Zeiten vorbei sind. So schwierig es sein kann, in Gruppen zu arbeiten (vor allem wenn diese interdisziplinär sind): Kollaboration zahlt sich am Ende meist aus. 42 / 45