$30 off During Our Annual Pro Sale. View Details »

Auf dem Weg zu einer computer-gestützten historischen Sprachforschung [On the way to a computer-assisted approach to historical linguistics]

Auf dem Weg zu einer computer-gestützten historischen Sprachforschung [On the way to a computer-assisted approach to historical linguistics]

Talk, held at the Linguistic Kolloquium (Friedrich-Schiller-University, Jena).

Johann-Mattis List

November 09, 2016
Tweet

More Decks by Johann-Mattis List

Other Decks in Science

Transcript

  1. Auf dem Weg zu einer computer-gestützten
    historischen Sprachforschung
    Chancen und Herausforderungen
    Johann-Mattis List
    DFG Nachwuchsstipendiat
    Centre des recherches linguistiques sur l’Asie Orientale
    Team Adaptation, Integration, Reticulation, Evolution
    EHESS and UPMC, Paris
    2016/11/09
    1 / 45

    View Slide

  2. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  3. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  4. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  5. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  6. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  7. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  8. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  9. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  10. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  11. Vergleichende Sprachwissenschaft
    2 / 45

    View Slide

  12. Vergleichende Sprachwissenschaft Hintergrund
    Hintergrund
    3 / 45

    View Slide

  13. Vergleichende Sprachwissenschaft Hintergrund
    Hintergrund
    3 / 45

    View Slide

  14. Vergleichende Sprachwissenschaft Hintergrund
    Hintergrund
    3 / 45

    View Slide

  15. Vergleichende Sprachwissenschaft Hintergrund
    Hintergrund
    3 / 45

    View Slide

  16. Vergleichende Sprachwissenschaft Hintergrund
    Hintergrund
    3 / 45

    View Slide

  17. Vergleichende Sprachwissenschaft Die komparative Methode COMPA-
    RATIVE
    METHOD
    4 / 45

    View Slide

  18. Vergleichende Sprachwissenschaft Die komparative Methode COMPA-
    RATIVE
    METHOD
    4 / 45

    View Slide

  19. Vergleichende Sprachwissenschaft Die komparative Methode COMPA-
    RATIVE
    METHOD
    4 / 45

    View Slide

  20. Vergleichende Sprachwissenschaft Die komparative Methode COMPA-
    RATIVE
    METHOD
    4 / 45

    View Slide

  21. Vergleichende Sprachwissenschaft Die komparative Methode COMPA-
    RATIVE
    METHOD
    4 / 45

    View Slide

  22. Vergleichende Sprachwissenschaft Computerlinguistik
    Computergestützter Sprachvergleich
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    5 / 45

    View Slide

  23. Vergleichende Sprachwissenschaft Computerlinguistik
    Computergestützter Sprachvergleich
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    5 / 45

    View Slide

  24. Vergleichende Sprachwissenschaft Computerlinguistik
    Computergestützter Sprachvergleich
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    5 / 45

    View Slide

  25. Vergleichende Sprachwissenschaft Computerlinguistik
    Computergestützter Sprachvergleich
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    5 / 45

    View Slide

  26. Vergleichende Sprachwissenschaft Computerlinguistik
    Computergestützter Sprachvergleich
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    5 / 45

    View Slide

  27. CALC
    6 / 45

    View Slide

  28. Language families like Sino-Tibetan present
    "almost unsurmountable obstacles".
    (Antoine Meillet 1925)
    insights
    → language change
    → human prehistory
    → triggers of diversity of life and culture
    → classical methods reach their limit
    → computational methods cannot replace
    experts' experience and intuition
    obstacles
    increasing amounts of data
    historical language comparison
    large and diverse language families
    challenges
    CALC
    6 / 45

    View Slide

  29. Language families like Sino-Tibetan present
    "almost unsurmountable obstacles".
    (Antoine Meillet 1925)
    insights
    → language change
    → human prehistory
    → triggers of diversity of life and culture
    → classical methods reach their limit
    → computational methods cannot replace
    experts' experience and intuition
    obstacles
    increasing amounts of data
    historical language comparison
    large and diverse language families
    challenges
    CALC
    6 / 45

    View Slide

  30. Language families like Sino-Tibetan present
    "almost unsurmountable obstacles".
    (Antoine Meillet 1925)
    insights
    → language change
    → human prehistory
    → triggers of diversity of life and culture
    → classical methods reach their limit
    → computational methods cannot replace
    experts' experience and intuition
    obstacles
    increasing amounts of data
    historical language comparison
    large and diverse language families
    challenges
    CALC
    6 / 45

    View Slide

  31. Computergestützter Sprachvergleich
    Computerbasierter und klassischer Sprachvergleich
    7 / 45

    View Slide

  32. Computergestützter Sprachvergleich
    Computerbasierter und klassischer Sprachvergleich
    7 / 45

    View Slide

  33. Computergestützter Sprachvergleich
    Computerbasierter und klassischer Sprachvergleich
    7 / 45

    View Slide

  34. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    LC
    CA
    lacks
    efficiency
    lacks
    consistency
    lacks
    efficiency
    lacks
    accuracy
    lacks
    flexibility
    high
    efficiency
    high
    consistency
    high
    flexibility
    high
    accuracy
    COMPA-
    RATIVE
    METHOD accuracy
    flexibility
    consistency
    efficiency
    COMPUTA-
    TIONAL
    HISTORICAL
    LINGUISTICS
    8 / 45

    View Slide

  35. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  36. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  37. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  38. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  39. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  40. Computergestützter Sprachvergleich
    Computergestützter Sprachvergleich LC
    CA
    8 / 45

    View Slide

  41. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  42. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  43. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  44. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  45. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  46. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  47. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  48. Computergestützter Sprachvergleich Workflows
    Workflows LC
    CA
    9 / 45

    View Slide

  49. Computergestützter Sprachvergleich Software
    Software SOFTWARE
    10 / 45

    View Slide

  50. Computergestützter Sprachvergleich Software
    Software SOFTWARE
    10 / 45

    View Slide

  51. Computergestützter Sprachvergleich Software
    Software SOFTWARE
    10 / 45

    View Slide

  52. Computergestützter Sprachvergleich Software
    Software SOFTWARE
    10 / 45

    View Slide

  53. Computergestützter Sprachvergleich Schnittstellen
    Schnittstellen INTERFACES
    ID DOCULECT CONCEPT SEGMENTS
    N U O ?
    wOld
    yuE_5_1liaN_1
    moon
    moon
    moon
    moon
    Běijīng
    Guǎngzhōu
    Měixiàn
    Fúzhōu
    1
    2
    3
    4
    Conversion and Segmentation
    Highlighting of Unrecognized
    Phonetic Symbols
    yuE_5_1liaN_1
    yɛ⁵¹liɑŋ¹
    y ɛ ⁵¹ l i ɑ ŋ ¹
    annotate data
    analyze data
    edit alignments
    bridge between humans and machines
    → access results produced by software
    → check internal consistency of manual input
    11 / 45

    View Slide

  54. Computergestützter Sprachvergleich Schnittstellen
    Schnittstellen INTERFACES
    ID DOCULECT CONCEPT SEGMENTS
    N U O ?
    wOld
    yuE_5_1liaN_1
    moon
    moon
    moon
    moon
    Běijīng
    Guǎngzhōu
    Měixiàn
    Fúzhōu
    1
    2
    3
    4
    Conversion and Segmentation
    Highlighting of Unrecognized
    Phonetic Symbols
    yuE_5_1liaN_1
    yɛ⁵¹liɑŋ¹
    y ɛ ⁵¹ l i ɑ ŋ ¹
    annotate data
    analyze data
    edit alignments
    bridge between humans and machines
    → access results produced by software
    → check internal consistency of manual input
    11 / 45

    View Slide

  55. Computergestützter Sprachvergleich Schnittstellen
    Schnittstellen INTERFACES
    ID DOCULECT CONCEPT SEGMENTS
    N U O ?
    wOld
    yuE_5_1liaN_1
    moon
    moon
    moon
    moon
    Běijīng
    Guǎngzhōu
    Měixiàn
    Fúzhōu
    1
    2
    3
    4
    Conversion and Segmentation
    Highlighting of Unrecognized
    Phonetic Symbols
    yuE_5_1liaN_1
    yɛ⁵¹liɑŋ¹
    y ɛ ⁵¹ l i ɑ ŋ ¹
    annotate data
    analyze data
    edit alignments
    bridge between humans and machines
    → access results produced by software
    → check internal consistency of manual input
    11 / 45

    View Slide

  56. Computergestützter Sprachvergleich Schnittstellen
    Schnittstellen INTERFACES
    ID DOCULECT CONCEPT SEGMENTS
    N U O ?
    wOld
    yuE_5_1liaN_1
    moon
    moon
    moon
    moon
    Běijīng
    Guǎngzhōu
    Měixiàn
    Fúzhōu
    1
    2
    3
    4
    Conversion and Segmentation
    Highlighting of Unrecognized
    Phonetic Symbols
    yuE_5_1liaN_1
    yɛ⁵¹liɑŋ¹
    y ɛ ⁵¹ l i ɑ ŋ ¹
    annotate data
    analyse data
    edit alignments
    bridge between humans and machines
    → access results produced by software
    → check internal consistency of manual input
    11 / 45

    View Slide

  57. Computergestützter Sprachvergleich Daten
    Daten
    GOLD
    STANDARDS
    GOLD
    STANDARDS
    Benchmark data (gold standards, List 2014)
    → not available due to novelty of algorithms
    → will be compiled from scratch during the project
    Unified formats for data storated and exchange
    → phonetic transcription
    → comparison concepts (Concepticon, List et al. 2016)
    → etymological representation (borrowings, cognates)
    data in machine and human-readable form
    → benchmark data for testing and training of algorithms
    → unified formats for data storage and exchange
    12 / 45

    View Slide

  58. Computergestützter Sprachvergleich Daten
    Daten
    GOLD
    STANDARDS
    GOLD
    STANDARDS
    Benchmark data (List 2014, List and Prokić 2014)
    → not available due to novelty of algorithms
    → will be compiled from scratch during the project
    Unified formats for data storage and exchange
    → phonetic transcription
    → comparison concepts (Concepticon, List et al. 2016)
    → etymological representation (borrowings, cognates)
    data in machine and human-readable form
    → benchmark data for testing and training of algorithms
    → unified formats for data storage and exchange
    12 / 45

    View Slide

  59. Computergestützter Sprachvergleich Daten
    Daten
    GOLD
    STANDARDS
    GOLD
    STANDARDS
    Benchmark data (List 2014, List and Prokić 2014)
    → not available due to novelty of algorithms
    → will be compiled from scratch during the project
    Unified formats for data storage and exchange
    → phonetic transcription
    → comparison concepts (Concepticon, List et al. 2016)
    → etymological representation (borrowings, cognates)
    data in machine and human-readable form
    → benchmark data for testing and training of algorithms
    → unified formats for data storage and exchange
    12 / 45

    View Slide

  60. 13 / 45

    View Slide

  61. 13 / 45

    View Slide

  62. 13 / 45

    View Slide

  63. Chancen
    Ausblick
    Chancen
    14 / 45

    View Slide

  64. Chancen Sequenzvergleiche
    Sequenzvergleiche
    die grundlegenden sprachlichen Daten, auf denen die komparative
    Methode basiert, können als Sequenzen (“Lautketten”) modelliert
    werden
    Evolutionsbiologie und Computerwissenschaft stellen uns ein
    reiches Arsenal an Methoden für automatische Sequenzvergleiche
    zur Verfügung
    beim Erstellen von Software für den computergestützten
    Sprachvergleich dürfen wir aber nicht vergessen, dass wir die
    Methoden an die spezifischen linguistischen Bedürfnisse anpassen
    müssen, da es grundlegende Unterschiede zwischen biologischen
    und linguistischen Sequenzen gibt
    15 / 45

    View Slide

  65. Chancen Sequenzvergleiche
    Sequenzvergleiche
    16 / 45

    View Slide

  66. Chancen Sequenzvergleiche
    Sequenzvergleiche
    • universal • language-specific
    16 / 45

    View Slide

  67. Chancen Sequenzvergleiche
    Sequenzvergleiche
    • universal • language-specific
    • limited • widely varying
    16 / 45

    View Slide

  68. Chancen Sequenzvergleiche
    Sequenzvergleiche
    • universal • language-specific
    • limited • widely varying
    • constant • mutable
    16 / 45

    View Slide

  69. Chancen Sequenzvergleiche
    Sequenzvergleiche: LingPy
    LingPy
    http://lingpy.org
    17 / 45

    View Slide

  70. Chancen Sequenzvergleiche
    Sequenzvergleiche: Beispiele (Kessler 2001)
    “graben” (30) Turchin Levensht. LexStat.
    Albanisch gërmon gərmo 1 1 1
    Englisch digs dɪg 2 2 2
    Französisch creuse krøze 1 3 3
    Deutsch gräbt graːb 1 1 4
    Hawaii ‘eli ʔeli 5 5 5
    Navajo hahashgééd hahageːd 6 6 6
    Türkisch kazıyor kaz 7 3 7
    18 / 45

    View Slide

  71. Chancen Sequenzvergleiche
    Sequenzvergleiche: Beispiele (Kessler 2001)
    “Mund” (104) Turchin Levensth. LexStat.
    Albanisch gojë goj 1 1 1
    Englisch mouth mauθ 2 2 2
    Französisch bouche buʃ 3 3 3
    Deutsch Mund mund 4 4 2
    Hawaii waha waha 5 5 5
    Navajo ’azéé’ zeːʔ 6 6 6
    Türkisch ağız aɣz 7 7 7
    18 / 45

    View Slide

  72. Chancen Sequenzvergleiche
    Sequenzvergleiche: Evaluierung (List, Greenhill, Gray)
    Bahnaric
    C
    hinese
    H
    uon
    R
    om
    ance
    Tujia
    U
    ralic
    0.60
    0.65
    0.70
    0.75
    0.80
    0.85
    0.90
    0.95
    1.00
    Turchin
    Edit Distance
    SCA
    LexStat
    Infomap
    top
    flop
    19 / 45

    View Slide

  73. Chancen Sequenzvergleiche
    Sequenzvergleiche: Evaluierung (List, Greenhill, Gray)
    Edit-Dist.
    SCA Infomap
    Bahnaric
    Chinese
    Huon
    Romance
    Tujia
    Uralic
    Turchin
    LexStat
    TOTAL
    true positive
    true negative
    false negative
    false positive
    19 / 45

    View Slide

  74. Chancen Sequenzvergleiche
    Sequenzvergleiche: Evaluierung (List, Greenhill, Gray)
    Fuzhou
    Xiamen
    Chaozhou
    Meixian
    Yangjiang
    Guangzhou
    Wenzhou
    Suzhou
    Nanchang
    Changsha
    Yangzhou
    Hefei
    Kunming
    Chengdu
    Xi'an
    Jinan
    Shenyang
    Beijing
    Fuzhou
    Xiamen
    Chaozhou
    Meixian
    Yangjiang
    Guangzhou
    Wenzhou
    Suzhou
    Nanchang
    Changsha
    Yangzhou
    Hefei
    Kunming
    Chengdu
    Xi'an
    Jinan
    Shenyang
    Beijing
    Fuzhou
    Xiamen
    Chaozhou
    Meixian
    Yangjiang
    Guangzhou
    Wenzhou
    Suzhou
    Nanchang
    Changsha
    Yangzhou
    Hefei
    Kunming
    Chengdu
    Xi'an
    Jinan
    Shenyang
    Beijing
    0.00
    0.03
    0.06
    0.09
    0.12
    0.15
    0.18
    0.21
    0.24
    0.27
    0.30
    False Positives / False Negatives (Percent)
    Turchin Method Infomap Method
    false
    positives
    false
    negatives
    19 / 45

    View Slide

  75. Chancen Sequenzvergleiche
    Sequenzvergleiche: “Take-Home-Message”
    Automatische Kognatenerkennung und Alinierung sind weit genug, um
    Hilfe beim Erstellen neuer Datensätze zu bieten. Sie können Linguisten
    nicht ersetzen, aber das ist ja auch nicht das Ziel von CALC. Sie
    können das Leben der Linguisten allerdings erleichtern, und das
    Ausmaß dieser Erleichterung kann enorm sein, inbesondere, wenn
    man die Möglichkeit von interaktiven Annotationstools zur Hilfe nimmt.
    20 / 45

    View Slide

  76. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke
    semantischer Wandel ist bisher stiefmütterlich in der historischen
    Linguistik behandelt worden
    die Tatsache, dass die meisten Prozesse sich jedoch synchron in
    Form von Polysemie äußern, ermöglicht es, über die Idee der
    Kolexifizierungsnetzwerke, die von Haspelmaths “semantischen
    Karten” inspiriert sind (Haspelmath 2003, Cysouw 2010), die
    Diachronie über die Synchronie zu erforschen
    Netzwerkansätze, die erfolgreich in der Bioinformatik verwendet
    werden, ermöglichen es, die relativ großen Datenmengen nach
    wiederkehrenden Mustern zu durchsuchen (List et al. 2013)
    21 / 45

    View Slide

  77. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: CLICS (List et al. 2014)
    Key Concept Russian German ...
    1.1 world mir, svet Welt ...
    1.21 earth, land zemlja Erde, Land ...
    1.212 ground, soil počva Erde, Boden ...
    1.420 tree derevo Baum ...
    1.430 wood derevo Wald ...
    ... ... ... ... ...
    22 / 45

    View Slide

  78. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: CLICS (List et al. 2014)
    CLICS: Crosslinguistic Colexifications
    - 221 Languages
    - 64 language families
    - 1280 concepts
    - 301,498 words
    - 45,667 polysemies (colexifications)
    - 16,239 different links between concepts
    - http://clics.lingpy.org
    22 / 45

    View Slide

  79. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: CLICS (List et al. 2014)
    684
    678
    871
    1043
    6
    30
    129
    196
    1243
    128
    869
    853
    650 344
    1103
    150
    185
    627
    232
    709
    1035
    1206
    177
    97
    311
    496
    606
    137
    207
    444
    840
    1077
    325
    222
    1063
    1138
    1204
    1258
    559
    723
    495
    766
    914
    38
    1101
    652
    865
    891
    872
    633
    291
    980
    700 144
    410
    430
    1025
    406
    464
    787
    622
    131
    242
    918
    275
    1159
    99
    1174
    671 1038
    786
    705
    641
    760
    1259
    356
    391
    197
    10
    214
    299
    63
    191
    619
    644
    792
    1205
    897 67
    1231
    213
    226
    747
    681
    399
    841
    439
    773
    123
    800
    16
    1067
    1227
    696
    417
    550
    68
    76
    108
    360
    1244
    339
    500
    81
    867
    79
    1097
    98
    96
    833
    771
    715
    455
    380
    1268
    1186
    1046
    39
    252
    1228
    66
    23
    1112
    133
    676
    336
    739 1150
    1071
    986
    485
    112
    372
    1109
    830
    721
    1053
    1057
    601
    573
    556
    527
    1248
    614
    488
    908
    499
    1002
    309
    442
    814
    1193
    569
    458 258
    563
    653
    682 774
    70
    1151
    948
    801
    1082
    243
    47
    71
    83
    153
    1265
    934
    85
    1215
    1199
    523
    581
    422
    21
    358
    1261
    111
    354
    219
    759
    15
    890
    261
    1222
    141
    158
    74
    806
    1031
    845
    770
    850
    903
    1224
    419
    754
    433
    798
    188
    1256
    613
    528
    208
    539
    323
    981
    132
    1055
    1001
    790
    804
    844
    1118
    907
    640 446
    815
    923
    498
    201
    1184
    578
    566
    427
    532
    452
    151
    750
    598
    1094
    345
    735
    777
    978
    599
    492
    390
    286
    1107
    742
    1015
    1202
    1210
    1257 1275
    859
    988
    69
    752
    596
    290
    126
    110
    950
    922
    1047
    741
    253
    347
    385
    620
    966
    221
    431 3
    224
    1194
    999
    953
    1029
    852
    301
    389
    318
    530
    1048
    1032 175
    701 544
    1119
    241
    94
    745
    835
    1270
    62
    107
    159
    20
    767
    512
    331
    248
    549
    1013
    946
    974
    1022 1100
    477
    302
    233
    1168
    1003
    1211
    570
    307 40
    945
    1269
    784
    546
    437
    901
    350
    238
    305
    1191
    482
    1012
    977
    906
    783
    524
    117
    457
    603
    836
    1181
    880
    229 124
    216
    1113
    1074
    72
    586
    647
    447
    2
    113
    1179
    7 1006
    665
    397
    502
    610 1274
    707
    327
    659
    667
    824
    917
    985
    1089
    346
    1229
    101
    542
    1042
    727
    782
    733
    967
    462
    592
    468
    1106
    440
    478 308
    577
    698
    776
    75
    1155
    51
    145
    517
    359
    938
    1157
    1160
    1183
    947
    1102
    1135
    1252
    343
    608
    537
    103
    634
    251
    383 506
    25
    829
    396
    686
    679
    574
    516
    42
    250
    379
    809
    602
    660
    780
    765
    697
    856
    899
    594
    1008
    393
    179
    114
    1140 11
    100
    1209
    618
    600
    192
    1277
    896
    1142
    1278
    762 421
    713
    182
    521
    861
    672
    297
    1116
    1190
    1192
    140
    1212
    46
    493
    1187
    157
    1225
    212
    403
    519
    616
    173
    413
    912
    1110
    84
    756
    793
    636
    118
    889
    692
    998
    366
    711
    1045
    61
    240
    1263
    199
    648
    832
    289
    522
    368
    1091
    931
    982
    949
    400
    119
    388 811
    53 59
    1069
    708
    952
    545
    763
    1238
    184
    825
    377
    1242
    1233
    262
    635
    269
    1062
    1061
    1073
    933
    17
    1247
    352
    64
    384
    50
    632 736
    1246
    822
    781 758 1
    939
    595
    778
    105
    860
    1049
    1066
    1072
    995
    503 370
    919
    1149
    1127
    1128
    972
    1126
    245
    921
    973
    675
    587
    1235
    960
    928 926
    1143
    548
    1250
    86
    1021
    32
    1068
    719
    965
    259
    1070
    863
    638
    303
    324
    873
    249
    892
    976 1007
    722
    36
    459
    293
    165
    209
    557
    1245
    788 862
    651
    900
    31
    483
    236
    935 1052
    115
    294 680
    831
    44
    453
    206
    971
    1273
    170
    753
    256
    1148 200
    450
    382
    1240
    561
    615
    317
    572
    725 870
    438
    139
    1011
    646
    1117
    392
    45
    276 264 704
    1080
    174
    1050
    808
    1197
    508
    576
    225
    562
    471
    1217
    333
    1014
    593
    92
    1034
    611
    1171 312
    802
    1253
    29
    902
    244
    582
    466
    668
    878
    341
    432
    1163
    625
    904
    164
    467 1195
    1232
    796
    828
    281
    629
    349
    1166
    411
    369
    387
    1208
    394
    415
    1000 58
    1098
    148
    287
    1223
    818
    263
    220
    838
    876
    313
    260
    65
    1165
    5 355
    106
    1172
    490
    718
    171
    1139
    163
    785
    881
    887
    1169
    319
    585
    553
    894
    306
    314
    1041
    1009
    799
    674
    848
    1201
    1004
    689
    1085
    1218 1145 1170
    228
    911
    279
    73 104
    690
    1254
    402
    340
    169
    693
    868
    893
    1018
    78
    1092
    194
    555
    198
    834
    1249
    997
    932
    237
    1176 666
    956
    624
    1262
    541
    520
    795
    866
    702
    4
    734
    1095
    1180
    728
    964
    1079 271
    842
    1241
    1056
    154
    751 353
    905
    1136
    504
    909
    910
    1133
    362
    583
    670
    1124 381
    1216
    215
    178
    571
    470
    142
    376
    1154
    172
    296
    533
    364
    963
    152
    797 1213
    803
    1051
    738
    426
    1036
    1153
    637
    823
    915
    428
    1075
    560
    547
    1137
    35
    882
    89
    511
    1122
    805
    494
    1130
    1188
    1086
    1236
    669
    588
    930
    703
    942
    18
    655
    335
    155
    710
    1156
    1028
    465
    147
    183
    414
    1221
    273
    166
    1054
    278
    55
    460
    812 1090
    810
    180
    768
    143
    156
    404
    367
    1182
    231
    288
    136
    456
    82
    529
    970
    1016
    729
    395 187
    604
    408
    330
    1064
    34
    1267
    847
    726
    543
    677
    642
    940
    645
    958
    683 695
    864
    1058 605
    1084
    451
    443
    699
    1167
    959
    925
    1198
    227
    886
    628
    1178
    337
    991
    813
    657
    1185
    1039
    769
    1081
    484
    712
    1189
    944
    1207
    322
    33
    685
    424 80
    270
    937
    1177
    283
    1237
    816
    130
    161
    189
    77
    300
    1026
    463 1104
    326
    589 60
    983
    474
    1093
    744
    748
    554 292
    41
    267
    984
    373
    1214
    957
    1024 969
    507 37
    874
    1030
    630
    579
    962
    535
    706
    688
    122
    497
    1060
    1083
    1027 102
    510 405
    1134
    658
    617
    936
    929
    363
    1175 361
    536
    534
    1219
    181
    386
    884
    418
    558 8
    479
    979
    551
    505
    316
    298
    26
    315
    761
    202
    1144
    176
    473 348 134
    639
    663
    717
    885
    924
    149
    49
    1078
    1040
    57
    167
    764
    1173
    673
    280
    1152
    277
    1272
    1065
    272
    827
    531
    607
    1123
    257
    996
    436 9
    826
    234
    1096
    875
    525
    304
    1108
    475
    1132
    714
    846
    540
    716
    1005
    1105
    357
    1162
    694
    920 743
    28
    994
    1200
    168
    1266
    420
    515
    568
    755
    895
    218
    916
    730
    807 210
    375
    854
    1010
    879
    1125
    268
    1129
    1114
    1255
    1158
    1279
    487
    486
    398
    597
    661
    135 565
    621 193
    321
    1230
    513
    654
    265
    612
    737
    855
    211
    1196
    246
    1264
    584
    338
    749
    1271
    434
    121
    423
    509
    839
    1147
    656
    230
    239
    489
    14
    469
    22
    1044
    351
    448
    282
    329
    961
    254
    989
    371
    284
    223
    843
    821
    24
    1023
    643
    819
    285
    514
    746
    757
    791
    138
    186
    849
    93 951 127
    877
    1088
    518
    1164
    1260
    501
    54
    190
    95
    43 205
    1276
    116
    146 662
    217
    461
    883
    204
    1033
    310
    472
    12
    412
    332
    817
    649
    794
    1037
    943 927
    481
    968
    425
    109 195
    857
    1121
    564
    687
    664
    724
    87
    1120
    88
    449
    429
    255
    987
    992
    1111
    591
    575
    491
    720
    851
    328
    941
    990 1019
    993
    1087
    955
    580
    1226
    975
    1099
    732
    235 779
    365 1234
    441
    609 247
    334 91
    1251
    1131
    913
    691
    52
    274
    1017
    435
    90
    407
    480
    1239
    13
    623
    0
    266
    626
    295
    954
    1059
    552
    898
    858
    772 526
    1115
    48
    1161
    125
    590
    454
    1020
    1141
    203
    740
    1146
    342
    820
    1220
    56
    320
    416
    27
    401
    476
    19
    120
    1203
    445 789
    775
    888
    567
    378
    1076
    160
    162
    409
    731
    631
    374
    538
    837
    22 / 45

    View Slide

  80. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: CLICS (List et al. 2014)
    Concept "money" is part of a cluster with the central concept "fishscale" with a total of 10 nodes. Hover over
    forms for each link. Click on the forms to check their sources. Click HERE to export the current network.
    ty: Line weights: Coloring: Family
    silver
    leather
    fishscale
    bark
    coin
    fur
    snail
    skin, hide
    money
    shell
    49 links for "silver" and "money":
    Language Family Form
    1. Ignaciano Arawakan ne
    2. Aymara, Central Aymaran ḳulʸḳi
    3. Tsafiki Barbacoan kaˈla
    4. Seselwa Creole French Creole larzan
    5. Miao, White Hmong-Mien nyiaj
    6. Breton Indo-European arhant
    7. French Indo-European argent
    8. Gaelic, Irish Indo-European airgead
    9. Welsh Indo-European arian
    10. Cofán Isolate koriΦĩʔdi
    22 / 45

    View Slide

  81. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: CLICS (List et al. 2014)
    Concept "wheel" is part of a cluster with the central concept "leg" with a total of 11 nodes. Hover over the e
    each link. Click on the forms to check their sources. Click HERE to export the current network.
    ity: Line weights: Coloring: Geolocation
    sphere, ball
    round
    footprint
    foot
    calf of leg
    circle
    thigh
    wheel
    leg
    hip
    buttocks
    6 links for "foot" and "wheel":
    Language Family Form
    1. Cofán Isolate c̷ɨʔtʰe
    2. Puinave Isolate sim
    3. Yaminahua Panoan taɨ
    4. Wayampi Tupi pɨ
    5. Pumé Unclassified taɔ
    6. Ninam Yanomam mãhuk
    22 / 45

    View Slide

  82. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: Work in Progress
    Wir können CLICS in vielerlei Hinsicht erweitern. Derzeit arbeiten wir
    an einer Vergrößerung der Datenbasis, sowie an einer Verfeinerung der
    Algorithmen zur Voranalyse. Beispiele betreffen die Ermittlung von
    Artikulationspunkten und Schlüsselspielern in den semantischen
    Netzwerken, sowie die Inferenz partieller Beziehungen (inspiriert von
    Urban 2013), welche in gerichteten Netzwerken visualisiert und als
    gerichtete Prozesse interpretiert werden können.
    23 / 45

    View Slide

  83. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: Work in Progress
    24 / 45

    View Slide

  84. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: Work in Progress
    24 / 45

    View Slide

  85. Chancen Kolexifizierungsnetzwerke
    Kolexifizierungsnetzwerke: “Take-Home Message”
    Kolexifizierungsnetzwerke sind noch nicht ausreichend erforscht
    worden, obwohl die Daten einen unvergleichlichen Schatz an
    Informationen zu sprachgeschichtlichen Tendenzen und menschlicher
    Kognition liefern. Für die historische Sprachwissenschaft können
    Kolexifizierungstendenzen in Zukunft helfen, Theorien zur tieferen
    Verwandtschaft von Sprachen oder entfernter Kognazität abzusichern,
    indem nicht nur die Korrespondenzen der Laute auf Regelmäßigkeit
    überprüft werden, sondern auch die Plausibilität der semantischen
    Entwicklung.
    25 / 45

    View Slide

  86. Chancen Mustererkennung
    Mustererkennung
    Liegen Daten zu Kognaten aliniert vor, können wir mit Hilfe von
    Netzwerkansätzen nach Mustern suchen, die uns helfen, sowohl die
    Qualität der Daten zu evaluieren, als auch die Prozesse, die den Daten
    unterliegen, zu untersuchen. Diese Art von “quantitative pattern
    analysis” steckt noch in ihren Kinderschuhen und wird derzeit intensiv
    getestet. Grundlegende Idee ist, dass die Inferenz von Cliquen in
    Netzwerken, die Spalten in ähnlichen prosodischen Positionen in
    multiplen Alinierungen zeigen, erste Rückschlüsse zu einer
    computer-gestützten Rekonstruktion bieten.
    26 / 45

    View Slide

  87. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  88. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  89. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  90. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  91. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  92. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  93. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    27 / 45

    View Slide

  94. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    28 / 45

    View Slide

  95. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    28 / 45

    View Slide

  96. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    28 / 45

    View Slide

  97. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    28 / 45

    View Slide

  98. Chancen Mustererkennung
    Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS)
    28 / 45

    View Slide

  99. Chancen Mustererkennung
    Mustererkennung: “Take-Home Message”
    Unsere Arbeit steckt in ihren Kinderschuhen, aber ich denke, dass wir
    zuversichtlich sein können, dass die computergestützte Arbeit an
    Korrespondenzmustern sowohl der klassischen als auch der
    computerbasierten historischen Linguistik helfen wird. Mit der
    Mustererkennung können wir nicht nur Daten schneller auf Konsistenz
    überprüfen, sondern auch klassischen Linguisten helfen, neue
    Hypothesen zu entwickeln und diese dann transparent (mensch- und
    maschinenlesbar!) mit Kollegen zu teilen und zu diskutieren.
    29 / 45

    View Slide

  100. Herausforderungen
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BO
    PP
    VERY,
    VERY
    LO
    NG
    TI TLE
    Herausforderungen
    30 / 45

    View Slide

  101. Herausforderungen Standardisierung
    Standardisierung
    31 / 45

    View Slide

  102. Herausforderungen Standardisierung
    Standardisierung: Konzeptbenennung
    31 / 45

    View Slide

  103. Herausforderungen Standardisierung
    Standardisierung: Konzeptbenennung
    Concept List # Items Concept Label Concept ID
    Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID: 3232)
    Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID: 3232)
    Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID: 3232)
    Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID: 3232)
    Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID: 3232)
    Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID: 3232)
    OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID: 3232)
    Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID: 3232)
    Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID: 3232)
    Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID: 3232)
    Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID: 3232)
    Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID: 3232)
    Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID: 3232)
    Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID: 3232)
    Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID: 3232)
    Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID: 3232)
    TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID: 3232)
    Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID: 3232)
    Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID: 3232)
    Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID: 3232)
    Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID: 3232)
    Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID: 3232)
    Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016,
    online at http://concepticon.clld.org)
    31 / 45

    View Slide

  104. Herausforderungen Standardisierung
    Standardisierung: Konzeptbenennung
    Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016,
    online at http://concepticon.clld.org)
    Concept List # Items Concept Label Concept ID
    Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID:323)
    Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID:323)
    Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID:323)
    Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID:323)
    Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID:323)
    Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID:323)
    OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID:323)
    Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID:323)
    Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID:323)
    Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID:323)
    Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID:323)
    Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID:323)
    Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID:323)
    Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID:323)
    Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID:323)
    Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID:323)
    TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID:323)
    Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID:323)
    Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID:323)
    Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID:323)
    Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID:323)
    Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID:323)
    31 / 45

    View Slide

  105. Herausforderungen Standardisierung
    Standardisierung: Konzeptbenennung
    Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016,
    online at http://concepticon.clld.org)
    Concept List # Items Concept Label Concept ID
    Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID:323)
    Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID:323)
    Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID:323)
    Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID:323)
    Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID:323)
    Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID:323)
    OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID:323)
    Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID:323)
    Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID:323)
    Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID:323)
    Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID:323)
    Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID:323)
    Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID:323)
    Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID:323)
    Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID:323)
    Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID:323)
    TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID:323)
    Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID:323)
    Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID:323)
    Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID:323)
    Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID:323)
    Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID:323)
    31 / 45

    View Slide

  106. Herausforderungen Standardisierung
    Standardisierung: Lexikalische Repräsentation
    32 / 45

    View Slide

  107. Herausforderungen Standardisierung
    Standardisierung: Lexikalische Repräsentation
    Dialect Entry IPA Segments Morphemes
    Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵
    Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³
    Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹
    Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵²
    Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³
    Meixian 油 jiu¹² j i u ¹² j i u ¹ ²
    Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵
    Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³
    Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹
    Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴
    Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties
    (data taken from Wang and Hamed 2006)
    32 / 45

    View Slide

  108. Herausforderungen Standardisierung
    Standardisierung: Lexikalische Repräsentation
    Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties
    (data taken from Wang and Hamed 2006)
    Dialect Entry IPA Segments Morphemes
    Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵
    Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³
    Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹
    Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵²
    Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³
    Meixian 油 jiu¹² j i u ¹² j i u ¹ ²
    Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵
    Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³
    Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹
    Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴
    32 / 45

    View Slide

  109. Herausforderungen Standardisierung
    Standardisierung: Lexikalische Repräsentation
    Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties
    (data taken from Wang and Hamed 2006)
    Dialect Entry IPA Segments Morphemes
    Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵
    Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³
    Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹
    Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵²
    Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³
    Meixian 油 jiu¹² j i u ¹² j i u ¹ ²
    Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵
    Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³
    Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹
    Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴
    32 / 45

    View Slide

  110. Herausforderungen Standardisierung
    Standardisierung: Lexikalische Repräsentation
    Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties
    (data taken from Wang and Hamed 2006)
    Dialect Entry IPA Segments Morphemes
    Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵
    Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³
    Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹
    Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵²
    Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³
    Meixian 油 jiu¹² j i u ¹² j i u ¹ ²
    Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵
    Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³
    Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹
    Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴
    32 / 45

    View Slide

  111. Herausforderungen Standardisierung
    Standardisierung: Kognatenzuweisung
    33 / 45

    View Slide

  112. Herausforderungen Standardisierung
    Standardisierung: Kognatenzuweisung
    Language Lexical Entry Cognacy Alignment
    Central Amis simar 2 s i m a r
    Thao lhimash 2 lh i m a sh
    Hanunóo tabáʔ 23 t a b á ʔ
    Nias tawõ 23 t a w õ -
    Mailu mona 1 m o n a -
    Maloh -iñak 1 - i ñ a k
    Tetum mina 1 m i n a -
    Banggi laːna 24 l aː n a -
    Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ
    Iban lemak 24 l e m a k
    Cognate judgments for “grease/fat” across 10 Austronesian languages
    (data taken from Greenhill et. al 2008, online at
    http://language.psy.auckland.ac.nz/austronesian/)
    33 / 45

    View Slide

  113. Herausforderungen Standardisierung
    Standardisierung: Kognatenzuweisung
    Cognate judgments for “grease/fat” across 10 Austronesian languages
    (data taken from Greenhill et. al 2008, online at
    http://language.psy.auckland.ac.nz/austronesian/)
    Language Lexical Entry Cognacy Alignment
    Central Amis simar 2 s i m a r
    Thao lhimash 2 lh i m a sh
    Hanunóo tabáʔ 23 t a b á ʔ
    Nias tawõ 23 t a w õ -
    Mailu mona 1 m o n a -
    Maloh -iñak 1 - i ñ a k
    Tetum mina 1 m i n a -
    Banggi laːna 24 l aː n a -
    Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ
    Iban lemak 24 l e m a k
    33 / 45

    View Slide

  114. Herausforderungen Standardisierung
    Standardisierung als Herausforderung
    Erste Versuche werden derzeit unternommen, um die Vergleichbarkeit
    von Daten in der historischen Linguistik zu erhöhen, sei es im Rahmen
    der Concepticon-Initiative, von Glottolog, eines standardisierten
    phonetischen Alphabets (denn IPA ist nicht standardisiert in der Form,
    in der es gebraucht wird), oder in Form von Vorschlägen zur besten
    Praktik für das Annotieren von Kognaten, und komplexeren historischen
    Beziehungen. Aber der Weg ist beschwerlich und wird nicht ohne eine
    breite Kollaboration unter Forschenden verschiedenster Bereiche
    möglich sein.
    34 / 45

    View Slide

  115. Herausforderungen Modellierung
    Modellierung: Analogien und Parallelen
    Parallels between Species and Languages (Pagel 2009)
    aspect species languages
    unit of replication gene word
    replication asexual und sexual
    reproduction
    learning
    speciation cladogenesis language split
    forces of change natural selection and
    genetic drift
    social selection and
    trends
    differentiation tree-like tree-like
    35 / 45

    View Slide

  116. Herausforderungen Modellierung
    Modellierung: Analogien und Parallelen
    36 / 45

    View Slide

  117. Herausforderungen Modellierung
    Modellierung: Analogien und Parallelen
    36 / 45

    View Slide

  118. Herausforderungen Modellierung
    Modellierung: Analogien und Parallelen
    Differences between Species and Languages (Geisler & List 2013)
    Aspect Species Languages
    domain Popper’s World I Popper’s World III
    relation between
    form and function
    mechanical arbitrary
    origin monogenesis unclear
    sequence similarity universal (indepen-
    dent of species)
    language-specific
    differentiation tree-like network-like
    37 / 45

    View Slide

  119. Herausforderungen Modellierung
    Modellierung: Kognazität
    Relation Biol. Term continuity
    traditional notion of cognacy - + +/- +/-
    cognacy à la Swadesh - + +/- +
    direct cognate relation orthology + + +
    oblique cognate relation paralogy (?) + - +
    etymological relation homology +/- +/- +/-
    oblique etymological relation xenology - +/- +/-
    ... ... ... ... ...
    Stratic
    Morpho-
    logical
    Seman-
    tic
    List (2016)
    38 / 45

    View Slide

  120. Herausforderungen Modellierung
    Modellierung: Kognazität
    Italian
    dare
    French
    donner
    Indo-European
    *deh₃-
    *deh₃-no-
    Latin
    dare
    dōnum
    dōnāre
    Italian
    sole
    French
    soleil
    Swedish
    sol
    German
    Sonne
    Germanic
    *sōwel-
    *sunnō-
    Latin
    sol
    soliculus
    Indo-European
    *sóh₂-wl̩ -
    *sh₂én-
    A B
    List (2016)
    38 / 45

    View Slide

  121. Herausforderungen Modellierung
    Modellierung: Partielle Kognazität
    1 2 3 4
    number of morphemes per word
    0.0
    0.2
    0.4
    0.6 all words
    nouns
    39 / 45

    View Slide

  122. Herausforderungen Modellierung
    Modellierung: Partielle Kognazität
    1 2 3 4
    number of morphemes per word
    0.0
    0.2
    0.4
    0.6 all words
    nouns
    39 / 45

    View Slide

  123. Herausforderungen Modellierung
    Modellierung: Partielle Kognazität
    Fúzhōu ŋuoʔ⁵
    Měixiàn
    ŋiat⁵ 0.44
    kuoŋ⁴⁴ 0.78 0.78
    Wēnzhōu
    y²¹
    ȵ 0.30 0.35 0.67
    ku ³
    ɔ ⁵ 0.80 0.85 0.27 0.67
    vai¹³ 0.85 0.85 0.82 0.73 0.73
    Běijīng y ¹
    ɛ⁵ 0.77 0.84 0.73 0.56 0.56 0.66
    li ŋ¹
    ɑ 0.78 0.78 0.44 0.67 0.82 0.82 0.80
    ŋiat⁵
    kuoŋ⁴⁴
    ŋuoʔ⁵
    ȵy²¹
    yɛ⁵¹
    kuɔ³⁵
    liɑŋ¹
    vai¹³
    ŋiat⁵
    vai¹³
    kuoŋ⁴⁴
    ŋuoʔ⁵
    liɑŋ¹
    yɛ⁵¹
    ȵy²¹
    kuɔ³⁵
    ȵy²¹
    kuɔ³⁵
    ŋiat⁵
    yɛ⁵¹
    liɑŋ¹
    ŋuoʔ⁵
    kuoŋ⁴⁴
    vai¹³
    B C
    D
    A
    List et al. (2016)
    39 / 45

    View Slide

  124. Herausforderungen Modellierung
    Modellierung als Herausforderung
    Anstatt nur an der Geschwindigkeit oder den statistischen
    Eigenschaften unserer Methoden zu arbeiten müssen wir auch
    insbesondere an die Prozesse denken, die wir modellieren wollen.
    Oftmals haben Linguisten recht gute Vorstellungen diesbezüglich, aber
    selten gehen diese Vorstellungen auch in die Analysen mit ein. Dies
    wird insbesondere an den Problemen mit der Kognazität ersichtlich, da
    die Annahme von einfachen Prozessen des Kognatengewinns und des
    Kognatenverlustes der Komplexität lexikalischen Wandels nicht gerecht
    werden.
    40 / 45

    View Slide

  125. Herausforderungen
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BOPP
    VERY,
    VERY
    LONG
    TITLE
    41 / 45

    View Slide

  126. Herausforderungen
    PRO:
    - intuition
    - background knowledge
    - can juggle with multiple types of evidence
    CONTRA:
    - has to sleep and rest
    - does not like to count and do boring work
    - can oversee facts when doing boring work
    CONTRA:
    - no intuition
    - no background knowledge
    - can't juggle with multiple types of evidence
    PRO:
    - doesn't need to sleep
    - is very good at counting and boring work
    - doesn't make errors in boring work
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BOPP
    VERY,
    VERY
    LONG
    TITLE
    41 / 45

    View Slide

  127. Herausforderungen
    PRO:
    - intuition
    - background knowledge
    - can juggle with multiple types of evidence
    CONTRA:
    - has to sleep and rest
    - does not like to count and do boring work
    - can oversee facts when doing boring work
    CONTRA:
    - no intuition
    - no background knowledge
    - can't juggle with multiple types of evidence
    PRO:
    - doesn't need to sleep
    - is very good at counting and boring work
    - doesn't make errors in boring work
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BOPP
    VERY,
    VERY
    LONG
    TITLE
    41 / 45

    View Slide

  128. Herausforderungen
    PRO:
    - intuition
    - background knowledge
    - can juggle with multiple types of evidence
    CONTRA:
    - has to sleep and rest
    - does not like to count and do boring work
    - can oversee facts when doing boring work
    CONTRA:
    - no intuition
    - no background knowledge
    - can't juggle with multiple types of evidence
    PRO:
    - doesn't need to sleep
    - is very good at counting and boring work
    - doesn't make errors in boring work
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BOPP
    VERY,
    VERY
    LONG
    TITLE
    COMPUTER-ASSISTED LANGUAGE COMPARISON
    41 / 45

    View Slide

  129. Herausforderungen Kollaboration
    Kollaboration
    Grundlagen unserer Wissenschaft sind Objektivität, Replikabilitiät, und
    Validität. Um diese zu erreichen, können wir ohne Kollaboration nicht
    vorankommen, sei es, dass wir in Teams kollaborieren um Methoden zu
    entwickeln oder Datensätze zu erstellen, oder dass wir unsere
    Methoden anderen Forschenden so zur Verfügung stellen, dass diese
    sie dann auch verwenden können. Zu oft sehen Wissenschaftler die
    historische Sprachwissenschaft noch als Einzelsportart. Von den
    Naturwissenschaftlern können wir aber lernen, dass diese Zeiten vorbei
    sind. So schwierig es sein kann, in Gruppen zu arbeiten (vor allem
    wenn diese interdisziplinär sind): Kollaboration zahlt sich am Ende
    meist aus.
    42 / 45

    View Slide

  130. Ausblick
    Ausblick
    Ausblick
    43 / 45

    View Slide

  131. Ausblick
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BO
    PP
    VERY,
    VERY
    LO
    NG
    TI TLE
    Es ist ein
    langer W
    eg
    nach
    oben... aber
    44 / 45

    View Slide

  132. Ausblick
    P(A|B)=(P(B|A)P(A))/(P(B)
    FRANZ BO
    PP
    VERY,
    VERY
    LO
    NG
    TI TLE
    ... zusamm
    en
    können
    wir es schaffen!
    44 / 45

    View Slide

  133. Ausblick
    Danke für Ihre Aufmerksamkeit!
    45 / 45

    View Slide