Slide 1

Slide 1 text

Auf dem Weg zu einer computer-gestützten historischen Sprachforschung Chancen und Herausforderungen Johann-Mattis List DFG Nachwuchsstipendiat Centre des recherches linguistiques sur l’Asie Orientale Team Adaptation, Integration, Reticulation, Evolution EHESS and UPMC, Paris 2016/11/09 1 / 45

Slide 2

Slide 2 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 3

Slide 3 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 4

Slide 4 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 5

Slide 5 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 6

Slide 6 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 7

Slide 7 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 8

Slide 8 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 9

Slide 9 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 10

Slide 10 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 11

Slide 11 text

Vergleichende Sprachwissenschaft 2 / 45

Slide 12

Slide 12 text

Vergleichende Sprachwissenschaft Hintergrund Hintergrund 3 / 45

Slide 13

Slide 13 text

Vergleichende Sprachwissenschaft Hintergrund Hintergrund 3 / 45

Slide 14

Slide 14 text

Vergleichende Sprachwissenschaft Hintergrund Hintergrund 3 / 45

Slide 15

Slide 15 text

Vergleichende Sprachwissenschaft Hintergrund Hintergrund 3 / 45

Slide 16

Slide 16 text

Vergleichende Sprachwissenschaft Hintergrund Hintergrund 3 / 45

Slide 17

Slide 17 text

Vergleichende Sprachwissenschaft Die komparative Methode COMPA- RATIVE METHOD 4 / 45

Slide 18

Slide 18 text

Vergleichende Sprachwissenschaft Die komparative Methode COMPA- RATIVE METHOD 4 / 45

Slide 19

Slide 19 text

Vergleichende Sprachwissenschaft Die komparative Methode COMPA- RATIVE METHOD 4 / 45

Slide 20

Slide 20 text

Vergleichende Sprachwissenschaft Die komparative Methode COMPA- RATIVE METHOD 4 / 45

Slide 21

Slide 21 text

Vergleichende Sprachwissenschaft Die komparative Methode COMPA- RATIVE METHOD 4 / 45

Slide 22

Slide 22 text

Vergleichende Sprachwissenschaft Computerlinguistik Computergestützter Sprachvergleich COMPUTA- TIONAL HISTORICAL LINGUISTICS 5 / 45

Slide 23

Slide 23 text

Vergleichende Sprachwissenschaft Computerlinguistik Computergestützter Sprachvergleich COMPUTA- TIONAL HISTORICAL LINGUISTICS 5 / 45

Slide 24

Slide 24 text

Vergleichende Sprachwissenschaft Computerlinguistik Computergestützter Sprachvergleich COMPUTA- TIONAL HISTORICAL LINGUISTICS 5 / 45

Slide 25

Slide 25 text

Vergleichende Sprachwissenschaft Computerlinguistik Computergestützter Sprachvergleich COMPUTA- TIONAL HISTORICAL LINGUISTICS 5 / 45

Slide 26

Slide 26 text

Vergleichende Sprachwissenschaft Computerlinguistik Computergestützter Sprachvergleich COMPUTA- TIONAL HISTORICAL LINGUISTICS 5 / 45

Slide 27

Slide 27 text

CALC 6 / 45

Slide 28

Slide 28 text

Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45

Slide 29

Slide 29 text

Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45

Slide 30

Slide 30 text

Language families like Sino-Tibetan present "almost unsurmountable obstacles". (Antoine Meillet 1925) insights → language change → human prehistory → triggers of diversity of life and culture → classical methods reach their limit → computational methods cannot replace experts' experience and intuition obstacles increasing amounts of data historical language comparison large and diverse language families challenges CALC 6 / 45

Slide 31

Slide 31 text

Computergestützter Sprachvergleich Computerbasierter und klassischer Sprachvergleich 7 / 45

Slide 32

Slide 32 text

Computergestützter Sprachvergleich Computerbasierter und klassischer Sprachvergleich 7 / 45

Slide 33

Slide 33 text

Computergestützter Sprachvergleich Computerbasierter und klassischer Sprachvergleich 7 / 45

Slide 34

Slide 34 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA LC CA lacks efficiency lacks consistency lacks efficiency lacks accuracy lacks flexibility high efficiency high consistency high flexibility high accuracy COMPA- RATIVE METHOD accuracy flexibility consistency efficiency COMPUTA- TIONAL HISTORICAL LINGUISTICS 8 / 45

Slide 35

Slide 35 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 36

Slide 36 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 37

Slide 37 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 38

Slide 38 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 39

Slide 39 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 40

Slide 40 text

Computergestützter Sprachvergleich Computergestützter Sprachvergleich LC CA 8 / 45

Slide 41

Slide 41 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 42

Slide 42 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 43

Slide 43 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 44

Slide 44 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 45

Slide 45 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 46

Slide 46 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 47

Slide 47 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 48

Slide 48 text

Computergestützter Sprachvergleich Workflows Workflows LC CA 9 / 45

Slide 49

Slide 49 text

Computergestützter Sprachvergleich Software Software SOFTWARE 10 / 45

Slide 50

Slide 50 text

Computergestützter Sprachvergleich Software Software SOFTWARE 10 / 45

Slide 51

Slide 51 text

Computergestützter Sprachvergleich Software Software SOFTWARE 10 / 45

Slide 52

Slide 52 text

Computergestützter Sprachvergleich Software Software SOFTWARE 10 / 45

Slide 53

Slide 53 text

Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45

Slide 54

Slide 54 text

Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45

Slide 55

Slide 55 text

Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyze data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45

Slide 56

Slide 56 text

Computergestützter Sprachvergleich Schnittstellen Schnittstellen INTERFACES ID DOCULECT CONCEPT SEGMENTS N U O ? wOld yuE_5_1liaN_1 moon moon moon moon Běijīng Guǎngzhōu Měixiàn Fúzhōu 1 2 3 4 Conversion and Segmentation Highlighting of Unrecognized Phonetic Symbols yuE_5_1liaN_1 yɛ⁵¹liɑŋ¹ y ɛ ⁵¹ l i ɑ ŋ ¹ annotate data analyse data edit alignments bridge between humans and machines → access results produced by software → check internal consistency of manual input 11 / 45

Slide 57

Slide 57 text

Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (gold standards, List 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storated and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45

Slide 58

Slide 58 text

Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (List 2014, List and Prokić 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storage and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45

Slide 59

Slide 59 text

Computergestützter Sprachvergleich Daten Daten GOLD STANDARDS GOLD STANDARDS Benchmark data (List 2014, List and Prokić 2014) → not available due to novelty of algorithms → will be compiled from scratch during the project Unified formats for data storage and exchange → phonetic transcription → comparison concepts (Concepticon, List et al. 2016) → etymological representation (borrowings, cognates) data in machine and human-readable form → benchmark data for testing and training of algorithms → unified formats for data storage and exchange 12 / 45

Slide 60

Slide 60 text

13 / 45

Slide 61

Slide 61 text

13 / 45

Slide 62

Slide 62 text

13 / 45

Slide 63

Slide 63 text

Chancen Ausblick Chancen 14 / 45

Slide 64

Slide 64 text

Chancen Sequenzvergleiche Sequenzvergleiche die grundlegenden sprachlichen Daten, auf denen die komparative Methode basiert, können als Sequenzen (“Lautketten”) modelliert werden Evolutionsbiologie und Computerwissenschaft stellen uns ein reiches Arsenal an Methoden für automatische Sequenzvergleiche zur Verfügung beim Erstellen von Software für den computergestützten Sprachvergleich dürfen wir aber nicht vergessen, dass wir die Methoden an die spezifischen linguistischen Bedürfnisse anpassen müssen, da es grundlegende Unterschiede zwischen biologischen und linguistischen Sequenzen gibt 15 / 45

Slide 65

Slide 65 text

Chancen Sequenzvergleiche Sequenzvergleiche 16 / 45

Slide 66

Slide 66 text

Chancen Sequenzvergleiche Sequenzvergleiche • universal • language-specific 16 / 45

Slide 67

Slide 67 text

Chancen Sequenzvergleiche Sequenzvergleiche • universal • language-specific • limited • widely varying 16 / 45

Slide 68

Slide 68 text

Chancen Sequenzvergleiche Sequenzvergleiche • universal • language-specific • limited • widely varying • constant • mutable 16 / 45

Slide 69

Slide 69 text

Chancen Sequenzvergleiche Sequenzvergleiche: LingPy LingPy http://lingpy.org 17 / 45

Slide 70

Slide 70 text

Chancen Sequenzvergleiche Sequenzvergleiche: Beispiele (Kessler 2001) “graben” (30) Turchin Levensht. LexStat. Albanisch gërmon gərmo 1 1 1 Englisch digs dɪg 2 2 2 Französisch creuse krøze 1 3 3 Deutsch gräbt graːb 1 1 4 Hawaii ‘eli ʔeli 5 5 5 Navajo hahashgééd hahageːd 6 6 6 Türkisch kazıyor kaz 7 3 7 18 / 45

Slide 71

Slide 71 text

Chancen Sequenzvergleiche Sequenzvergleiche: Beispiele (Kessler 2001) “Mund” (104) Turchin Levensth. LexStat. Albanisch gojë goj 1 1 1 Englisch mouth mauθ 2 2 2 Französisch bouche buʃ 3 3 3 Deutsch Mund mund 4 4 2 Hawaii waha waha 5 5 5 Navajo ’azéé’ zeːʔ 6 6 6 Türkisch ağız aɣz 7 7 7 18 / 45

Slide 72

Slide 72 text

Chancen Sequenzvergleiche Sequenzvergleiche: Evaluierung (List, Greenhill, Gray) Bahnaric C hinese H uon R om ance Tujia U ralic 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 Turchin Edit Distance SCA LexStat Infomap top flop 19 / 45

Slide 73

Slide 73 text

Chancen Sequenzvergleiche Sequenzvergleiche: Evaluierung (List, Greenhill, Gray) Edit-Dist. SCA Infomap Bahnaric Chinese Huon Romance Tujia Uralic Turchin LexStat TOTAL true positive true negative false negative false positive 19 / 45

Slide 74

Slide 74 text

Chancen Sequenzvergleiche Sequenzvergleiche: Evaluierung (List, Greenhill, Gray) Fuzhou Xiamen Chaozhou Meixian Yangjiang Guangzhou Wenzhou Suzhou Nanchang Changsha Yangzhou Hefei Kunming Chengdu Xi'an Jinan Shenyang Beijing Fuzhou Xiamen Chaozhou Meixian Yangjiang Guangzhou Wenzhou Suzhou Nanchang Changsha Yangzhou Hefei Kunming Chengdu Xi'an Jinan Shenyang Beijing Fuzhou Xiamen Chaozhou Meixian Yangjiang Guangzhou Wenzhou Suzhou Nanchang Changsha Yangzhou Hefei Kunming Chengdu Xi'an Jinan Shenyang Beijing 0.00 0.03 0.06 0.09 0.12 0.15 0.18 0.21 0.24 0.27 0.30 False Positives / False Negatives (Percent) Turchin Method Infomap Method false positives false negatives 19 / 45

Slide 75

Slide 75 text

Chancen Sequenzvergleiche Sequenzvergleiche: “Take-Home-Message” Automatische Kognatenerkennung und Alinierung sind weit genug, um Hilfe beim Erstellen neuer Datensätze zu bieten. Sie können Linguisten nicht ersetzen, aber das ist ja auch nicht das Ziel von CALC. Sie können das Leben der Linguisten allerdings erleichtern, und das Ausmaß dieser Erleichterung kann enorm sein, inbesondere, wenn man die Möglichkeit von interaktiven Annotationstools zur Hilfe nimmt. 20 / 45

Slide 76

Slide 76 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke semantischer Wandel ist bisher stiefmütterlich in der historischen Linguistik behandelt worden die Tatsache, dass die meisten Prozesse sich jedoch synchron in Form von Polysemie äußern, ermöglicht es, über die Idee der Kolexifizierungsnetzwerke, die von Haspelmaths “semantischen Karten” inspiriert sind (Haspelmath 2003, Cysouw 2010), die Diachronie über die Synchronie zu erforschen Netzwerkansätze, die erfolgreich in der Bioinformatik verwendet werden, ermöglichen es, die relativ großen Datenmengen nach wiederkehrenden Mustern zu durchsuchen (List et al. 2013) 21 / 45

Slide 77

Slide 77 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) Key Concept Russian German ... 1.1 world mir, svet Welt ... 1.21 earth, land zemlja Erde, Land ... 1.212 ground, soil počva Erde, Boden ... 1.420 tree derevo Baum ... 1.430 wood derevo Wald ... ... ... ... ... ... 22 / 45

Slide 78

Slide 78 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) CLICS: Crosslinguistic Colexifications - 221 Languages - 64 language families - 1280 concepts - 301,498 words - 45,667 polysemies (colexifications) - 16,239 different links between concepts - http://clics.lingpy.org 22 / 45

Slide 79

Slide 79 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) 684 678 871 1043 6 30 129 196 1243 128 869 853 650 344 1103 150 185 627 232 709 1035 1206 177 97 311 496 606 137 207 444 840 1077 325 222 1063 1138 1204 1258 559 723 495 766 914 38 1101 652 865 891 872 633 291 980 700 144 410 430 1025 406 464 787 622 131 242 918 275 1159 99 1174 671 1038 786 705 641 760 1259 356 391 197 10 214 299 63 191 619 644 792 1205 897 67 1231 213 226 747 681 399 841 439 773 123 800 16 1067 1227 696 417 550 68 76 108 360 1244 339 500 81 867 79 1097 98 96 833 771 715 455 380 1268 1186 1046 39 252 1228 66 23 1112 133 676 336 739 1150 1071 986 485 112 372 1109 830 721 1053 1057 601 573 556 527 1248 614 488 908 499 1002 309 442 814 1193 569 458 258 563 653 682 774 70 1151 948 801 1082 243 47 71 83 153 1265 934 85 1215 1199 523 581 422 21 358 1261 111 354 219 759 15 890 261 1222 141 158 74 806 1031 845 770 850 903 1224 419 754 433 798 188 1256 613 528 208 539 323 981 132 1055 1001 790 804 844 1118 907 640 446 815 923 498 201 1184 578 566 427 532 452 151 750 598 1094 345 735 777 978 599 492 390 286 1107 742 1015 1202 1210 1257 1275 859 988 69 752 596 290 126 110 950 922 1047 741 253 347 385 620 966 221 431 3 224 1194 999 953 1029 852 301 389 318 530 1048 1032 175 701 544 1119 241 94 745 835 1270 62 107 159 20 767 512 331 248 549 1013 946 974 1022 1100 477 302 233 1168 1003 1211 570 307 40 945 1269 784 546 437 901 350 238 305 1191 482 1012 977 906 783 524 117 457 603 836 1181 880 229 124 216 1113 1074 72 586 647 447 2 113 1179 7 1006 665 397 502 610 1274 707 327 659 667 824 917 985 1089 346 1229 101 542 1042 727 782 733 967 462 592 468 1106 440 478 308 577 698 776 75 1155 51 145 517 359 938 1157 1160 1183 947 1102 1135 1252 343 608 537 103 634 251 383 506 25 829 396 686 679 574 516 42 250 379 809 602 660 780 765 697 856 899 594 1008 393 179 114 1140 11 100 1209 618 600 192 1277 896 1142 1278 762 421 713 182 521 861 672 297 1116 1190 1192 140 1212 46 493 1187 157 1225 212 403 519 616 173 413 912 1110 84 756 793 636 118 889 692 998 366 711 1045 61 240 1263 199 648 832 289 522 368 1091 931 982 949 400 119 388 811 53 59 1069 708 952 545 763 1238 184 825 377 1242 1233 262 635 269 1062 1061 1073 933 17 1247 352 64 384 50 632 736 1246 822 781 758 1 939 595 778 105 860 1049 1066 1072 995 503 370 919 1149 1127 1128 972 1126 245 921 973 675 587 1235 960 928 926 1143 548 1250 86 1021 32 1068 719 965 259 1070 863 638 303 324 873 249 892 976 1007 722 36 459 293 165 209 557 1245 788 862 651 900 31 483 236 935 1052 115 294 680 831 44 453 206 971 1273 170 753 256 1148 200 450 382 1240 561 615 317 572 725 870 438 139 1011 646 1117 392 45 276 264 704 1080 174 1050 808 1197 508 576 225 562 471 1217 333 1014 593 92 1034 611 1171 312 802 1253 29 902 244 582 466 668 878 341 432 1163 625 904 164 467 1195 1232 796 828 281 629 349 1166 411 369 387 1208 394 415 1000 58 1098 148 287 1223 818 263 220 838 876 313 260 65 1165 5 355 106 1172 490 718 171 1139 163 785 881 887 1169 319 585 553 894 306 314 1041 1009 799 674 848 1201 1004 689 1085 1218 1145 1170 228 911 279 73 104 690 1254 402 340 169 693 868 893 1018 78 1092 194 555 198 834 1249 997 932 237 1176 666 956 624 1262 541 520 795 866 702 4 734 1095 1180 728 964 1079 271 842 1241 1056 154 751 353 905 1136 504 909 910 1133 362 583 670 1124 381 1216 215 178 571 470 142 376 1154 172 296 533 364 963 152 797 1213 803 1051 738 426 1036 1153 637 823 915 428 1075 560 547 1137 35 882 89 511 1122 805 494 1130 1188 1086 1236 669 588 930 703 942 18 655 335 155 710 1156 1028 465 147 183 414 1221 273 166 1054 278 55 460 812 1090 810 180 768 143 156 404 367 1182 231 288 136 456 82 529 970 1016 729 395 187 604 408 330 1064 34 1267 847 726 543 677 642 940 645 958 683 695 864 1058 605 1084 451 443 699 1167 959 925 1198 227 886 628 1178 337 991 813 657 1185 1039 769 1081 484 712 1189 944 1207 322 33 685 424 80 270 937 1177 283 1237 816 130 161 189 77 300 1026 463 1104 326 589 60 983 474 1093 744 748 554 292 41 267 984 373 1214 957 1024 969 507 37 874 1030 630 579 962 535 706 688 122 497 1060 1083 1027 102 510 405 1134 658 617 936 929 363 1175 361 536 534 1219 181 386 884 418 558 8 479 979 551 505 316 298 26 315 761 202 1144 176 473 348 134 639 663 717 885 924 149 49 1078 1040 57 167 764 1173 673 280 1152 277 1272 1065 272 827 531 607 1123 257 996 436 9 826 234 1096 875 525 304 1108 475 1132 714 846 540 716 1005 1105 357 1162 694 920 743 28 994 1200 168 1266 420 515 568 755 895 218 916 730 807 210 375 854 1010 879 1125 268 1129 1114 1255 1158 1279 487 486 398 597 661 135 565 621 193 321 1230 513 654 265 612 737 855 211 1196 246 1264 584 338 749 1271 434 121 423 509 839 1147 656 230 239 489 14 469 22 1044 351 448 282 329 961 254 989 371 284 223 843 821 24 1023 643 819 285 514 746 757 791 138 186 849 93 951 127 877 1088 518 1164 1260 501 54 190 95 43 205 1276 116 146 662 217 461 883 204 1033 310 472 12 412 332 817 649 794 1037 943 927 481 968 425 109 195 857 1121 564 687 664 724 87 1120 88 449 429 255 987 992 1111 591 575 491 720 851 328 941 990 1019 993 1087 955 580 1226 975 1099 732 235 779 365 1234 441 609 247 334 91 1251 1131 913 691 52 274 1017 435 90 407 480 1239 13 623 0 266 626 295 954 1059 552 898 858 772 526 1115 48 1161 125 590 454 1020 1141 203 740 1146 342 820 1220 56 320 416 27 401 476 19 120 1203 445 789 775 888 567 378 1076 160 162 409 731 631 374 538 837 22 / 45

Slide 80

Slide 80 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) Concept "money" is part of a cluster with the central concept "fishscale" with a total of 10 nodes. Hover over forms for each link. Click on the forms to check their sources. Click HERE to export the current network. ty: Line weights: Coloring: Family silver leather fishscale bark coin fur snail skin, hide money shell 49 links for "silver" and "money": Language Family Form 1. Ignaciano Arawakan ne 2. Aymara, Central Aymaran ḳulʸḳi 3. Tsafiki Barbacoan kaˈla 4. Seselwa Creole French Creole larzan 5. Miao, White Hmong-Mien nyiaj 6. Breton Indo-European arhant 7. French Indo-European argent 8. Gaelic, Irish Indo-European airgead 9. Welsh Indo-European arian 10. Cofán Isolate koriΦĩʔdi 22 / 45

Slide 81

Slide 81 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: CLICS (List et al. 2014) Concept "wheel" is part of a cluster with the central concept "leg" with a total of 11 nodes. Hover over the e each link. Click on the forms to check their sources. Click HERE to export the current network. ity: Line weights: Coloring: Geolocation sphere, ball round footprint foot calf of leg circle thigh wheel leg hip buttocks 6 links for "foot" and "wheel": Language Family Form 1. Cofán Isolate c̷ɨʔtʰe 2. Puinave Isolate sim 3. Yaminahua Panoan taɨ 4. Wayampi Tupi pɨ 5. Pumé Unclassified taɔ 6. Ninam Yanomam mãhuk 22 / 45

Slide 82

Slide 82 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: Work in Progress Wir können CLICS in vielerlei Hinsicht erweitern. Derzeit arbeiten wir an einer Vergrößerung der Datenbasis, sowie an einer Verfeinerung der Algorithmen zur Voranalyse. Beispiele betreffen die Ermittlung von Artikulationspunkten und Schlüsselspielern in den semantischen Netzwerken, sowie die Inferenz partieller Beziehungen (inspiriert von Urban 2013), welche in gerichteten Netzwerken visualisiert und als gerichtete Prozesse interpretiert werden können. 23 / 45

Slide 83

Slide 83 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: Work in Progress 24 / 45

Slide 84

Slide 84 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: Work in Progress 24 / 45

Slide 85

Slide 85 text

Chancen Kolexifizierungsnetzwerke Kolexifizierungsnetzwerke: “Take-Home Message” Kolexifizierungsnetzwerke sind noch nicht ausreichend erforscht worden, obwohl die Daten einen unvergleichlichen Schatz an Informationen zu sprachgeschichtlichen Tendenzen und menschlicher Kognition liefern. Für die historische Sprachwissenschaft können Kolexifizierungstendenzen in Zukunft helfen, Theorien zur tieferen Verwandtschaft von Sprachen oder entfernter Kognazität abzusichern, indem nicht nur die Korrespondenzen der Laute auf Regelmäßigkeit überprüft werden, sondern auch die Plausibilität der semantischen Entwicklung. 25 / 45

Slide 86

Slide 86 text

Chancen Mustererkennung Mustererkennung Liegen Daten zu Kognaten aliniert vor, können wir mit Hilfe von Netzwerkansätzen nach Mustern suchen, die uns helfen, sowohl die Qualität der Daten zu evaluieren, als auch die Prozesse, die den Daten unterliegen, zu untersuchen. Diese Art von “quantitative pattern analysis” steckt noch in ihren Kinderschuhen und wird derzeit intensiv getestet. Grundlegende Idee ist, dass die Inferenz von Cliquen in Netzwerken, die Spalten in ähnlichen prosodischen Positionen in multiplen Alinierungen zeigen, erste Rückschlüsse zu einer computer-gestützten Rekonstruktion bieten. 26 / 45

Slide 87

Slide 87 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 88

Slide 88 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 89

Slide 89 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 90

Slide 90 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 91

Slide 91 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 92

Slide 92 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 93

Slide 93 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 27 / 45

Slide 94

Slide 94 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 28 / 45

Slide 95

Slide 95 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 28 / 45

Slide 96

Slide 96 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 28 / 45

Slide 97

Slide 97 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 28 / 45

Slide 98

Slide 98 text

Chancen Mustererkennung Mustererkennung: Birm. Sprachen (mit N. Hill, SOAS) 28 / 45

Slide 99

Slide 99 text

Chancen Mustererkennung Mustererkennung: “Take-Home Message” Unsere Arbeit steckt in ihren Kinderschuhen, aber ich denke, dass wir zuversichtlich sein können, dass die computergestützte Arbeit an Korrespondenzmustern sowohl der klassischen als auch der computerbasierten historischen Linguistik helfen wird. Mit der Mustererkennung können wir nicht nur Daten schneller auf Konsistenz überprüfen, sondern auch klassischen Linguisten helfen, neue Hypothesen zu entwickeln und diese dann transparent (mensch- und maschinenlesbar!) mit Kollegen zu teilen und zu diskutieren. 29 / 45

Slide 100

Slide 100 text

Herausforderungen P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BO PP VERY, VERY LO NG TI TLE Herausforderungen 30 / 45

Slide 101

Slide 101 text

Herausforderungen Standardisierung Standardisierung 31 / 45

Slide 102

Slide 102 text

Herausforderungen Standardisierung Standardisierung: Konzeptbenennung 31 / 45

Slide 103

Slide 103 text

Herausforderungen Standardisierung Standardisierung: Konzeptbenennung Concept List # Items Concept Label Concept ID Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID: 3232) Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID: 3232) Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID: 3232) Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID: 3232) Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID: 3232) Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID: 3232) OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID: 3232) Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID: 3232) Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID: 3232) Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID: 3232) Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID: 3232) Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID: 3232) Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID: 3232) Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID: 3232) Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID: 3232) Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID: 3232) TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID: 3232) Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID: 3232) Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID: 3232) Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID: 3232) Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID: 3232) Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID: 3232) Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016, online at http://concepticon.clld.org) 31 / 45

Slide 104

Slide 104 text

Herausforderungen Standardisierung Standardisierung: Konzeptbenennung Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016, online at http://concepticon.clld.org) Concept List # Items Concept Label Concept ID Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID:323) Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID:323) Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID:323) Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID:323) Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID:323) Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID:323) OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID:323) Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID:323) Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID:323) Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID:323) Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID:323) Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID:323) Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID:323) Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID:323) Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID:323) Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID:323) TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID:323) Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID:323) Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID:323) Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID:323) Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID:323) Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID:323) 31 / 45

Slide 105

Slide 105 text

Herausforderungen Standardisierung Standardisierung: Konzeptbenennung Concept labels for “GREASE” in 22 different concept lists (see List et al. 2016, online at http://concepticon.clld.org) Concept List # Items Concept Label Concept ID Allen (2007) 500 animal oil; 动物油(脂肪) GREASE (CONCEPTICON-ID:323) Gregersen (1976) 217 fat-grease*fat-grease GREASE (CONCEPTICON-ID:323) Heggarty (2005) 150 fat (grease); grasa GREASE (CONCEPTICON-ID:323) Swadesh (1955) 100 fat (grease) GREASE (CONCEPTICON-ID:323) Alpher and Nash (1999) 151 fat, grease GREASE (CONCEPTICON-ID:323) Hale (1961) 100 fat, grease GREASE (CONCEPTICON-ID:323) OGrady and Klokeid (1969) 100 fat, grease GREASE (CONCEPTICON-ID:323) Blust (2008) 210 fat/grease GREASE (CONCEPTICON-ID:323) Matisoff (1978) 200 fat/grease GREASE (CONCEPTICON-ID:323) Samarin (1969) 218 fat/grease GREASE (CONCEPTICON-ID:323) Dunn et al. (2012) 207 fat GREASE (CONCEPTICON-ID:323) Swadesh (1950) 215 fat GREASE (CONCEPTICON-ID:323) Zgraggen (1980) 380 fat GREASE (CONCEPTICON-ID:323) Jachontov (1991) 100 fat n. GREASE (CONCEPTICON-ID:323) Wiktionary (2003) 207 fat (noun) GREASE (CONCEPTICON-ID:323) Starostin (1991) 110 fat n.; жир GREASE (CONCEPTICON-ID:323) TeilDautrey et al. (2008) 430 fat, oil GREASE (CONCEPTICON-ID:323) Swadesh (1952) 200 fat (organic substance) GREASE (CONCEPTICON-ID:323) Shiro (1973) 200 grease (fat) GREASE (CONCEPTICON-ID:323) Samarin (1969) 100 grease; graisse; Fett; grasa GREASE (CONCEPTICON-ID:323) Wang (2006) 200 pig oil; 猪油 GREASE (CONCEPTICON-ID:323) Haspelmath and Tadmor (2009) 1460 the grease or fat GREASE (CONCEPTICON-ID:323) 31 / 45

Slide 106

Slide 106 text

Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation 32 / 45

Slide 107

Slide 107 text

Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) 32 / 45

Slide 108

Slide 108 text

Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45

Slide 109

Slide 109 text

Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i +⁴⁴ ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45

Slide 110

Slide 110 text

Herausforderungen Standardisierung Standardisierung: Lexikalische Repräsentation Lexical entries for “GREASE” (“pork fat”) in 10 Chinese dialect varieties (data taken from Wang and Hamed 2006) Dialect Entry IPA Segments Morphemes Beijing 大油 ta⁵¹ iou³⁵ t a ⁵¹ i o u ³⁵ t a ⁵¹ + i o u ³⁵ Changsha 油 tɕy³³ iəu¹³ tɕ y ³³ i ə u ¹³ tɕ y ³³ + i ə u ¹³ Chengdu 猪油 tsu⁴⁴iəu³¹ ts u ⁴⁴ i ə u ³¹ ts u ⁴⁴ + i ə u ³¹ Fuzhou 猪油 ty⁴⁴iu⁵² t y ⁴⁴ i u ⁵² t y ⁴⁴ + i u ⁵² Guangzhou 猪膏 tʃy⁵⁵kou⁵³ tʃ y ⁵⁵ k ou ⁵³ tʃ y ⁵⁵ + k ou ⁵³ Meixian 油 jiu¹² j i u ¹² j i u ¹ ² Nanchang 油 iu⁵⁵ i u ⁵⁵ i u ⁵⁵ Taibei ti44 iu13豬油 ti⁴⁴ iu¹³ t i ⁴⁴ i u ¹³ t i ⁴⁴ + i u ¹³ Wenzhou 猪油 tsei⁴⁴ ɦiau³¹ ts e i ⁴⁴ ɦ i a u ³¹ ts e i ⁴⁴ + ɦ i a u ³¹ Xiamen 油 iu²⁴ i u ²⁴ i u ²⁴ 32 / 45

Slide 111

Slide 111 text

Herausforderungen Standardisierung Standardisierung: Kognatenzuweisung 33 / 45

Slide 112

Slide 112 text

Herausforderungen Standardisierung Standardisierung: Kognatenzuweisung Language Lexical Entry Cognacy Alignment Central Amis simar 2 s i m a r Thao lhimash 2 lh i m a sh Hanunóo tabáʔ 23 t a b á ʔ Nias tawõ 23 t a w õ - Mailu mona 1 m o n a - Maloh -iñak 1 - i ñ a k Tetum mina 1 m i n a - Banggi laːna 24 l aː n a - Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ Iban lemak 24 l e m a k Cognate judgments for “grease/fat” across 10 Austronesian languages (data taken from Greenhill et. al 2008, online at http://language.psy.auckland.ac.nz/austronesian/) 33 / 45

Slide 113

Slide 113 text

Herausforderungen Standardisierung Standardisierung: Kognatenzuweisung Cognate judgments for “grease/fat” across 10 Austronesian languages (data taken from Greenhill et. al 2008, online at http://language.psy.auckland.ac.nz/austronesian/) Language Lexical Entry Cognacy Alignment Central Amis simar 2 s i m a r Thao lhimash 2 lh i m a sh Hanunóo tabáʔ 23 t a b á ʔ Nias tawõ 23 t a w õ - Mailu mona 1 m o n a - Maloh -iñak 1 - i ñ a k Tetum mina 1 m i n a - Banggi laːna 24 l aː n a - Berawan (Long Terawan) ləməʔ 24 l ə m ə ʔ Iban lemak 24 l e m a k 33 / 45

Slide 114

Slide 114 text

Herausforderungen Standardisierung Standardisierung als Herausforderung Erste Versuche werden derzeit unternommen, um die Vergleichbarkeit von Daten in der historischen Linguistik zu erhöhen, sei es im Rahmen der Concepticon-Initiative, von Glottolog, eines standardisierten phonetischen Alphabets (denn IPA ist nicht standardisiert in der Form, in der es gebraucht wird), oder in Form von Vorschlägen zur besten Praktik für das Annotieren von Kognaten, und komplexeren historischen Beziehungen. Aber der Weg ist beschwerlich und wird nicht ohne eine breite Kollaboration unter Forschenden verschiedenster Bereiche möglich sein. 34 / 45

Slide 115

Slide 115 text

Herausforderungen Modellierung Modellierung: Analogien und Parallelen Parallels between Species and Languages (Pagel 2009) aspect species languages unit of replication gene word replication asexual und sexual reproduction learning speciation cladogenesis language split forces of change natural selection and genetic drift social selection and trends differentiation tree-like tree-like 35 / 45

Slide 116

Slide 116 text

Herausforderungen Modellierung Modellierung: Analogien und Parallelen 36 / 45

Slide 117

Slide 117 text

Herausforderungen Modellierung Modellierung: Analogien und Parallelen 36 / 45

Slide 118

Slide 118 text

Herausforderungen Modellierung Modellierung: Analogien und Parallelen Differences between Species and Languages (Geisler & List 2013) Aspect Species Languages domain Popper’s World I Popper’s World III relation between form and function mechanical arbitrary origin monogenesis unclear sequence similarity universal (indepen- dent of species) language-specific differentiation tree-like network-like 37 / 45

Slide 119

Slide 119 text

Herausforderungen Modellierung Modellierung: Kognazität Relation Biol. Term continuity traditional notion of cognacy - + +/- +/- cognacy à la Swadesh - + +/- + direct cognate relation orthology + + + oblique cognate relation paralogy (?) + - + etymological relation homology +/- +/- +/- oblique etymological relation xenology - +/- +/- ... ... ... ... ... Stratic Morpho- logical Seman- tic List (2016) 38 / 45

Slide 120

Slide 120 text

Herausforderungen Modellierung Modellierung: Kognazität Italian dare French donner Indo-European *deh₃- *deh₃-no- Latin dare dōnum dōnāre Italian sole French soleil Swedish sol German Sonne Germanic *sōwel- *sunnō- Latin sol soliculus Indo-European *sóh₂-wl̩ - *sh₂én- A B List (2016) 38 / 45

Slide 121

Slide 121 text

Herausforderungen Modellierung Modellierung: Partielle Kognazität 1 2 3 4 number of morphemes per word 0.0 0.2 0.4 0.6 all words nouns 39 / 45

Slide 122

Slide 122 text

Herausforderungen Modellierung Modellierung: Partielle Kognazität 1 2 3 4 number of morphemes per word 0.0 0.2 0.4 0.6 all words nouns 39 / 45

Slide 123

Slide 123 text

Herausforderungen Modellierung Modellierung: Partielle Kognazität Fúzhōu ŋuoʔ⁵ Měixiàn ŋiat⁵ 0.44 kuoŋ⁴⁴ 0.78 0.78 Wēnzhōu y²¹ ȵ 0.30 0.35 0.67 ku ³ ɔ ⁵ 0.80 0.85 0.27 0.67 vai¹³ 0.85 0.85 0.82 0.73 0.73 Běijīng y ¹ ɛ⁵ 0.77 0.84 0.73 0.56 0.56 0.66 li ŋ¹ ɑ 0.78 0.78 0.44 0.67 0.82 0.82 0.80 ŋiat⁵ kuoŋ⁴⁴ ŋuoʔ⁵ ȵy²¹ yɛ⁵¹ kuɔ³⁵ liɑŋ¹ vai¹³ ŋiat⁵ vai¹³ kuoŋ⁴⁴ ŋuoʔ⁵ liɑŋ¹ yɛ⁵¹ ȵy²¹ kuɔ³⁵ ȵy²¹ kuɔ³⁵ ŋiat⁵ yɛ⁵¹ liɑŋ¹ ŋuoʔ⁵ kuoŋ⁴⁴ vai¹³ B C D A List et al. (2016) 39 / 45

Slide 124

Slide 124 text

Herausforderungen Modellierung Modellierung als Herausforderung Anstatt nur an der Geschwindigkeit oder den statistischen Eigenschaften unserer Methoden zu arbeiten müssen wir auch insbesondere an die Prozesse denken, die wir modellieren wollen. Oftmals haben Linguisten recht gute Vorstellungen diesbezüglich, aber selten gehen diese Vorstellungen auch in die Analysen mit ein. Dies wird insbesondere an den Problemen mit der Kognazität ersichtlich, da die Annahme von einfachen Prozessen des Kognatengewinns und des Kognatenverlustes der Komplexität lexikalischen Wandels nicht gerecht werden. 40 / 45

Slide 125

Slide 125 text

Herausforderungen P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE 41 / 45

Slide 126

Slide 126 text

Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE 41 / 45

Slide 127

Slide 127 text

Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE 41 / 45

Slide 128

Slide 128 text

Herausforderungen PRO: - intuition - background knowledge - can juggle with multiple types of evidence CONTRA: - has to sleep and rest - does not like to count and do boring work - can oversee facts when doing boring work CONTRA: - no intuition - no background knowledge - can't juggle with multiple types of evidence PRO: - doesn't need to sleep - is very good at counting and boring work - doesn't make errors in boring work P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BOPP VERY, VERY LONG TITLE COMPUTER-ASSISTED LANGUAGE COMPARISON 41 / 45

Slide 129

Slide 129 text

Herausforderungen Kollaboration Kollaboration Grundlagen unserer Wissenschaft sind Objektivität, Replikabilitiät, und Validität. Um diese zu erreichen, können wir ohne Kollaboration nicht vorankommen, sei es, dass wir in Teams kollaborieren um Methoden zu entwickeln oder Datensätze zu erstellen, oder dass wir unsere Methoden anderen Forschenden so zur Verfügung stellen, dass diese sie dann auch verwenden können. Zu oft sehen Wissenschaftler die historische Sprachwissenschaft noch als Einzelsportart. Von den Naturwissenschaftlern können wir aber lernen, dass diese Zeiten vorbei sind. So schwierig es sein kann, in Gruppen zu arbeiten (vor allem wenn diese interdisziplinär sind): Kollaboration zahlt sich am Ende meist aus. 42 / 45

Slide 130

Slide 130 text

Ausblick Ausblick Ausblick 43 / 45

Slide 131

Slide 131 text

Ausblick P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BO PP VERY, VERY LO NG TI TLE Es ist ein langer W eg nach oben... aber 44 / 45

Slide 132

Slide 132 text

Ausblick P(A|B)=(P(B|A)P(A))/(P(B) FRANZ BO PP VERY, VERY LO NG TI TLE ... zusamm en können wir es schaffen! 44 / 45

Slide 133

Slide 133 text

Ausblick Danke für Ihre Aufmerksamkeit! 45 / 45