Upgrade to Pro — share decks privately, control downloads, hide ads and more …

4 встреча — Компьютерная лингвистика (А. Катинская)

4 встреча — Компьютерная лингвистика (А. Катинская)

4 встреча Smolensk Computer Science Club
Презентация Анисьи Катинской про компьютерную лингвистику
ВКонтакте: http://vk.com/scsc4

233d9bc31f640dbcc93e1ffdacfaac05?s=128

Smolensk Computer Science Club

December 21, 2012
Tweet

Transcript

  1. Компьютерная лингвистика Анисья Катинская

  2. Компьютерная лингвистика — направление в прикладной лингвистике, ориентированное на использование

    компьютерных программ и технологий организации и обработки данных для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. (А. Н. Баранов, Введение в прикладную лингвистику)
  3. Computational linguistics Компьютерная лингвистика Вычислительная лингвистика

  4. Джорджтаунский эксперимент. 1954 г.

  5. Лингвистика (языкознание) — наука о естественном человеческом языке вообще и

    о всех языках мира как индивидуальных его представителях. Лингвистика изучает язык вообще, как явление, не данное в непосредственном наблюдении. Язык есть естественно (на определенной стадии развития человеческого общества) возникшая и закономерно развивающаяся семиотическая (знаковая) система, обладающая свойством социальной предназначенности. Это система, существующая прежде всего не для отдельного индивида, а для определенного социума. Кроме того, на эту знаковую систему наложены ограничения, связанные с ее функциями и используемым субстанциальным (звуковым) материалом (А. Е. Кибрик)
  6. Определение В. П. Селегея Это формализованная, полная и логически непротиворечивая

    лингвистика, модели которой могут использоваться при создании программ для обработки текстов. Компьютерная лингвистика 1 Компьютерная лингвистика 2 Это технология и методология решения практических задач, компьютерного анализа и синтеза языка.
  7. Компьютерная лингвистика (The Association for Computational Linguistics) Компьютерная лингвистика как

    исследование языка с вычислительной точки зрения. Компьютерная лингвистика занимается созданием вычислительных моделей различных лингвистических феноменов. Natural language processing или Автоматическая обработка текста Преимущественно область Computer Science, искусственного интеллекта и лингвистики. Имеет отношение к человеко-компьютерному взаимодействию, и современные модели АОТ чаще строятся на машинном обучении и статистике, а не моделировании языка. Т.е. для решения своих задач АОТ может использовать формальные модели языка, разных уровней языка, создаваемые компьютерной лингвистикой.
  8. Igor A. Bolshakov and Alexander Gelbukh “COMPUTATIONAL LINGUISTICS: Models, Resources,

    Applications” “Intelligent natural language processing is based on the science called computational linguistics. Computational linguistics is closely connected with applied linguistics and linguistics in general.”
  9. © Igor A. Bolshakov, Alexander Gelbukh

  10. Проблемы компьютерной лингвистики • синтез и распознавание речи; • создание

    парсеров, морфологических анализаторов; • вычислительная семантика; • машинный перевод; • симуляция языковой эволюции и ее изучение; • корпусная лингвистика; • создание электронных словарей, тезаурусов.
  11. Проблемы АОТ 1. Хранение текстов и организация поиска по ним

  12. Проблемы АОТ 2. Автоматическое индексирование и рубрицирование (topic segmentation and

    recognition) http://maui-indexer.appspot.com http://www.alchemyapi.com/api/demo.html
  13. 3. Автоматическое аннотирование и реферирование (automatic abstracting) http://extractorlive.com/on_line_demo.html Проблемы АОТ

  14. 4. Проверка правописания (spelling correction) Проблемы АОТ

  15. © Daniel Jurafsky, James H. Martin

  16. Минимальное редакционное расстояние © Daniel Jurafsky, Christopher Manning

  17. © Daniel Jurafsky, Christopher Manning Минимальное редакционное расстояние

  18. None
  19. 5. Извлечение отношений (relationship extraction) 6. Извлечение именных сущностей (named

    entity recognition) http://www.alchemyapi.com Проблемы АОТ
  20. 7. Анализ тональности текста (sentiment analysis) Проблемы АОТ © Daniel

    Jurafsky, Christopher Manning
  21. None
  22. 8. Графематический анализ (word segmentation) houses. said, Crazy? positive.” http://nlp.lsi.upc.edu/freeling/demo/demo.php

    Проблемы АОТ
  23. 9. Сегментация текста на предложения (sentence breaking or sentence boundary

    disambiguation) http://nlp.lsi.upc.edu/freeling/demo/demo.php Проблемы АОТ
  24. 10. Морфологический анализ: стемминг (выделение основы), выделение аффиксов, моделирование словоизменения

    и словообразования (morphological segmentation) Проблемы АОТ
  25. None
  26. Конечный автомат, моделирующий образование форм английского глагола © Daniel Jurafsky,

    James H. Martin
  27. Конечный автомат, моделирующий образование форм множественного числа существительных © Daniel

    Jurafsky, James H. Martin
  28. 11. Морфологический парсинг (part-of- speech tagging) Проблемы АОТ

  29. Морфологические парсеры http://aot.ru/demo/morph.html — словарный метод http://nlp.lsi.upc.edu/freeling/ — словарный метод

    http://nlp.stanford.edu/software/tagger.shtml — машинное обучение
  30. 12. Синтаксический парсинг (parsing or syntactic analysis) http://nlp.lsi.upc.edu/freeling/ — правила

    http://aot.ru/demo/synt.html — грамматика HPSG http://www.dictum.ru/ru/syntax/blog — правила http://nlp.stanford.edu/software/lex- parser.shtml — машинное обучение Проблемы АОТ
  31. None
  32. Скобочное представление структуры предложения © Daniel Jurafsky, James H. Martin

  33. Представление структуры предложения в виде дерева © Daniel Jurafsky, James

    H. Martin
  34. 13. Оптическое распознавание символов (optical character recognition) Проблемы АОТ

  35. 14. Анализ дискурса (discourse analysis) 15. Автоматическое понимание текста (natural

    language understanding) АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов. Системы, модели, ресурсы») Естественный текст 1) тест перевода 2) реферат 3) ответы на вопросы 4) рисунок или таблица 1) сравнение (выявление общего и различного) 2) извлечение знаний Несколько текстов Проблемы АОТ
  36. 16. Автоматическая генерация языка (natural language generation) Яндекс.Рефераты Генерация шуток

    http://www.abdn.ac.uk/ncs/computing/researc h/nlg/demonstrations/joking/ Проблемы АОТ
  37. None
  38. None
  39. 17. Сегментация речи (speech segmentation) 18. Автоматическое распознавание речи (automatic

    speech recognition) 19. Синтез звучащей речи (speech synthesis) http://nlpub.ru/wiki/Распознавание_речи Проблемы АОТ
  40. © Daniel Jurafsky, James H. Martin

  41. © Daniel Jurafsky, James H. Martin

  42. None
  43. 20. Машинный перевод (machine translation) «Car firms hope to turn

    windscreens into giant computer displays that overlay the real world with useful information, such as directions or even social media feeds.» — «Cars turn to augmented reality», J. Stewart, BBC Проблемы АОТ
  44. None
  45. None
  46. None
  47. 21. Автоматическое установление кореферентных связей в тексте (сoreference resolution) Проблемы

    АОТ
  48. None
  49. None
  50. None
  51. 22. Вопросно-ответные системы (question- answering system) Проблемы АОТ

  52. None
  53. None
  54. None
  55. None
  56. • Category: General Science Clue: When hit by electrons, a

    phosphor gives off electromagnetic energy in this form. Answer: Light (or Photons) • Category: “Rap” Sheet Clue: This archaic term for a mischievous or annoying child can also mean a rogue or scamp. Subclue 1: This archaic term for a mischievous or annoying child. Subclue 2: This term can also mean a rogue or scamp. Answer: Rapscallion • Category: Before and After Goes to the Movies Clue: Film of a typical day in the life of the Beatles, which includes running from bloodthirsty zombie fans in a Romero classic. Subclue 2: Film of a typical day in the life of the Beatles. Answer 1: (A Hard Day’s Night) Subclue 2: Running from bloodthirsty zombie fans in a Romero classic. Answer 2: (Night of the Living Dead) Answer: A Hard Day’s Night of the Living Dead • Category: Decode the Postal Codes Verbal instruction from host: We’re going to give you a word comprising two postal abbreviations; you have to identify the states. Clue: Vain Answer: Virginia and Indiana © AAAI
  57. None
  58. “The AI behind Watson – the technical article” http://www.aaai.org/Magazine/Watson/watson.php

  59. 23. Разрешение многозначности (word-sense disambiguation) Проблемы АОТ

  60. Почему данную задачу так трудно решить? • Все словари разные

    и не эквивалентны друг другу. • В некоторых языках проблема определения части речи тесно связана с разрешением многозначности, эти две задачи могут мешать друг другу. • Человеческий фактор. • Здравый смысл. «Jill and Mary are sisters.» — они являются сёстрами по отношению друг к другу. «Jill and Mary are mothers.» — каждая независимо является матерью. • Зависимость от задачи. • Дискретное представление значений слова.
  61. Основные подходы к решению проблемы 1. «Глубокий» подход (deep approach)

    «Зеленый» в сочетании с одуш. сущ. Обозначает «неопытный». В значении «имеющий отношение к зеленому цвету» только с неодуш. сущ. 2. «Поверхностный» подход (shallow approach) «The dogs bark at the tree» bark – гл. «лаять» и сущ. «кора»
  62. Методы решения • методы, основанные на знаниях (dictionary- и knowledge-based

    methods); • методы обучения с учителем (supervised methods); • методы частичного обучения с учителем (semi-supervised learning); • методы обучения без учителя (unsupervised methods.
  63. © Daniel Jurafsky, James H. Martin

  64. © Daniel Jurafsky, James H. Martin

  65. «Неудобные» свойства языка • Неоднозначность «Сергей вернулся из командировки в

    Москву». «Мы встретили сына художника, приехавшего из Парижа». «критика ученого» «посещение родственников» «приглашение композитора»
  66. • Несимметричность языков • Избыточность • Конвенциональность языка • Эллиптичность

    «Дан приказ ему на запад, /Ей — в другую сторону» — М. В. Исаковский); «Тане — 5, а Вале — 3» «Моя мать — врач» • Сложные средства референции «Неудобные» свойства языка
  67. The approval of CFO is required

  68. None
  69. Хомский vs. Норвиг

  70. “On Chomsky and the Two Cultures of Statistical Learning” http://norvig.com/chomsky.html

  71. Deep linguistic processing

  72. HMM Part-of-Speech tagging “Secretariat Is expected to race tomorrow” Формула

    Байеса:
  73. HMM Part-of-Speech tagging

  74. HMM Part-of-Speech tagging

  75. HMM Part-of-Speech tagging

  76. HMM Part-of-Speech tagging © Daniel Jurafsky, James H. Martin

  77. HMM Part-of-Speech tagging

  78. www.coursera.org

  79. Источники • Speech and Language Processing. An Introduction to Natural

    Language Processing, Computational Linguistics, and Speech Recognition. Daniel Jurafsky, James H. Martin • COMPUTATIONAL LINGUISTICS: Models, Resources, Applications. Igor A. Bolshakov, Alexander Gelbukh • Введение в прикладную лингвистику. А. Н. Баранов. • Автоматическое понимание текстов. Системы, модели, ресурсы. Н. Н. Леонтьева • Лекция В. П. Селегея «Компьютерная лингвистика сегодня» (9.10.2012)
  80. Спасибо за внимание