Upgrade to Pro — share decks privately, control downloads, hide ads and more …

4 встреча — Компьютерная лингвистика (А. Катинс...

4 встреча — Компьютерная лингвистика (А. Катинская)

4 встреча Smolensk Computer Science Club
Презентация Анисьи Катинской про компьютерную лингвистику
ВКонтакте: http://vk.com/scsc4

Smolensk Computer Science Club

December 21, 2012
Tweet

More Decks by Smolensk Computer Science Club

Other Decks in Science

Transcript

  1. Компьютерная лингвистика — направление в прикладной лингвистике, ориентированное на использование

    компьютерных программ и технологий организации и обработки данных для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. (А. Н. Баранов, Введение в прикладную лингвистику)
  2. Лингвистика (языкознание) — наука о естественном человеческом языке вообще и

    о всех языках мира как индивидуальных его представителях. Лингвистика изучает язык вообще, как явление, не данное в непосредственном наблюдении. Язык есть естественно (на определенной стадии развития человеческого общества) возникшая и закономерно развивающаяся семиотическая (знаковая) система, обладающая свойством социальной предназначенности. Это система, существующая прежде всего не для отдельного индивида, а для определенного социума. Кроме того, на эту знаковую систему наложены ограничения, связанные с ее функциями и используемым субстанциальным (звуковым) материалом (А. Е. Кибрик)
  3. Определение В. П. Селегея Это формализованная, полная и логически непротиворечивая

    лингвистика, модели которой могут использоваться при создании программ для обработки текстов. Компьютерная лингвистика 1 Компьютерная лингвистика 2 Это технология и методология решения практических задач, компьютерного анализа и синтеза языка.
  4. Компьютерная лингвистика (The Association for Computational Linguistics) Компьютерная лингвистика как

    исследование языка с вычислительной точки зрения. Компьютерная лингвистика занимается созданием вычислительных моделей различных лингвистических феноменов. Natural language processing или Автоматическая обработка текста Преимущественно область Computer Science, искусственного интеллекта и лингвистики. Имеет отношение к человеко-компьютерному взаимодействию, и современные модели АОТ чаще строятся на машинном обучении и статистике, а не моделировании языка. Т.е. для решения своих задач АОТ может использовать формальные модели языка, разных уровней языка, создаваемые компьютерной лингвистикой.
  5. Igor A. Bolshakov and Alexander Gelbukh “COMPUTATIONAL LINGUISTICS: Models, Resources,

    Applications” “Intelligent natural language processing is based on the science called computational linguistics. Computational linguistics is closely connected with applied linguistics and linguistics in general.”
  6. Проблемы компьютерной лингвистики • синтез и распознавание речи; • создание

    парсеров, морфологических анализаторов; • вычислительная семантика; • машинный перевод; • симуляция языковой эволюции и ее изучение; • корпусная лингвистика; • создание электронных словарей, тезаурусов.
  7. 9. Сегментация текста на предложения (sentence breaking or sentence boundary

    disambiguation) http://nlp.lsi.upc.edu/freeling/demo/demo.php Проблемы АОТ
  8. 12. Синтаксический парсинг (parsing or syntactic analysis) http://nlp.lsi.upc.edu/freeling/ — правила

    http://aot.ru/demo/synt.html — грамматика HPSG http://www.dictum.ru/ru/syntax/blog — правила http://nlp.stanford.edu/software/lex- parser.shtml — машинное обучение Проблемы АОТ
  9. 14. Анализ дискурса (discourse analysis) 15. Автоматическое понимание текста (natural

    language understanding) АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов. Системы, модели, ресурсы») Естественный текст 1) тест перевода 2) реферат 3) ответы на вопросы 4) рисунок или таблица 1) сравнение (выявление общего и различного) 2) извлечение знаний Несколько текстов Проблемы АОТ
  10. 17. Сегментация речи (speech segmentation) 18. Автоматическое распознавание речи (automatic

    speech recognition) 19. Синтез звучащей речи (speech synthesis) http://nlpub.ru/wiki/Распознавание_речи Проблемы АОТ
  11. 20. Машинный перевод (machine translation) «Car firms hope to turn

    windscreens into giant computer displays that overlay the real world with useful information, such as directions or even social media feeds.» — «Cars turn to augmented reality», J. Stewart, BBC Проблемы АОТ
  12. • Category: General Science Clue: When hit by electrons, a

    phosphor gives off electromagnetic energy in this form. Answer: Light (or Photons) • Category: “Rap” Sheet Clue: This archaic term for a mischievous or annoying child can also mean a rogue or scamp. Subclue 1: This archaic term for a mischievous or annoying child. Subclue 2: This term can also mean a rogue or scamp. Answer: Rapscallion • Category: Before and After Goes to the Movies Clue: Film of a typical day in the life of the Beatles, which includes running from bloodthirsty zombie fans in a Romero classic. Subclue 2: Film of a typical day in the life of the Beatles. Answer 1: (A Hard Day’s Night) Subclue 2: Running from bloodthirsty zombie fans in a Romero classic. Answer 2: (Night of the Living Dead) Answer: A Hard Day’s Night of the Living Dead • Category: Decode the Postal Codes Verbal instruction from host: We’re going to give you a word comprising two postal abbreviations; you have to identify the states. Clue: Vain Answer: Virginia and Indiana © AAAI
  13. Почему данную задачу так трудно решить? • Все словари разные

    и не эквивалентны друг другу. • В некоторых языках проблема определения части речи тесно связана с разрешением многозначности, эти две задачи могут мешать друг другу. • Человеческий фактор. • Здравый смысл. «Jill and Mary are sisters.» — они являются сёстрами по отношению друг к другу. «Jill and Mary are mothers.» — каждая независимо является матерью. • Зависимость от задачи. • Дискретное представление значений слова.
  14. Основные подходы к решению проблемы 1. «Глубокий» подход (deep approach)

    «Зеленый» в сочетании с одуш. сущ. Обозначает «неопытный». В значении «имеющий отношение к зеленому цвету» только с неодуш. сущ. 2. «Поверхностный» подход (shallow approach) «The dogs bark at the tree» bark – гл. «лаять» и сущ. «кора»
  15. Методы решения • методы, основанные на знаниях (dictionary- и knowledge-based

    methods); • методы обучения с учителем (supervised methods); • методы частичного обучения с учителем (semi-supervised learning); • методы обучения без учителя (unsupervised methods.
  16. «Неудобные» свойства языка • Неоднозначность «Сергей вернулся из командировки в

    Москву». «Мы встретили сына художника, приехавшего из Парижа». «критика ученого» «посещение родственников» «приглашение композитора»
  17. • Несимметричность языков • Избыточность • Конвенциональность языка • Эллиптичность

    «Дан приказ ему на запад, /Ей — в другую сторону» — М. В. Исаковский); «Тане — 5, а Вале — 3» «Моя мать — врач» • Сложные средства референции «Неудобные» свойства языка
  18. Источники • Speech and Language Processing. An Introduction to Natural

    Language Processing, Computational Linguistics, and Speech Recognition. Daniel Jurafsky, James H. Martin • COMPUTATIONAL LINGUISTICS: Models, Resources, Applications. Igor A. Bolshakov, Alexander Gelbukh • Введение в прикладную лингвистику. А. Н. Баранов. • Автоматическое понимание текстов. Системы, модели, ресурсы. Н. Н. Леонтьева • Лекция В. П. Селегея «Компьютерная лингвистика сегодня» (9.10.2012)