Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Meaning Error Rate

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Machinelearner Machinelearner
November 12, 2020
130

Meaning Error Rate

Avatar for Machinelearner

Machinelearner

November 12, 2020
Tweet

Transcript

  1. Введение • Системы распознавания речи применяются: • Автоматизация работы центров

    обработки звонков • Голосовые помощники • Автоматическая генерация субтитров • …
  2. Недостатки WER • WER (0.33) • не отвечает ваш звонок

    был переадресован • отвечает ваш звонок был переадрес • WER (0.66) • Соедините меня с онлайн консультантом але • Свяжите меня онлайн консультанта алло
  3. Исследования Почему WER плохая метрика • Расшифровки используются в прикладных

    областях • Задачи перевода и поиска имеют собственные метрики качества [1][2][3] • Нет зависимости между тем высоким WER и правильным пониманием [4] • Итоговая оценка качества производится человеком [1] X. He, L. Deng and A. Acero, "Why word error rate is not a good metric for speech recognizer training for the speech translation task?," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 5632-5635, doi: 10.1109/ICASSP.2011.5947637. [2] J. Garofolo, C. Auzanne, and E. Voorhees, “The TREC spoken document retrieval track: A success story,” in Proceedings of the Eighth Text REtrieval Conference (TREC 8), 1999. [3] Grangier, D., Vinciarelli, A., and Bourlard, H., “Information retrieval on noisy text,” IDIAP-COM 03-08, IDIAP, 2003. [4] Y. Wang, A. Acera, and C. Chelba, “Is word error rate a good indicator for spoken language understanding accuracy,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 577–582.
  4. Исследования Does WER Really Predict Performance? • Испытуемые — аудиторы

    • Задача — аудит команды разработчиков дизайна устройства • Материалы — протокол совещания об оценке дизайна и насколько расшифровок ASR • Цель — извлечение информации, важной для принятия решения • Оценка — классификация на основе значения WER и других признаков пар текстов • Итог — WER наиболее слабый признак [5] Favre B. et al. Automatic human utility evaluation of ASR systems: Does WER really predict performance? //INTERSPEECH. – 2013. – С. 3463-3467.
  5. Исследования Альтернативы для WER • Простое взвешивание • Редакционное расстояние

    • В качестве веса ошибки косинусное расстояние WER with Embeddings [6] • MER (Match Error Rate) и WIL (Word Information Lost) [7] [6] Ngoc-Tien Le, Christophe Servan, Benjamin Lecouteux, Laurent Besacier. Better Evaluation of ASR in Speech Translation Context Using Word Embeddings. Interspeech 2016, Sep 2016, San-Francisco, United States. ffhal-01350102f [7] Morris, A., Maier, V., and Green, P., “From wer and ril to mer and wil: improved evaluation measures for connected speech recognition,” in Proceedings of the International Conference on Spoken Language Processing, 2004.
  6. Альтернатива для WER HPA (Human Perceived Accuracy) • 27 голосовых

    сообщений • 50 испытуемых (44 дошли до конца) • Оценка MOS (пятибалльная шкала) качества расшифровки аудио • Учет важности слова (частые, не отрицания) • Подбор весов при помощи регрессии • [8] Mishra, Taniya / Ljolje, Andrej / Gilbert, Mazin (2011): "Predicting human perceived accuracy of ASR systems", In INTERSPEECH-2011, 1945-1948.
  7. Как сравнивать метрики • Правильная фраза: ref • Предсказание модели

    №1: hep1 • Предсказание модели №2: hep2 • Идеальная метрика: MI • — “лучше” (некая субъективная метра восприятия человеком) Смысл метрики
  8. Как сравнивать метрики Идеальная метрика • Группа людей (краудсорсинг) •

    Инструкция — некоторый контекст • Данные — пары предложений (правильный и предсказание модели)
  9. Как сравнивать метрики Реализация идеальной метрики • 10 человек, k

    — ответили, что смысл передан верно • Оценка вероятности передачи смысла: • Инструкция • Данные
 Расшифровки фрагментов телефонных разговоров людьми и некоторыми ASR моделями.
  10. Как сравнивать метрики Подход • Сравнивание метрик ASR — сравнивание

    с “идеальной” метрикой • “Идеальная метрика” — оценка вероятности передачи смысла • Метрика — классификатор • Сравнение метрик — оценка моделей классификаторов на наборе данных (AUC) • Обучение классификатора основано на значении метрики, качество которой необходимо проверить
  11. Новая метрика MERa • По паре предложений предсказать класс •

    Можно использовать state of the art модели, такие как BERT • Проблема: не понятно как интерпретировать, много данных • Обучить линейную модель на парах слов (Linear MERa) • Проблема: не учитывает контекст, подбор признаков, как обучать
  12. Linear MERa • Стоимость ошибки в слове — различны •

    Стоимость ошибки — линейная функция от признаков • Вклад каждого признака в суммарную стоимость — зависит от данных • Помимо стоимости ошибки в слове можно учитывать вклад общий для предложений • MERa = разбиение на “слова” + признаки и веса для пар слов + признаки и веса для пары предложений
  13. Linear MERa Разбиение • “Слова” • Слова (разбить по пробелам)

    — исп. сейчас • Словосочетания (пара слов) • N-gramms • (<слово>, <сколько раз подряд было написано>): алло алло — (алло, 2) • (<слова из ref>, <слова из hep>): (не, туда, устроен) —(не, трудоустроен)
  14. Linear MERa Модель • — всевозможные разбиения на пары “слов”

    • — оценка вероятности того, что hep передал смысл ref в контексте инструкции и на конкретных данных
  15. Linear MERa Параметры • Инструкция • Данные • Определение признаков

    (на парах предложений и парах слов) • Алгоритм подбора весов
  16. Linear MERa Подбор весов • Значение метрики зависит от разбиения

    • Функция, которую мы хотим оптимизировать зависит от разбиения • EM — алгоритм: 
 1. фиксируем разбиение (аналогично WER),
 2. делаем шаг алгоритма оптимизации (методом Ньютона, loss — CE)
  17. Linear MERa Предобработка текстов • Замена Ё на Е •

    Приведение к единому написанию (недоступен — не доступен) • Приведение аббревиатур к одному виду: эс эм эс — эсэмэс — смс
  18. Linear MERa Признаки • Основанные на символах (редакционное расстояние) •

    Морфологический анализ (совпадание словарных форм, частей речи) • Embeddings (fast text) • Контекстные знания (алло — але, здрасте — здравствуйте, автоответчик) • Специальные слова, специфичные для доменной области • Антонимы