Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Meaning Error Rate

Machinelearner
November 12, 2020
82

Meaning Error Rate

Machinelearner

November 12, 2020
Tweet

Transcript

  1. Введение • Системы распознавания речи применяются: • Автоматизация работы центров

    обработки звонков • Голосовые помощники • Автоматическая генерация субтитров • …
  2. Недостатки WER • WER (0.33) • не отвечает ваш звонок

    был переадресован • отвечает ваш звонок был переадрес • WER (0.66) • Соедините меня с онлайн консультантом але • Свяжите меня онлайн консультанта алло
  3. Исследования Почему WER плохая метрика • Расшифровки используются в прикладных

    областях • Задачи перевода и поиска имеют собственные метрики качества [1][2][3] • Нет зависимости между тем высоким WER и правильным пониманием [4] • Итоговая оценка качества производится человеком [1] X. He, L. Deng and A. Acero, "Why word error rate is not a good metric for speech recognizer training for the speech translation task?," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 5632-5635, doi: 10.1109/ICASSP.2011.5947637. [2] J. Garofolo, C. Auzanne, and E. Voorhees, “The TREC spoken document retrieval track: A success story,” in Proceedings of the Eighth Text REtrieval Conference (TREC 8), 1999. [3] Grangier, D., Vinciarelli, A., and Bourlard, H., “Information retrieval on noisy text,” IDIAP-COM 03-08, IDIAP, 2003. [4] Y. Wang, A. Acera, and C. Chelba, “Is word error rate a good indicator for spoken language understanding accuracy,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 577–582.
  4. Исследования Does WER Really Predict Performance? • Испытуемые — аудиторы

    • Задача — аудит команды разработчиков дизайна устройства • Материалы — протокол совещания об оценке дизайна и насколько расшифровок ASR • Цель — извлечение информации, важной для принятия решения • Оценка — классификация на основе значения WER и других признаков пар текстов • Итог — WER наиболее слабый признак [5] Favre B. et al. Automatic human utility evaluation of ASR systems: Does WER really predict performance? //INTERSPEECH. – 2013. – С. 3463-3467.
  5. Исследования Альтернативы для WER • Простое взвешивание • Редакционное расстояние

    • В качестве веса ошибки косинусное расстояние WER with Embeddings [6] • MER (Match Error Rate) и WIL (Word Information Lost) [7] [6] Ngoc-Tien Le, Christophe Servan, Benjamin Lecouteux, Laurent Besacier. Better Evaluation of ASR in Speech Translation Context Using Word Embeddings. Interspeech 2016, Sep 2016, San-Francisco, United States. ffhal-01350102f [7] Morris, A., Maier, V., and Green, P., “From wer and ril to mer and wil: improved evaluation measures for connected speech recognition,” in Proceedings of the International Conference on Spoken Language Processing, 2004.
  6. Альтернатива для WER HPA (Human Perceived Accuracy) • 27 голосовых

    сообщений • 50 испытуемых (44 дошли до конца) • Оценка MOS (пятибалльная шкала) качества расшифровки аудио • Учет важности слова (частые, не отрицания) • Подбор весов при помощи регрессии • [8] Mishra, Taniya / Ljolje, Andrej / Gilbert, Mazin (2011): "Predicting human perceived accuracy of ASR systems", In INTERSPEECH-2011, 1945-1948.
  7. Как сравнивать метрики • Правильная фраза: ref • Предсказание модели

    №1: hep1 • Предсказание модели №2: hep2 • Идеальная метрика: MI • — “лучше” (некая субъективная метра восприятия человеком) Смысл метрики
  8. Как сравнивать метрики Идеальная метрика • Группа людей (краудсорсинг) •

    Инструкция — некоторый контекст • Данные — пары предложений (правильный и предсказание модели)
  9. Как сравнивать метрики Реализация идеальной метрики • 10 человек, k

    — ответили, что смысл передан верно • Оценка вероятности передачи смысла: • Инструкция • Данные
 Расшифровки фрагментов телефонных разговоров людьми и некоторыми ASR моделями.
  10. Как сравнивать метрики Подход • Сравнивание метрик ASR — сравнивание

    с “идеальной” метрикой • “Идеальная метрика” — оценка вероятности передачи смысла • Метрика — классификатор • Сравнение метрик — оценка моделей классификаторов на наборе данных (AUC) • Обучение классификатора основано на значении метрики, качество которой необходимо проверить
  11. Новая метрика MERa • По паре предложений предсказать класс •

    Можно использовать state of the art модели, такие как BERT • Проблема: не понятно как интерпретировать, много данных • Обучить линейную модель на парах слов (Linear MERa) • Проблема: не учитывает контекст, подбор признаков, как обучать
  12. Linear MERa • Стоимость ошибки в слове — различны •

    Стоимость ошибки — линейная функция от признаков • Вклад каждого признака в суммарную стоимость — зависит от данных • Помимо стоимости ошибки в слове можно учитывать вклад общий для предложений • MERa = разбиение на “слова” + признаки и веса для пар слов + признаки и веса для пары предложений
  13. Linear MERa Разбиение • “Слова” • Слова (разбить по пробелам)

    — исп. сейчас • Словосочетания (пара слов) • N-gramms • (<слово>, <сколько раз подряд было написано>): алло алло — (алло, 2) • (<слова из ref>, <слова из hep>): (не, туда, устроен) —(не, трудоустроен)
  14. Linear MERa Модель • — всевозможные разбиения на пары “слов”

    • — оценка вероятности того, что hep передал смысл ref в контексте инструкции и на конкретных данных
  15. Linear MERa Параметры • Инструкция • Данные • Определение признаков

    (на парах предложений и парах слов) • Алгоритм подбора весов
  16. Linear MERa Подбор весов • Значение метрики зависит от разбиения

    • Функция, которую мы хотим оптимизировать зависит от разбиения • EM — алгоритм: 
 1. фиксируем разбиение (аналогично WER),
 2. делаем шаг алгоритма оптимизации (методом Ньютона, loss — CE)
  17. Linear MERa Предобработка текстов • Замена Ё на Е •

    Приведение к единому написанию (недоступен — не доступен) • Приведение аббревиатур к одному виду: эс эм эс — эсэмэс — смс
  18. Linear MERa Признаки • Основанные на символах (редакционное расстояние) •

    Морфологический анализ (совпадание словарных форм, частей речи) • Embeddings (fast text) • Контекстные знания (алло — але, здрасте — здравствуйте, автоответчик) • Специальные слова, специфичные для доменной области • Антонимы