Meaning Error Rate

Людмила Гордеева Meaning Error Rate Новая метрика для ASR

Введение • Системы распознавания речи применяются: • Автоматизация работы центров
обработки звонков • Голосовые помощники • Автоматическая генерация субтитров • …

Стандартные методы оценки

Недостатки WER • WER (0.33) • не отвечает ваш звонок
был переадресован • отвечает ваш звонок был переадрес • WER (0.66) • Соедините меня с онлайн консультантом але • Свяжите меня онлайн консультанта алло

Исследования Почему WER плохая метрика • Расшифровки используются в прикладных
областях • Задачи перевода и поиска имеют собственные метрики качества [1][2][3] • Нет зависимости между тем высоким WER и правильным пониманием [4] • Итоговая оценка качества производится человеком [1] X. He, L. Deng and A. Acero, "Why word error rate is not a good metric for speech recognizer training for the speech translation task?," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 5632-5635, doi: 10.1109/ICASSP.2011.5947637. [2] J. Garofolo, C. Auzanne, and E. Voorhees, “The TREC spoken document retrieval track: A success story,” in Proceedings of the Eighth Text REtrieval Conference (TREC 8), 1999. [3] Grangier, D., Vinciarelli, A., and Bourlard, H., “Information retrieval on noisy text,” IDIAP-COM 03-08, IDIAP, 2003. [4] Y. Wang, A. Acera, and C. Chelba, “Is word error rate a good indicator for spoken language understanding accuracy,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 577–582.

Исследования Does WER Really Predict Performance? • Испытуемые — аудиторы
• Задача — аудит команды разработчиков дизайна устройства • Материалы — протокол совещания об оценке дизайна и насколько расшифровок ASR • Цель — извлечение информации, важной для принятия решения • Оценка — классификация на основе значения WER и других признаков пар текстов • Итог — WER наиболее слабый признак [5] Favre B. et al. Automatic human utility evaluation of ASR systems: Does WER really predict performance? //INTERSPEECH. – 2013. – С. 3463-3467.

Исследования Альтернативы для WER • Простое взвешивание • Редакционное расстояние
• В качестве веса ошибки косинусное расстояние WER with Embeddings [6] • MER (Match Error Rate) и WIL (Word Information Lost) [7] [6] Ngoc-Tien Le, Christophe Servan, Benjamin Lecouteux, Laurent Besacier. Better Evaluation of ASR in Speech Translation Context Using Word Embeddings. Interspeech 2016, Sep 2016, San-Francisco, United States. ffhal-01350102f [7] Morris, A., Maier, V., and Green, P., “From wer and ril to mer and wil: improved evaluation measures for connected speech recognition,” in Proceedings of the International Conference on Spoken Language Processing, 2004.

Альтернатива для WER HPA (Human Perceived Accuracy) • 27 голосовых
сообщений • 50 испытуемых (44 дошли до конца) • Оценка MOS (пятибалльная шкала) качества расшифровки аудио • Учет важности слова (частые, не отрицания) • Подбор весов при помощи регрессии • [8] Mishra, Taniya / Ljolje, Andrej / Gilbert, Mazin (2011): "Predicting human perceived accuracy of ASR systems", In INTERSPEECH-2011, 1945-1948.

Как сравнивать метрики • Правильная фраза: ref • Предсказание модели
№1: hep1 • Предсказание модели №2: hep2 • Идеальная метрика: MI • — “лучше” (некая субъективная метра восприятия человеком) Смысл метрики

Как сравнивать метрики Идеальная метрика • Группа людей (краудсорсинг) •
Инструкция — некоторый контекст • Данные — пары предложений (правильный и предсказание модели)

Как сравнивать метрики Реализация идеальной метрики • 10 человек, k
— ответили, что смысл передан верно • Оценка вероятности передачи смысла: • Инструкция • Данные  Расшифровки фрагментов телефонных разговоров людьми и некоторыми ASR моделями.

Как сравнивать метрики Подход • Сравнивание метрик ASR — сравнивание
с “идеальной” метрикой • “Идеальная метрика” — оценка вероятности передачи смысла • Метрика — классификатор • Сравнение метрик — оценка моделей классификаторов на наборе данных (AUC) • Обучение классификатора основано на значении метрики, качество которой необходимо проверить

Как сравнивать метрики Оценки текущих метрик

Новая метрика MERa • По паре предложений предсказать класс •
Можно использовать state of the art модели, такие как BERT • Проблема: не понятно как интерпретировать, много данных • Обучить линейную модель на парах слов (Linear MERa) • Проблема: не учитывает контекст, подбор признаков, как обучать

Linear MERa • Стоимость ошибки в слове — различны •
Стоимость ошибки — линейная функция от признаков • Вклад каждого признака в суммарную стоимость — зависит от данных • Помимо стоимости ошибки в слове можно учитывать вклад общий для предложений • MERa = разбиение на “слова” + признаки и веса для пар слов + признаки и веса для пары предложений

Linear MERa Разбиение • “Слова” • Слова (разбить по пробелам)
— исп. сейчас • Словосочетания (пара слов) • N-gramms • (<слово>, <сколько раз подряд было написано>): алло алло — (алло, 2) • (<слова из ref>, <слова из hep>): (не, туда, устроен) —(не, трудоустроен)

Linear MERa Модель • — всевозможные разбиения на пары “слов”
• — оценка вероятности того, что hep передал смысл ref в контексте инструкции и на конкретных данных

Linear MERa Параметры • Инструкция • Данные • Определение признаков
(на парах предложений и парах слов) • Алгоритм подбора весов

Linear MERa Подбор весов • Значение метрики зависит от разбиения
• Функция, которую мы хотим оптимизировать зависит от разбиения • EM — алгоритм:   1. фиксируем разбиение (аналогично WER),  2. делаем шаг алгоритма оптимизации (методом Ньютона, loss — CE)

Linear MERa Матрица признаков

Linear MERa Предобработка текстов • Замена Ё на Е •
Приведение к единому написанию (недоступен — не доступен) • Приведение аббревиатур к одному виду: эс эм эс — эсэмэс — смс

Linear MERa Признаки • Основанные на символах (редакционное расстояние) •
Морфологический анализ (совпадание словарных форм, частей речи) • Embeddings (fast text) • Контекстные знания (алло — але, здрасте — здравствуйте, автоответчик) • Специальные слова, специфичные для доменной области • Антонимы

Результаты

Meaning Error Rate

Meaning Error Rate

Machinelearner

More Decks by Machinelearner

Featured

Transcript

Людмила Гордеева Meaning Error Rate Новая метрика для ASR

Введение • Системы распознавания речи применяются: • Автоматизация работы центров

Стандартные методы оценки

Недостатки WER • WER (0.33) • не отвечает ваш звонок

Исследования Почему WER плохая метрика • Расшифровки используются в прикладных

Исследования Does WER Really Predict Performance? • Испытуемые — аудиторы

Исследования Альтернативы для WER • Простое взвешивание • Редакционное расстояние

Альтернатива для WER HPA (Human Perceived Accuracy) • 27 голосовых

Как сравнивать метрики • Правильная фраза: ref • Предсказание модели

Как сравнивать метрики Идеальная метрика • Группа людей (краудсорсинг) •

Как сравнивать метрики Реализация идеальной метрики • 10 человек, k

Как сравнивать метрики Подход • Сравнивание метрик ASR — сравнивание

Как сравнивать метрики Оценки текущих метрик

Новая метрика MERa • По паре предложений предсказать класс •

Linear MERa • Стоимость ошибки в слове — различны •

Linear MERa Разбиение • “Слова” • Слова (разбить по пробелам)

Linear MERa Модель • — всевозможные разбиения на пары “слов”

Linear MERa Параметры • Инструкция • Данные • Определение признаков

Linear MERa Подбор весов • Значение метрики зависит от разбиения

Linear MERa Матрица признаков

Linear MERa Предобработка текстов • Замена Ё на Е •

Linear MERa Признаки • Основанные на символах (редакционное расстояние) •

Результаты