Slide 1

Slide 1 text

Людмила Гордеева Meaning Error Rate Новая метрика для ASR

Slide 2

Slide 2 text

Введение • Системы распознавания речи применяются: • Автоматизация работы центров обработки звонков • Голосовые помощники • Автоматическая генерация субтитров • …

Slide 3

Slide 3 text

Стандартные методы оценки

Slide 4

Slide 4 text

Недостатки WER • WER (0.33) • не отвечает ваш звонок был переадресован • отвечает ваш звонок был переадрес • WER (0.66) • Соедините меня с онлайн консультантом але • Свяжите меня онлайн консультанта алло

Slide 5

Slide 5 text

Исследования Почему WER плохая метрика • Расшифровки используются в прикладных областях • Задачи перевода и поиска имеют собственные метрики качества [1][2][3] • Нет зависимости между тем высоким WER и правильным пониманием [4] • Итоговая оценка качества производится человеком [1] X. He, L. Deng and A. Acero, "Why word error rate is not a good metric for speech recognizer training for the speech translation task?," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 5632-5635, doi: 10.1109/ICASSP.2011.5947637. [2] J. Garofolo, C. Auzanne, and E. Voorhees, “The TREC spoken document retrieval track: A success story,” in Proceedings of the Eighth Text REtrieval Conference (TREC 8), 1999. [3] Grangier, D., Vinciarelli, A., and Bourlard, H., “Information retrieval on noisy text,” IDIAP-COM 03-08, IDIAP, 2003. [4] Y. Wang, A. Acera, and C. Chelba, “Is word error rate a good indicator for spoken language understanding accuracy,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 577–582.

Slide 6

Slide 6 text

Исследования Does WER Really Predict Performance? • Испытуемые — аудиторы • Задача — аудит команды разработчиков дизайна устройства • Материалы — протокол совещания об оценке дизайна и насколько расшифровок ASR • Цель — извлечение информации, важной для принятия решения • Оценка — классификация на основе значения WER и других признаков пар текстов • Итог — WER наиболее слабый признак [5] Favre B. et al. Automatic human utility evaluation of ASR systems: Does WER really predict performance? //INTERSPEECH. – 2013. – С. 3463-3467.

Slide 7

Slide 7 text

Исследования Альтернативы для WER • Простое взвешивание • Редакционное расстояние • В качестве веса ошибки косинусное расстояние WER with Embeddings [6] • MER (Match Error Rate) и WIL (Word Information Lost) [7] [6] Ngoc-Tien Le, Christophe Servan, Benjamin Lecouteux, Laurent Besacier. Better Evaluation of ASR in Speech Translation Context Using Word Embeddings. Interspeech 2016, Sep 2016, San-Francisco, United States. ffhal-01350102f [7] Morris, A., Maier, V., and Green, P., “From wer and ril to mer and wil: improved evaluation measures for connected speech recognition,” in Proceedings of the International Conference on Spoken Language Processing, 2004.

Slide 8

Slide 8 text

Альтернатива для WER HPA (Human Perceived Accuracy) • 27 голосовых сообщений • 50 испытуемых (44 дошли до конца) • Оценка MOS (пятибалльная шкала) качества расшифровки аудио • Учет важности слова (частые, не отрицания) • Подбор весов при помощи регрессии • [8] Mishra, Taniya / Ljolje, Andrej / Gilbert, Mazin (2011): "Predicting human perceived accuracy of ASR systems", In INTERSPEECH-2011, 1945-1948.

Slide 9

Slide 9 text

Как сравнивать метрики • Правильная фраза: ref • Предсказание модели №1: hep1 • Предсказание модели №2: hep2 • Идеальная метрика: MI • — “лучше” (некая субъективная метра восприятия человеком) Смысл метрики

Slide 10

Slide 10 text

Как сравнивать метрики Идеальная метрика • Группа людей (краудсорсинг) • Инструкция — некоторый контекст • Данные — пары предложений (правильный и предсказание модели)

Slide 11

Slide 11 text

Как сравнивать метрики Реализация идеальной метрики • 10 человек, k — ответили, что смысл передан верно • Оценка вероятности передачи смысла: • Инструкция • Данные
 Расшифровки фрагментов телефонных разговоров людьми и некоторыми ASR моделями.

Slide 12

Slide 12 text

Как сравнивать метрики Подход • Сравнивание метрик ASR — сравнивание с “идеальной” метрикой • “Идеальная метрика” — оценка вероятности передачи смысла • Метрика — классификатор • Сравнение метрик — оценка моделей классификаторов на наборе данных (AUC) • Обучение классификатора основано на значении метрики, качество которой необходимо проверить

Slide 13

Slide 13 text

Как сравнивать метрики Оценки текущих метрик

Slide 14

Slide 14 text

Новая метрика MERa • По паре предложений предсказать класс • Можно использовать state of the art модели, такие как BERT • Проблема: не понятно как интерпретировать, много данных • Обучить линейную модель на парах слов (Linear MERa) • Проблема: не учитывает контекст, подбор признаков, как обучать

Slide 15

Slide 15 text

Linear MERa • Стоимость ошибки в слове — различны • Стоимость ошибки — линейная функция от признаков • Вклад каждого признака в суммарную стоимость — зависит от данных • Помимо стоимости ошибки в слове можно учитывать вклад общий для предложений • MERa = разбиение на “слова” + признаки и веса для пар слов + признаки и веса для пары предложений

Slide 16

Slide 16 text

Linear MERa Разбиение • “Слова” • Слова (разбить по пробелам) — исп. сейчас • Словосочетания (пара слов) • N-gramms • (<слово>, <сколько раз подряд было написано>): алло алло — (алло, 2) • (<слова из ref>, <слова из hep>): (не, туда, устроен) —(не, трудоустроен)

Slide 17

Slide 17 text

Linear MERa Модель • — всевозможные разбиения на пары “слов” • — оценка вероятности того, что hep передал смысл ref в контексте инструкции и на конкретных данных

Slide 18

Slide 18 text

Linear MERa Параметры • Инструкция • Данные • Определение признаков (на парах предложений и парах слов) • Алгоритм подбора весов

Slide 19

Slide 19 text

Linear MERa Подбор весов • Значение метрики зависит от разбиения • Функция, которую мы хотим оптимизировать зависит от разбиения • EM — алгоритм: 
 1. фиксируем разбиение (аналогично WER),
 2. делаем шаг алгоритма оптимизации (методом Ньютона, loss — CE)

Slide 20

Slide 20 text

Linear MERa Матрица признаков

Slide 21

Slide 21 text

Linear MERa Предобработка текстов • Замена Ё на Е • Приведение к единому написанию (недоступен — не доступен) • Приведение аббревиатур к одному виду: эс эм эс — эсэмэс — смс

Slide 22

Slide 22 text

Linear MERa Признаки • Основанные на символах (редакционное расстояние) • Морфологический анализ (совпадание словарных форм, частей речи) • Embeddings (fast text) • Контекстные знания (алло — але, здрасте — здравствуйте, автоответчик) • Специальные слова, специфичные для доменной области • Антонимы

Slide 23

Slide 23 text

Результаты