Upgrade to Pro — share decks privately, control downloads, hide ads and more …

mGPT-модели для малых языков России

mGPT-модели для малых языков России

Конференция GIGA R&D DAY
Презентации на Google Drive: https://drive.google.com/drive/folders/1t1Y5sH4mGFAIzdcrrfXz8m65QEmghA7U
Выступления: https://www.youtube.com/playlist?list=PLJU_M19giWaHVbfs2ltF1kBxUrjAblCD1

Alexander Gavrilov

April 16, 2024
Tweet

More Decks by Alexander Gavrilov

Other Decks in Technology

Transcript

  1. Разработка мультиязычной авторегрессивной LLM на основе GPT-3 архитектуры; Увеличение лингвистического

    разнообразия многоязычных моделей; Создание языковых моделей для языков стран СНГ и малоресурсных языков малых народов России.
  2. – Архитектура на основе GPT-3 – 61 язык в обучающем

    корпусе – Две версии модели: mGPT1.3B и mGPT13B – 600GB текстов из Википедии и C4 для обучения – Единый BBPE токенизатор
  3. – Пять различных стратегий токенизации. – Выбор стратегии токенизации на

    основе перплексии, замеренной на сэмпле из Википедии (10.7MB).
  4. – 61 язык – 12 языков СНГ – Якутский –

    Калмыцкий – Тувинский – Бурятский 8 малоресурсных языков малых народов России: – Осетинский – Чувашский – Башкирский – Татарский
  5. – Оценка языковых способностей LM – Оценка на задачах классификации

    и sequence labeling – Оценка общего понимания естественного языка – Анализ лексического разнообразия
  6. – Оценка LM на отложенной выборке для каждого языка. –

    Анализ корреляций для изучения влияния: o Алфавита o Размер обучающего корпуса o Размера модели Выводы: – Перплексия mGPT1.3B имеют такое же распределение как и mGPT13B, но стабильно выше. – Перплексия на языках с не-латинским алфавитом в среднем меньше.
  7. Оценка mGPT на задачах classification и sequence labeling в формате

    zero-/few- shot. Zero-/few-shot-подход основывается на потокенной кросс-энтропии (per-token cross-entropy loss): – classification: выбирается метка для промпта с наименьшей перплексией (или loss). – sequence labeling: на каждом шаге выбирается метка с наименьшим loss.
  8. Выводы: – mGPT1.3B сравнима с XGLM1.7B при меньшем размере и

    большем количестве языков. – Увеличение числа few-shot может привести к снижению качества. – Hate speech detection – одна из самых сложных задач.
  9. Выводы: – mGPT1.3B превосходит mGPT13B на задаче sequence labeling. –

    Качество mGPT1.3B на малоресурсных языках сопоставимо с качеством на бенчмарке XGLUE.
  10. Модель тестировалась на 23 языках на датасете mLAMA. Вывод: Увеличение

    количества параметров модели обычно увеличивает качество на высоко- ресурсных языках.
  11. Сравнение BLOOM176B , mGPT1.3B , OPT175B, GPT-J6B , and T011B

    на бенчмарке SuperGlue. mGPT1.3B имеет сопоставимое качество, несмотря на меньший размер.
  12. Анализ лексического разнообразия mGPT1.3B на пяти языках: английский, французский, немецкий,

    испанский и китайский. Метрики: – Entropy1 - энтропия Шеннона для униграмм; – MSTTR - среднее отношение сегментированных токенов к сегментам длиной 100; – Distinct1 - отношение числа отдельных униграмм к общему числу униграмм, а также количество униграмм, которые встречаются один раз в коллекции сгенерированных выходов; – Unique1 – количество униграмм, которые встречаются один раз в коллекции сгенерированных выходов. Выводы: • Показатели метрики разнообразия выше у китайского, а средняя длина сгенерированного текста – самая короткая. • Результаты индоевропейских языков схожи. Показатели для английского языка ниже, так как средняя длина текста больше.
  13. 23 моноязычные версии mGPT1.3B , дообученные на языках СНГ и

    малоресурсных языках малых народов России.
  14. Общие данные mC4 OSCAR OpenSubtitles Wiki Blogs LibGen Archive Специальные

    корпуса текстов: EANC TED talks minorlangs Bashkir XNLI chuvash_parallel, chv_corpus oyrad_corpus Udhr VOA Corpus
  15. – Изначально модели дообучались 250k шагов. – Чекпоинты (checkpoints) сохранялись

    каждые 10k шагов. – Некоторые модели дополнительно дообучались до выхода на плато.
  16. Сравнение исходной mGPT и моноязычных mGPT на отложенной выборке для

    каждого языка. Качество по сравнению с оригинальной mGPT было улучшено на значения от 47% до 2900% в зависимости от языка. Языки Моноязычный mGPT mGPT Прирост Armenian loss: 0.55 ppl: 1.73 loss: 1.83 ppl: 6.23 260% Azerbaijani loss: 1.68 ppl: 5.37 loss: 3.86 ppl: 47.46 783% Bashkir loss: 1.95 ppl: 7.06 loss: 3.56 ppl: 35.01 395% Belarusian loss: 3.32 ppl: 27.65 loss: 4.14 ppl: 62.73 126% Bulgarian loss: 2.72 ppl: 15.20 loss: 4.45 ppl: 85.70 463% Buriat loss: 2.87 ppl: 17.63 loss: 4.19 ppl: 65.70 272% Chuvash loss: 3.36 ppl: 28.76 loss: 4.79 ppl: 120.66 319% Georgian loss: 2.82 ppl: 16.85 loss: 4.05 ppl: 57.20 239% Kalmyk loss: 2.64 ppl: 13.97 loss: 4.30 ppl: 74.12 430% Kazakh loss: 1.22 ppl: 3.38 loss: 3.27 ppl: 26.43 680% Kirgiz loss: 2.10 ppl: 8.20 loss: 4.23 ppl: 68.44 734% Mari loss: 3.05 ppl: 21.19 loss: 5.26 ppl: 193.193 811% Mongolian loss: 1.47 ppl: 4.35 loss: 3.32 ppl: 27.69 536% Ossetian loss: 2.93 ppl: 18.70 loss: 4.36 ppl: 78.17 318% Persian loss: 3.51 ppl: 33.44 loss: 4.45 ppl: 86.05 157% Romanian loss: 1.24 ppl: 3.44 loss: 1.63 ppl: 5.08 47% Tajik loss: 1.88 ppl: 6.52 loss: 4.09 ppl: 59.88 818% Tatar loss: 1.31 ppl: 3.69 loss: 3.17 ppl: 23.84 546% Turkmen loss: 3.35 ppl: 28.47 loss: 5.29 ppl: 199.11 600% Tuvinian loss: 3.71 ppl: 40.84 loss: 5.10 ppl: 164.40 302% Ukrainian loss: 1.96 ppl: 7.11 loss: 4.00 ppl: 54.93 672% Uzbek loss: 1.92 ppl: 6.84 loss: 5.33 ppl: 206.85 2924% Yakut loss: 2.37 ppl: 10.65 loss: 4.31 ppl: 74.74 611%
  17. Сравнение исходной mGPT и моноязычных mGPT на FLORES-200: Сравнение в

    формате zero-shot и few-shot, используя промпты.Оценка с помощью метрик ROUGE и BLEU. Выводы: Для большого числа языков моноязычные модели показывают лучшее качество, чем оригинальная mGPT, причем зачастую превосходство проявляется в zero- и 4- shot формате, а для ряда языков (например, узбекского, туркменского и азербайджанского) моноязычный чекпоинт с английскими затравками превосходит оригинал во всех форматах.
  18. – Масштабирование модели – Недостаток данных, особенно для малоресурсных языков

    – Выбор стратегии токенизации – Улучшение качества в few-/zero-shot
  19. – Выпустили две модели mGPT1.3B и mGPT13B , которые знают

    61 язык. – Одна из первых авторегрессивных LM для малоресурсных и СНГ языков. – Выпустили 23 версии mGPT1.3B дообученных на моноязычных корпусах языков стран СНГ и малоресурсных языков малых народов России. – Комплексная оценка mGPT. Телеграм для связи: @averkij