mGPT-модели для малых языков России

LLM, которая говорит на 61 языке, включая малоресурсные языки народов
России Мария Тихонова Игорь Чурин

Разработка мультиязычной авторегрессивной LLM на основе GPT-3 архитектуры; Увеличение лингвистического
разнообразия многоязычных моделей; Создание языковых моделей для языков стран СНГ и малоресурсных языков малых народов России.

– Архитектура на основе GPT-3 – 61 язык в обучающем
корпусе – Две версии модели: mGPT1.3B и mGPT13B – 600GB текстов из Википедии и C4 для обучения – Единый BBPE токенизатор

– Пять различных стратегий токенизации. – Выбор стратегии токенизации на
основе перплексии, замеренной на сэмпле из Википедии (10.7MB).

– 61 язык – 12 языков СНГ – Якутский –
Калмыцкий – Тувинский – Бурятский 8 малоресурсных языков малых народов России: – Осетинский – Чувашский – Башкирский – Татарский

– Оценка языковых способностей LM – Оценка на задачах классификации
и sequence labeling – Оценка общего понимания естественного языка – Анализ лексического разнообразия

– Оценка LM на отложенной выборке для каждого языка. –
Анализ корреляций для изучения влияния: o Алфавита o Размер обучающего корпуса o Размера модели Выводы: – Перплексия mGPT1.3B имеют такое же распределение как и mGPT13B, но стабильно выше. – Перплексия на языках с не-латинским алфавитом в среднем меньше.

Оценка mGPT на задачах classification и sequence labeling в формате
zero-/few- shot. Zero-/few-shot-подход основывается на потокенной кросс-энтропии (per-token cross-entropy loss): – classification: выбирается метка для промпта с наименьшей перплексией (или loss). – sequence labeling: на каждом шаге выбирается метка с наименьшим loss.

Выводы: – mGPT1.3B сравнима с XGLM1.7B при меньшем размере и
большем количестве языков. – Увеличение числа few-shot может привести к снижению качества. – Hate speech detection – одна из самых сложных задач.

Выводы: – mGPT1.3B превосходит mGPT13B на задаче sequence labeling. –
Качество mGPT1.3B на малоресурсных языках сопоставимо с качеством на бенчмарке XGLUE.

Модель тестировалась на 23 языках на датасете mLAMA. Вывод: Увеличение
количества параметров модели обычно увеличивает качество на высоко- ресурсных языках.

Сравнение BLOOM176B , mGPT1.3B , OPT175B, GPT-J6B , and T011B
на бенчмарке SuperGlue. mGPT1.3B имеет сопоставимое качество, несмотря на меньший размер.

Анализ лексического разнообразия mGPT1.3B на пяти языках: английский, французский, немецкий,
испанский и китайский. Метрики: – Entropy1 - энтропия Шеннона для униграмм; – MSTTR - среднее отношение сегментированных токенов к сегментам длиной 100; – Distinct1 - отношение числа отдельных униграмм к общему числу униграмм, а также количество униграмм, которые встречаются один раз в коллекции сгенерированных выходов; – Unique1 – количество униграмм, которые встречаются один раз в коллекции сгенерированных выходов. Выводы: • Показатели метрики разнообразия выше у китайского, а средняя длина сгенерированного текста – самая короткая. • Результаты индоевропейских языков схожи. Показатели для английского языка ниже, так как средняя длина текста больше.

23 моноязычные версии mGPT1.3B , дообученные на языках СНГ и
малоресурсных языках малых народов России.

Общие данные mC4 OSCAR OpenSubtitles Wiki Blogs LibGen Archive Специальные
корпуса текстов: EANC TED talks minorlangs Bashkir XNLI chuvash_parallel, chv_corpus oyrad_corpus Udhr VOA Corpus

– Изначально модели дообучались 250k шагов. – Чекпоинты (checkpoints) сохранялись
каждые 10k шагов. – Некоторые модели дополнительно дообучались до выхода на плато.

Некоторые модели обучались миллион шагов (например, армянский):

Некоторые модели обучались 250к шагов (например, марийский):

Сравнение исходной mGPT и моноязычных mGPT на отложенной выборке для
каждого языка. Качество по сравнению с оригинальной mGPT было улучшено на значения от 47% до 2900% в зависимости от языка. Языки Моноязычный mGPT mGPT Прирост Armenian loss: 0.55 ppl: 1.73 loss: 1.83 ppl: 6.23 260% Azerbaijani loss: 1.68 ppl: 5.37 loss: 3.86 ppl: 47.46 783% Bashkir loss: 1.95 ppl: 7.06 loss: 3.56 ppl: 35.01 395% Belarusian loss: 3.32 ppl: 27.65 loss: 4.14 ppl: 62.73 126% Bulgarian loss: 2.72 ppl: 15.20 loss: 4.45 ppl: 85.70 463% Buriat loss: 2.87 ppl: 17.63 loss: 4.19 ppl: 65.70 272% Chuvash loss: 3.36 ppl: 28.76 loss: 4.79 ppl: 120.66 319% Georgian loss: 2.82 ppl: 16.85 loss: 4.05 ppl: 57.20 239% Kalmyk loss: 2.64 ppl: 13.97 loss: 4.30 ppl: 74.12 430% Kazakh loss: 1.22 ppl: 3.38 loss: 3.27 ppl: 26.43 680% Kirgiz loss: 2.10 ppl: 8.20 loss: 4.23 ppl: 68.44 734% Mari loss: 3.05 ppl: 21.19 loss: 5.26 ppl: 193.193 811% Mongolian loss: 1.47 ppl: 4.35 loss: 3.32 ppl: 27.69 536% Ossetian loss: 2.93 ppl: 18.70 loss: 4.36 ppl: 78.17 318% Persian loss: 3.51 ppl: 33.44 loss: 4.45 ppl: 86.05 157% Romanian loss: 1.24 ppl: 3.44 loss: 1.63 ppl: 5.08 47% Tajik loss: 1.88 ppl: 6.52 loss: 4.09 ppl: 59.88 818% Tatar loss: 1.31 ppl: 3.69 loss: 3.17 ppl: 23.84 546% Turkmen loss: 3.35 ppl: 28.47 loss: 5.29 ppl: 199.11 600% Tuvinian loss: 3.71 ppl: 40.84 loss: 5.10 ppl: 164.40 302% Ukrainian loss: 1.96 ppl: 7.11 loss: 4.00 ppl: 54.93 672% Uzbek loss: 1.92 ppl: 6.84 loss: 5.33 ppl: 206.85 2924% Yakut loss: 2.37 ppl: 10.65 loss: 4.31 ppl: 74.74 611%

Сравнение исходной mGPT и моноязычных mGPT на FLORES-200: Сравнение в
формате zero-shot и few-shot, используя промпты.Оценка с помощью метрик ROUGE и BLEU. Выводы: Для большого числа языков моноязычные модели показывают лучшее качество, чем оригинальная mGPT, причем зачастую превосходство проявляется в zero- и 4- shot формате, а для ряда языков (например, узбекского, туркменского и азербайджанского) моноязычный чекпоинт с английскими затравками превосходит оригинал во всех форматах.

– Масштабирование модели – Недостаток данных, особенно для малоресурсных языков
– Выбор стратегии токенизации – Улучшение качества в few-/zero-shot

– Выпустили две модели mGPT1.3B и mGPT13B , которые знают
61 язык. – Одна из первых авторегрессивных LM для малоресурсных и СНГ языков. – Выпустили 23 версии mGPT1.3B дообученных на моноязычных корпусах языков стран СНГ и малоресурсных языков малых народов России. – Комплексная оценка mGPT. Телеграм для связи: @averkij

mGPT13B mGPT1.3B Repo with 23 mGPT1.3B

Спасибо за внимание

mGPT-модели для малых языков России

mGPT-модели для малых языков России

Alexander Gavrilov

More Decks by Alexander Gavrilov

Other Decks in Technology

Featured

Transcript

LLM, которая говорит на 61 языке, включая малоресурсные языки народов

Разработка мультиязычной авторегрессивной LLM на основе GPT-3 архитектуры; Увеличение лингвистического

– Архитектура на основе GPT-3 – 61 язык в обучающем

– Пять различных стратегий токенизации. – Выбор стратегии токенизации на

– 61 язык – 12 языков СНГ – Якутский –

– Оценка языковых способностей LM – Оценка на задачах классификации

– Оценка LM на отложенной выборке для каждого языка. –

Оценка mGPT на задачах classification и sequence labeling в формате

Выводы: – mGPT1.3B сравнима с XGLM1.7B при меньшем размере и

Выводы: – mGPT1.3B превосходит mGPT13B на задаче sequence labeling. –

Модель тестировалась на 23 языках на датасете mLAMA. Вывод: Увеличение

Сравнение BLOOM176B , mGPT1.3B , OPT175B, GPT-J6B , and T011B

Анализ лексического разнообразия mGPT1.3B на пяти языках: английский, французский, немецкий,

23 моноязычные версии mGPT1.3B , дообученные на языках СНГ и

Общие данные mC4 OSCAR OpenSubtitles Wiki Blogs LibGen Archive Специальные

– Изначально модели дообучались 250k шагов. – Чекпоинты (checkpoints) сохранялись

Некоторые модели обучались миллион шагов (например, армянский):

Некоторые модели обучались 250к шагов (например, марийский):

Сравнение исходной mGPT и моноязычных mGPT на отложенной выборке для

Сравнение исходной mGPT и моноязычных mGPT на FLORES-200: Сравнение в

– Масштабирование модели – Недостаток данных, особенно для малоресурсных языков

– Выпустили две модели mGPT1.3B и mGPT13B , которые знают

mGPT13B mGPT1.3B Repo with 23 mGPT1.3B

Спасибо за внимание