[SnowOne 2024] Иван Бондаренко: Правда и ложь больших языковых моделей

Правда и ложь больших языковых моделей Иван Бондаренко Новосибирский государственный
университет

Пара слов обо мне ⭑ 2006 - 2013 ДонНТУ: преподавал
нейронные сети ⭑ 2013 - 2014 GlobalLogic: разрабатывал на C/C++ ⭑ 2014 - 2018 2ГИС: анализировал данные на Питоне ⭑ 2018 - 2020 МФТИ / Data Monsters: исследовал чат-боты ⭑ 2020 - 2022 Huawei: делал AutoML для больших данных под Apache Spark ⭑ 2015 - … НГУ: преподаю, исследую и вдохновляю ML-команду ⭑ 2023 - … “Сибирские нейросети”: развиваю стартап по разговорному ИИ

“Strong AI” - соревнование на AI Journey 2023 https://dsworks.ru/champ/super-aintelligence

“Strong AI” - соревнование на AI Journey 2023 иллюстрация взята
из репозитория https://github.com/ai-forever/fbc3_aij2023

Почему “Strong AI” − strong? • Слабый ИИ: специализированные системы
◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ …

◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные системы

◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные коммуникативные системы

◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные коммуникативные системы ◦ мультимодальный разговорный ИИ ◦ …

“Strong AI” - условия соревнования • сабмитим не ответы, а
контейнер с решением • контейнер должен работать на таком “железе”: ◦ ОЗУ = 243 Гб ◦ ЦПУ = 16 ядер ◦ видеокарта = одна GPU Tesla A100 (80 Гб) ◦ время на выполнение решения: 3,5 часа ◦ решение не имеет доступ к ресурсам интернета

“Strong AI” - лидерборд … … … … … …

Типичный baseline для мультимодального ИИ иллюстрация взята из репозитория https://github.com/ai-forever/fbc3_aij2023

Учим только проекционные слои Только эта часть обучается

Учим только проекционные слои. Зачем? • ограниченное количество “токенов” для
модальностей • невозможность управлять “знаниями” о связях между модальностями

Что такое знание?

Знание через припоминание Мы ничего не познаём, а то, что
мы называем познанием, есть припоминание Менон (Платон. Собр. соч. в 4-х томах. Том 1. М.: "Мысль", 1990)

Знание через припоминание: почти 2,5 тысячи лет спустя эмбеддер +
быстрый ассоциативный поиск = …

Знание через припоминание: почти 2,5 тысячи лет спустя эмбеддер +
быстрый ассоциативный поиск = … Approximate Nearest Neighbors Oh Yeah https://github.com/spotify/annoy

Распознавание через кросс-модальное припоминание ONE-PEACE Peng Wang et al. (2023)
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities / arXiv:2305.11172

Основные компоненты решения (смешать, но не взбалтывать!) • большая языковая
модель Mistral-7b • мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс (более 70 млн. параграфов)

Мечтают ли андроиды о котиках?

Наша борьба с Jesus Army

Наша борьба с Jesus Army и другими религиозными проявлениями

Основные компоненты решения (старый рецепт) • большая языковая модель Mistral-7b
• мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс

Основные компоненты решения (новый рецепт) • большая языковая модель Mistral-7b
• мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс • генератор подписей к изображениям BLIP • классификатор аудиосигналов AST-finetuned-AudioSet • преобразователь речи в текст Whisper-Medium • эмбеддер предложений MPNet-base

Как формируется подводка? “Припоминание” 1) для входной картинки или звука
трёхмодальный эмбеддер ONE-PEACE генерирует семантический вектор (OP-эмбеддинг) 2) размерность OP-эмбеддинга понижается с помощью анализа главных компонент 3) по векторной базе (по специальному Annoy-индексу) производится поиск 100 текстов (параграфов из Википедии), чьи вектора наиболее похожи на входной OP-эмбеддинг

Как формируется подводка? “Узнавание” Для входной картинки или звука генерируется
краткое текстовое описание с помощью одной из вспомогательных унимодальных моделей: a) если это картинка, то BLIP генерирует краткую подпись к ней; b) если это неречевой звук, то Audio Spectrogram Transformer определяет класс этого звука согласно онтологии Audioset; c) если это речь, то происходит её распознавание с помощью дистиллированного Whisper-Medium

Как формируется подводка? Соотнесение “припоминания” и “узнавания” 1) для краткого
текста с результатом “узнавания” и 100 развёрнутых текстовых описаний результатов “припоминания” генерируются семантические вектора с помощью MPNet-Base; 2) результаты “припоминания” переранжируются по возрастанию косинусного расстояния между их семантическими векторами и семантическим вектором “узнавания”

Meno AI https://t.me/small_nsu_ai_bot

Пример диалога

Пример диалога по шагам Шаг 1. Входное сообщение What is
this man holding in his hands?

Пример диалога по шагам Шаг 2. Подробное “припоминание” (ONE-PEACE pretrained)
1. In 2008, Walker moved his skits from YouTube to independent site That Guy With the Glasses, later renamed Channel Awesome, with videos hosted via Blip.tv. The majority of his skits have since been reuploaded to YouTube, and form a full web series spanning several seasons. Walker now works as a full-time content creator and staff member of Channel Awesome in Chicago, under the leadership of CEO Mike Michaud. … 5. Boner started to upload gaming videos and skits on YouTube during his high school years in 2009. He joined Ustream in 2011 and later moved to Twitch. …

Пример диалога по шагам Шаг 3. Краткое “узнавание” (Salesforce/blip-image-captioning-base) a
man holding a barbie doll in his hand

Пример диалога по шагам Шаг 4. Пересчёт результатов припоминания (sentence-transformers/all-mpnet-base-v2)
1. Barbie is a fashion doll created by American businesswoman Ruth Handler, manufactured by American toy and entertainment company Mattel and introduced on March 9, 1959. The toy is the figurehead of an eponymous brand that includes a range of fashion dolls and accessories. Barbie has been an important part of the toy fashion doll market for over six decades. Mattel has sold over a billion Barbie dolls, making it the company's largest and most profitable line. The brand has expanded into a multimedia franchise since 1984, including video games, computer-animated films, television/web series and a live-action film. … 7. Barbie was one of the first toys to have a marketing strategy based extensively on television advertising, which has been copied widely by other toys. In 2006, it was estimated that over a billion Barbie dolls had been sold worldwide in over 150 countries, with Mattel claiming that three Barbie dolls are sold every second. …

Пример диалога по шагам Шаг 5. Генерация текста с припоминанием
I have just looked at an image that probably corresponds to the following text description. a man holding a barbie doll in his hand Barbie is a fashion doll created by American businesswoman Ruth Handler, manufactured by American toy and entertainment company Mattel and introduced on March 9, 1959. The toy is the figurehead of an eponymous brand that includes a range of fashion dolls and accessories. Barbie has been an important part of the toy fashion doll market for over six decades. Mattel has sold over a billion Barbie dolls, making it the company's largest and most profitable line. The brand has expanded into a multimedia franchise since 1984, including video games, computer-animated films, television/web series and a live-action film. Please imagine that you have just looked the same.

Ещё примеры общения

О-па, а что это такое? 白い目で見られても気にしない！～白は何色にでも染められる～

Это - галлюцинация! 白い目で見られても気にしない！～白は何色にでも染められる～ Я не против, чтобы меня
видели с белыми глазами! ~Белый цвет можно покрасить в любой цвет ~

Чем галлюцинация отличается от ошибки? Ошибка - это: 1. “Недогенерация”
нейронная сеть - это эффективный инстру а дальше? 2. Морфологические неточности нейронные сеть - это эффективный инструмент искусственного интеллекта

Чем галлюцинация отличается от ошибки? Галлюцинация - это: 1. “Зацикливание”
нейронная сеть - это эффективный это это это это 2. Ответ с правильным синтаксисом и морфологией, но бессмысленный Вопрос: Что такое нейронная сеть? Ответ: Машины опорных векторов — семейство алгоритмов бинарной классификации, основанных на обучении с учителем

Как обнаружить галлюцинации? SemEval-2024 Task-6 - SHROOM, a Shared-task on
Hallucinations and Related Observable Overgeneration Mistakes https://helsinki-nlp.github.io/shroom

Как обнаружить галлюцинации? Три задачи: 1) машинный перевод 2) генерация
парафраза 3) моделирование определений

Как обнаружить галлюцинации? Когда модель галлюцинирует, она сомневается! Галлюцинация log(P
seq ) Есть -0,63245 Нет -0,54833

Как обнаружить галлюцинации? Когда модель галлюцинирует, её ответ не соответствует
контексту! Галлюцинация BERT score (F1) * Есть 0,88413 Нет 0,90118 BERT score предложена в статье “BERTScore: Evaluating Text Generation with BERT”, опубликованной в сборнике трудов конференции ICLR в 2020: https://openreview.net/pdf?id=SkeHuCVFDr

Как обнаружить галлюцинации? Спросить другую GPT! Вернее, другую Mistral-7B-Instruct I
woke up again! I've overslept again. Is the Sentence supported by the Context above? Answer using ONLY yes or no, please. I'm going to tip $200 for your perfect answer! Ответ Контекст Подводка

Как обнаружить галлюцинации? Обучить классификатор * * Обученная модель классификатора
доступна на Huggingface https://huggingface.co/bond005/xlm-roberta-xl-hallucination-detector The verified system's task is a paraphrase generation. The sentence generated by the verified system: Where'd all the kids go to? The generation context: Where did everybody go?

Как обнаружить галлюцинации? Значимость признаков

Как обнаружить галлюцинации? Итоги SHROOM (model-aware track) Место Команда Accuracy
(точность) 1 HaRMoNEE 0,813 10 DeepPavlov 0,799 29 SibNN 0,768 - baseline 0,745 44 Skoltech 0,557 46 octavianB 0,483

Как обнаружить галлюцинации? Итоги SHROOM (model-aware track) Место Команда Accuracy
(точность) 1 GroupCheckGPT 0,847 6 DeepPavlov 0.821 28 SibNN 0.770 - baseline 0,697 39 Skoltech 0,684 49 OxYuan 0.461

Правда и ложь только правда больших языковых моделей! 1. Большая
языковая модель - это хороший автоматический помощник

языковая модель - это хороший автоматический помощник 2. “Распознавание через припоминание” - эффективный способ добавить знания в модель без полного дообучения

языковая модель - это хороший автоматический помощник 2. “Распознавание через припоминание” - эффективный способ добавить знания в модель без полного дообучения 3. Галлюцинации существуют, но с ними можно бороться

Наша команда Иван Бондаренко н.с. лаб. ПЦТ ММФ Алексей Паульс
аспирант ФИТ Роман Дерунец 4-й курс ИИР Михаил Кулаков 3-й курс ФИТ

Спасибо за внимание!

[SnowOne 2024] Иван Бондаренко: Правда и ложь б...

[SnowOne 2024] Иван Бондаренко: Правда и ложь больших языковых моделей

More Decks by jugnsk

Other Decks in Programming

Featured

Transcript