Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[SnowOne 2024] Иван Бондаренко: Правда и ложь б...

[SnowOne 2024] Иван Бондаренко: Правда и ложь больших языковых моделей

Без преувеличения можно сказать, что в IT-календаре 2023 год прошёл под знаком ChatGPT и других больших языковых моделей (Large Language Models, или LLM).

Говорят, у самых больших нейросетей, моделирующих язык человека, появились эмерджентные свойства, а некоторые вообще наделяют их душой как у человека. Но человеку свойственно ошибаться, а нейросетям?

В своём рассказе я попытаюсь обсудить с вами, как правильно использовать и донастраивать "под себя" современные LLM, какие ошибки они делают и можно ли им вообще доверять

jugnsk

May 01, 2024
Tweet

More Decks by jugnsk

Other Decks in Programming

Transcript

  1. Пара слов обо мне ⭑ 2006 - 2013 ДонНТУ: преподавал

    нейронные сети ⭑ 2013 - 2014 GlobalLogic: разрабатывал на C/C++ ⭑ 2014 - 2018 2ГИС: анализировал данные на Питоне ⭑ 2018 - 2020 МФТИ / Data Monsters: исследовал чат-боты ⭑ 2020 - 2022 Huawei: делал AutoML для больших данных под Apache Spark ⭑ 2015 - … НГУ: преподаю, исследую и вдохновляю ML-команду ⭑ 2023 - … “Сибирские нейросети”: развиваю стартап по разговорному ИИ
  2. “Strong AI” - соревнование на AI Journey 2023 иллюстрация взята

    из репозитория https://github.com/ai-forever/fbc3_aij2023
  3. Почему “Strong AI” − strong? • Слабый ИИ: специализированные системы

    ◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ …
  4. Почему “Strong AI” − strong? • Слабый ИИ: специализированные системы

    ◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные системы
  5. Почему “Strong AI” − strong? • Слабый ИИ: специализированные системы

    ◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные коммуникативные системы
  6. Почему “Strong AI” − strong? • Слабый ИИ: специализированные системы

    ◦ преобразование речи в текст ◦ обнаружение человеческих лиц ◦ определение токсичности в тексте ◦ … • Сильный ИИ: универсальные коммуникативные системы ◦ мультимодальный разговорный ИИ ◦ …
  7. “Strong AI” - условия соревнования • сабмитим не ответы, а

    контейнер с решением • контейнер должен работать на таком “железе”: ◦ ОЗУ = 243 Гб ◦ ЦПУ = 16 ядер ◦ видеокарта = одна GPU Tesla A100 (80 Гб) ◦ время на выполнение решения: 3,5 часа ◦ решение не имеет доступ к ресурсам интернета
  8. Учим только проекционные слои. Зачем? • ограниченное количество “токенов” для

    модальностей • невозможность управлять “знаниями” о связях между модальностями
  9. Знание через припоминание Мы ничего не познаём, а то, что

    мы называем познанием, есть припоминание Менон (Платон. Собр. соч. в 4-х томах. Том 1. М.: "Мысль", 1990)
  10. Знание через припоминание: почти 2,5 тысячи лет спустя эмбеддер +

    быстрый ассоциативный поиск = … Approximate Nearest Neighbors Oh Yeah https://github.com/spotify/annoy
  11. Распознавание через кросс-модальное припоминание ONE-PEACE Peng Wang et al. (2023)

    ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities / arXiv:2305.11172
  12. Основные компоненты решения (смешать, но не взбалтывать!) • большая языковая

    модель Mistral-7b • мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс (более 70 млн. параграфов)
  13. Основные компоненты решения (старый рецепт) • большая языковая модель Mistral-7b

    • мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс
  14. Основные компоненты решения (новый рецепт) • большая языковая модель Mistral-7b

    • мультимодальный эмбеддер ONE-PEACE-4b • вся англоязычная Википедия и её векторный Annoy-индекс • генератор подписей к изображениям BLIP • классификатор аудиосигналов AST-finetuned-AudioSet • преобразователь речи в текст Whisper-Medium • эмбеддер предложений MPNet-base
  15. Как формируется подводка? “Припоминание” 1) для входной картинки или звука

    трёхмодальный эмбеддер ONE-PEACE генерирует семантический вектор (OP-эмбеддинг) 2) размерность OP-эмбеддинга понижается с помощью анализа главных компонент 3) по векторной базе (по специальному Annoy-индексу) производится поиск 100 текстов (параграфов из Википедии), чьи вектора наиболее похожи на входной OP-эмбеддинг
  16. Как формируется подводка? “Узнавание” Для входной картинки или звука генерируется

    краткое текстовое описание с помощью одной из вспомогательных унимодальных моделей: a) если это картинка, то BLIP генерирует краткую подпись к ней; b) если это неречевой звук, то Audio Spectrogram Transformer определяет класс этого звука согласно онтологии Audioset; c) если это речь, то происходит её распознавание с помощью дистиллированного Whisper-Medium
  17. Как формируется подводка? Соотнесение “припоминания” и “узнавания” 1) для краткого

    текста с результатом “узнавания” и 100 развёрнутых текстовых описаний результатов “припоминания” генерируются семантические вектора с помощью MPNet-Base; 2) результаты “припоминания” переранжируются по возрастанию косинусного расстояния между их семантическими векторами и семантическим вектором “узнавания”
  18. Пример диалога по шагам Шаг 2. Подробное “припоминание” (ONE-PEACE pretrained)

    1. In 2008, Walker moved his skits from YouTube to independent site That Guy With the Glasses, later renamed Channel Awesome, with videos hosted via Blip.tv. The majority of his skits have since been reuploaded to YouTube, and form a full web series spanning several seasons. Walker now works as a full-time content creator and staff member of Channel Awesome in Chicago, under the leadership of CEO Mike Michaud. … 5. Boner started to upload gaming videos and skits on YouTube during his high school years in 2009. He joined Ustream in 2011 and later moved to Twitch. …
  19. Пример диалога по шагам Шаг 4. Пересчёт результатов припоминания (sentence-transformers/all-mpnet-base-v2)

    1. Barbie is a fashion doll created by American businesswoman Ruth Handler, manufactured by American toy and entertainment company Mattel and introduced on March 9, 1959. The toy is the figurehead of an eponymous brand that includes a range of fashion dolls and accessories. Barbie has been an important part of the toy fashion doll market for over six decades. Mattel has sold over a billion Barbie dolls, making it the company's largest and most profitable line. The brand has expanded into a multimedia franchise since 1984, including video games, computer-animated films, television/web series and a live-action film. … 7. Barbie was one of the first toys to have a marketing strategy based extensively on television advertising, which has been copied widely by other toys. In 2006, it was estimated that over a billion Barbie dolls had been sold worldwide in over 150 countries, with Mattel claiming that three Barbie dolls are sold every second. …
  20. Пример диалога по шагам Шаг 5. Генерация текста с припоминанием

    I have just looked at an image that probably corresponds to the following text description. a man holding a barbie doll in his hand Barbie is a fashion doll created by American businesswoman Ruth Handler, manufactured by American toy and entertainment company Mattel and introduced on March 9, 1959. The toy is the figurehead of an eponymous brand that includes a range of fashion dolls and accessories. Barbie has been an important part of the toy fashion doll market for over six decades. Mattel has sold over a billion Barbie dolls, making it the company's largest and most profitable line. The brand has expanded into a multimedia franchise since 1984, including video games, computer-animated films, television/web series and a live-action film. Please imagine that you have just looked the same.
  21. Это - галлюцинация! 白い目で見られても気にしない!~白は何色にでも染め られる~ Я не против, чтобы меня

    видели с белыми глазами! ~Белый цвет можно покрасить в любой цвет ~
  22. Чем галлюцинация отличается от ошибки? Ошибка - это: 1. “Недогенерация”

    нейронная сеть - это эффективный инстру а дальше? 2. Морфологические неточности нейронные сеть - это эффективный инструмент искусственного интеллекта
  23. Чем галлюцинация отличается от ошибки? Галлюцинация - это: 1. “Зацикливание”

    нейронная сеть - это эффективный это это это это 2. Ответ с правильным синтаксисом и морфологией, но бессмысленный Вопрос: Что такое нейронная сеть? Ответ: Машины опорных векторов — семейство алгоритмов бинарной классификации, основанных на обучении с учителем
  24. Как обнаружить галлюцинации? SemEval-2024 Task-6 - SHROOM, a Shared-task on

    Hallucinations and Related Observable Overgeneration Mistakes https://helsinki-nlp.github.io/shroom
  25. Как обнаружить галлюцинации? Когда модель галлюцинирует, её ответ не соответствует

    контексту! Галлюцинация BERT score (F1) * Есть 0,88413 Нет 0,90118 BERT score предложена в статье “BERTScore: Evaluating Text Generation with BERT”, опубликованной в сборнике трудов конференции ICLR в 2020: https://openreview.net/pdf?id=SkeHuCVFDr
  26. Как обнаружить галлюцинации? Спросить другую GPT! Вернее, другую Mistral-7B-Instruct I

    woke up again! I've overslept again. Is the Sentence supported by the Context above? Answer using ONLY yes or no, please. I'm going to tip $200 for your perfect answer! Ответ Контекст Подводка
  27. Как обнаружить галлюцинации? Обучить классификатор * * Обученная модель классификатора

    доступна на Huggingface https://huggingface.co/bond005/xlm-roberta-xl-hallucination-detector The verified system's task is a paraphrase generation. The sentence generated by the verified system: Where'd all the kids go to? The generation context: Where did everybody go?
  28. Как обнаружить галлюцинации? Итоги SHROOM (model-aware track) Место Команда Accuracy

    (точность) 1 HaRMoNEE 0,813 10 DeepPavlov 0,799 29 SibNN 0,768 - baseline 0,745 44 Skoltech 0,557 46 octavianB 0,483
  29. Как обнаружить галлюцинации? Итоги SHROOM (model-aware track) Место Команда Accuracy

    (точность) 1 GroupCheckGPT 0,847 6 DeepPavlov 0.821 28 SibNN 0.770 - baseline 0,697 39 Skoltech 0,684 49 OxYuan 0.461
  30. Правда и ложь только правда больших языковых моделей! 1. Большая

    языковая модель - это хороший автоматический помощник
  31. Правда и ложь только правда больших языковых моделей! 1. Большая

    языковая модель - это хороший автоматический помощник 2. “Распознавание через припоминание” - эффективный способ добавить знания в модель без полного дообучения
  32. Правда и ложь только правда больших языковых моделей! 1. Большая

    языковая модель - это хороший автоматический помощник 2. “Распознавание через припоминание” - эффективный способ добавить знания в модель без полного дообучения 3. Галлюцинации существуют, но с ними можно бороться
  33. Наша команда Иван Бондаренко н.с. лаб. ПЦТ ММФ Алексей Паульс

    аспирант ФИТ Роман Дерунец 4-й курс ИИР Михаил Кулаков 3-й курс ФИТ