R&D GigaChat: направления и фокусы

Валерий Терновский R&D Направления и фокусы Александр Капитанов

Мультимодальность — Curriculum Learning — Токенизация — Мультиязычность — Проект
«Синтетика» — Поиск лучшего рецепта обучения Pretrain — RLHF — GigaRAG — Пропорции данных — Композиции датасетов в SFT Alignment — Chain-of-Thoughts — GigaQ* — Прототипы агентов — Нейростихи и нейромузыка Мультиагентность и мультиэкспертность — Long-range метрики — MERA — GOTHIC — Поиск узких мест в построенной системе оценивания Оценка — Curriculum Learning + MoE — RetNet — RMT — FRED-X-LM — PrefixLM Новые подходы к обучению

Promotion Ladder Отладка, тестирование, проверка гипотез, анализ результатов на 100M
3B 7B 29B Лучшие кандидаты едут в пайплайн: babyMMLU fakeMMLU MMLU Hellaswag RubQ GSM8K HumanEval

Pretrain research Curriculum Learning

Curriculum Learning — 100M 0.38 0.36 0.34 0.32 0.30 0.28
0.26 0 50B 100B tokens 150B 200B 0 50B 100B tokens 150B 200B babyMMLU hellaswag

Curriculum Learning — 3B 0.55 0.50 0.45 0.40 0.35 0.30
0.25 0 20 40 60 80 100 120 140 babyMMLU 0 20 40 60 80 100 120 140 hellaswag B tokens B tokens

GigaRAG Делаем RAG для общего случая, т.е. для любого запроса
юзера. Идея: Создаём метки под «источники данных» — банк реплик, база QA, библиотека гигауниверситета: физика, математика, …, индекс СС (вместо интернета) и т.п. Любой запрос юзера отвечается в два прохода: — Первый запуск – модель отвечает мультилейбл спецтокены, в какие источники данных ей нужно сходить (из п.1), а также формулирует запросы в эти источники данных, т.к. логика поиска в них может быть разной. — Далее ретривал-компонента извлекает искомую инфу, подставляется в промпт — LLM генерирует финальный ответ Что было бы, если бы у Юпитера масса уменьшилась в 10 раз? Пример: LLM: Для ответа на вопрос нужна инфа из следующих баз: — QA-база, запрос «Юпитер» — Научная библиотека гигауниверситета, физика, запрос «Солнечная система, массы планет», «Небесная механика» Ретривал: <Выполняется поиск, выдаёт сниппеты> LLM: По объединенному промпту генерит ответ

Contrastive Chain-of-Thought Prompting (CCoT) — Агенты как тестовый полигон для
отслеживания прогресса в решении комплексных задач — Прокачка CoT — CCoT — MCTS-like CCoT research

В двух словах фокус команды в развитии LLM GigaChat можно
представить как: — улучшение технологии мы ищем способы усилить разные стадии работы с LLM в ситуации, когда бОльшая часть низко висящих фруктов собрана.

— Cильные визуальные энкодеры — Понимание изображений на любую тематику
— OCR, Latex, PDF Image — Понимание видео — Извлечение контекста, суммаризация и поиск — Жестовые языки Video — Модификация изображения с удержанием контекста языковой модели Editing — Понимание аудио — Транскрибация — Кепшенинг — Анализ аудио — Перевод Audio — Генерация 3D объектов и 2D векторной графики по текстовому описанию 2D / 3D — Извлечение информации для всех модальностей RAG 3D i

R&D GigaChat: направления и фокусы

R&D GigaChat: направления и фокусы

Alexander Gavrilov

More Decks by Alexander Gavrilov

Other Decks in Technology

Featured

Transcript

Валерий Терновский R&D Направления и фокусы Александр Капитанов

Мультимодальность — Curriculum Learning — Токенизация — Мультиязычность — Проект

Promotion Ladder Отладка, тестирование, проверка гипотез, анализ результатов на 100M

Pretrain research Curriculum Learning

Curriculum Learning — 100M 0.38 0.36 0.34 0.32 0.30 0.28

Curriculum Learning — 3B 0.55 0.50 0.45 0.40 0.35 0.30

GigaRAG Делаем RAG для общего случая, т.е. для любого запроса

Contrastive Chain-of-Thought Prompting (CCoT) — Агенты как тестовый полигон для

В двух словах фокус команды в развитии LLM GigaChat можно

— Cильные визуальные энкодеры — Понимание изображений на любую тематику