Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenTalks.AI - Ольга Мегорская, Мы в ответе за то, на чем обучились: разметка данных как ключевая часть производства AI продуктов

opentalks3
February 05, 2021

OpenTalks.AI - Ольга Мегорская, Мы в ответе за то, на чем обучились: разметка данных как ключевая часть производства AI продуктов

opentalks3

February 05, 2021
Tweet

More Decks by opentalks3

Other Decks in Business

Transcript

  1. Ольга Мегорская, CEO Толоки
    Мы в ответе за то, на чем
    обучились:
    разметка данных как
    ключевая часть
    производства AI продуктов
    Toloka.ai

    View Slide

  2. 2
    Данные - основа AI

    View Slide

  3. Толока – открытая краудсорсинговая платформа
    3

    View Slide

  4. Растёт с ростом AI
    Активных проектов Активных толокеров
    4.1M
    2020
    2019
    2018
    2017
    2016
    2015
    2014
    2.2M
    1.1M
    570K
    270K
    120K
    9K
    10.1K
    2020
    2019
    2018
    2017
    2016
    2015
    2014
    4055
    2123
    1612
    1214
    443
    57

    View Slide

  5. Выходит на глобальный уровень
    * Новые регионы добавляются при большом заказе
    Argentina
    Cote d'Ivoire
    France India
    Philippines
    Tunisia
    Morocco
    Turkey
    Ukraine
    Brazil
    Russia
    Топ стран по кол-ву активных толокеров*
    ∙ English ∙ Spanish ∙ Arabic ∙ Portuguese ∙ Russian ∙ Ukrainian ∙ French
    ∙ German ∙ Italian ∙ Polish ∙ Latvian ∙ Bulgarian ∙ Czech ∙ Turkish ∙ Hindi
    ∙ Vietnamese ∙ Japanese ∙ Chinese ∙ Korean ∙ Indonesian
    9+ миллионов толокеров со всего мира
    Kenya
    Pakistan
    Venezuela
    Egypt
    Mexico
    Nigeria
    Peru
    Portugal
    Spain
    USA
    Vietnam
    Топ языков*

    View Slide

  6. Каждый день в Толоке
    600+
    активных
    проектов
    41 000+
    толокеров,
    получивших
    деньги
    15 000 000+
    выполненных
    заданий
    IOS,
    Android,
    Desktop

    View Slide

  7. 3 вещи, которые
    важно понимать про
    разметку данных
    7

    View Slide

  8. 1.Разметка данных –
    ключевая
    экспертиза в
    современном ML
    производстве

    View Slide

  9. 9
    Обучение
    Валидация перед
    внедрением
    Контроль на реальных
    данных
    Дообучение

    View Slide

  10. Разметка данных – часть ML конвейера
    10
    1. Только в Kaggle решения соревнуются
    алгоритмами в рамках фиксированных
    датасетов
    2. В реальном мире конкурирует весь цикл ML
    производства
    3. Побеждает тот, кто умеет выстроить
    эффективно полный цикл и влиять на качество
    конечного AI продукта за счет данных

    View Slide

  11. Разметка данных – часть ML конвейера
    11

    View Slide

  12. 2. Разметка данных –
    высокотехнологичная
    отрасль, в которой
    заложены следующие
    прорывы в AI

    View Slide

  13. «Я тут думал, чем бы стал заниматься, если бы в
    качестве ML специалиста присоединился к
    команде качества поиска.
    И мой выбор - это даже не персонализация на
    трансформерах. Это качество экспертной
    разметки.»
    (с) Петр Попов, CTO Яндекса

    View Slide

  14. Разметка данных как инженерная задача
    Минимальные усилия
    тысяч людей
    Мудрость толпы как
    вычислительный кластер

    View Slide

  15. Разметка данных – это интересно
    15

    View Slide

  16. 3. Нельзя забывать,
    что краудсорсинг – это
    про людей

    View Slide

  17. Разметка данных – это люди
    17

    View Slide

  18. Crowd Science Initiative
    Воркшопы на мировых
    конференциях
    (NeurIPS, VLDB)
    Семинары на
    тему
    краудсорсинга
    каждые 2 недели
    Контест по
    агрегации данных
    Портал,
    посвященный
    Crowd Science
    Присоединяйтесь!
    https://www.meetup.com/crowd-science-seminar/

    View Slide

  19. Спасибо!

    View Slide