Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenTalks.AI - Ольга Мегорская, Мы в ответе за то, на чем обучились: разметка данных как ключевая часть производства AI продуктов

4153fb64761a860efdb4d7029f1c64d4?s=47 opentalks3
February 05, 2021

OpenTalks.AI - Ольга Мегорская, Мы в ответе за то, на чем обучились: разметка данных как ключевая часть производства AI продуктов

4153fb64761a860efdb4d7029f1c64d4?s=128

opentalks3

February 05, 2021
Tweet

Transcript

  1. Ольга Мегорская, CEO Толоки Мы в ответе за то, на

    чем обучились: разметка данных как ключевая часть производства AI продуктов Toloka.ai
  2. 2 Данные - основа AI

  3. Толока – открытая краудсорсинговая платформа 3

  4. Растёт с ростом AI Активных проектов Активных толокеров 4.1M 2020

    2019 2018 2017 2016 2015 2014 2.2M 1.1M 570K 270K 120K 9K 10.1K 2020 2019 2018 2017 2016 2015 2014 4055 2123 1612 1214 443 57
  5. Выходит на глобальный уровень * Новые регионы добавляются при большом

    заказе Argentina Cote d'Ivoire France India Philippines Tunisia Morocco Turkey Ukraine Brazil Russia Топ стран по кол-ву активных толокеров* ∙ English ∙ Spanish ∙ Arabic ∙ Portuguese ∙ Russian ∙ Ukrainian ∙ French ∙ German ∙ Italian ∙ Polish ∙ Latvian ∙ Bulgarian ∙ Czech ∙ Turkish ∙ Hindi ∙ Vietnamese ∙ Japanese ∙ Chinese ∙ Korean ∙ Indonesian 9+ миллионов толокеров со всего мира Kenya Pakistan Venezuela Egypt Mexico Nigeria Peru Portugal Spain USA Vietnam Топ языков*
  6. Каждый день в Толоке 600+ активных проектов 41 000+ толокеров,

    получивших деньги 15 000 000+ выполненных заданий IOS, Android, Desktop
  7. 3 вещи, которые важно понимать про разметку данных 7

  8. 1.Разметка данных – ключевая экспертиза в современном ML производстве

  9. 9 Обучение Валидация перед внедрением Контроль на реальных данных Дообучение

  10. Разметка данных – часть ML конвейера 10 1. Только в

    Kaggle решения соревнуются алгоритмами в рамках фиксированных датасетов 2. В реальном мире конкурирует весь цикл ML производства 3. Побеждает тот, кто умеет выстроить эффективно полный цикл и влиять на качество конечного AI продукта за счет данных
  11. Разметка данных – часть ML конвейера 11

  12. 2. Разметка данных – высокотехнологичная отрасль, в которой заложены следующие

    прорывы в AI
  13. «Я тут думал, чем бы стал заниматься, если бы в

    качестве ML специалиста присоединился к команде качества поиска. И мой выбор - это даже не персонализация на трансформерах. Это качество экспертной разметки.» (с) Петр Попов, CTO Яндекса
  14. Разметка данных как инженерная задача Минимальные усилия тысяч людей Мудрость

    толпы как вычислительный кластер
  15. Разметка данных – это интересно 15

  16. 3. Нельзя забывать, что краудсорсинг – это про людей

  17. Разметка данных – это люди 17

  18. Crowd Science Initiative Воркшопы на мировых конференциях (NeurIPS, VLDB) Семинары

    на тему краудсорсинга каждые 2 недели Контест по агрегации данных Портал, посвященный Crowd Science Присоединяйтесь! https://www.meetup.com/crowd-science-seminar/
  19. Спасибо!