Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenTalks.AI - Ольга Мегорская, Мы в ответе за...

opentalks3
February 05, 2021

OpenTalks.AI - Ольга Мегорская, Мы в ответе за то, на чем обучились: разметка данных как ключевая часть производства AI продуктов

opentalks3

February 05, 2021
Tweet

More Decks by opentalks3

Other Decks in Business

Transcript

  1. Ольга Мегорская, CEO Толоки Мы в ответе за то, на

    чем обучились: разметка данных как ключевая часть производства AI продуктов Toloka.ai
  2. Растёт с ростом AI Активных проектов Активных толокеров 4.1M 2020

    2019 2018 2017 2016 2015 2014 2.2M 1.1M 570K 270K 120K 9K 10.1K 2020 2019 2018 2017 2016 2015 2014 4055 2123 1612 1214 443 57
  3. Выходит на глобальный уровень * Новые регионы добавляются при большом

    заказе Argentina Cote d'Ivoire France India Philippines Tunisia Morocco Turkey Ukraine Brazil Russia Топ стран по кол-ву активных толокеров* ∙ English ∙ Spanish ∙ Arabic ∙ Portuguese ∙ Russian ∙ Ukrainian ∙ French ∙ German ∙ Italian ∙ Polish ∙ Latvian ∙ Bulgarian ∙ Czech ∙ Turkish ∙ Hindi ∙ Vietnamese ∙ Japanese ∙ Chinese ∙ Korean ∙ Indonesian 9+ миллионов толокеров со всего мира Kenya Pakistan Venezuela Egypt Mexico Nigeria Peru Portugal Spain USA Vietnam Топ языков*
  4. Каждый день в Толоке 600+ активных проектов 41 000+ толокеров,

    получивших деньги 15 000 000+ выполненных заданий IOS, Android, Desktop
  5. Разметка данных – часть ML конвейера 10 1. Только в

    Kaggle решения соревнуются алгоритмами в рамках фиксированных датасетов 2. В реальном мире конкурирует весь цикл ML производства 3. Побеждает тот, кто умеет выстроить эффективно полный цикл и влиять на качество конечного AI продукта за счет данных
  6. «Я тут думал, чем бы стал заниматься, если бы в

    качестве ML специалиста присоединился к команде качества поиска. И мой выбор - это даже не персонализация на трансформерах. Это качество экспертной разметки.» (с) Петр Попов, CTO Яндекса
  7. Crowd Science Initiative Воркшопы на мировых конференциях (NeurIPS, VLDB) Семинары

    на тему краудсорсинга каждые 2 недели Контест по агрегации данных Портал, посвященный Crowd Science Присоединяйтесь! https://www.meetup.com/crowd-science-seminar/