Slide 1

Slide 1 text

Crowdsourcing с механической поддержкой Октябрь 2020 1

Slide 2

Slide 2 text

Оценки в ML Коллективный бессознательный асессор (КБА) Как обуздать КБА Экзоскелет для КБА Модель как эксперт Выводы 2

Slide 3

Slide 3 text

Оценки в ML

Slide 4

Slide 4 text

Как мы делаем ML 3

Slide 5

Slide 5 text

Как мы делаем ML Какие свойства мы ожидаем от примеров и разметки? 3

Slide 6

Slide 6 text

Пробуем разрешить противоречия 4

Slide 7

Slide 7 text

Свойства контура оценки • Несмещенность по конечной метрике • Достаточная разрешающая способность • Актуальность по данным и по оценке 5

Slide 8

Slide 8 text

Свойства контура оценки • Несмещенность по конечной метрике • Достаточная разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок 5

Slide 9

Slide 9 text

Свойства контура оценки • Несмещенность по конечной метрике • Достаточная разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок ⇒ готовы вкладываться в новое знание 5

Slide 10

Slide 10 text

Свойства контура обучения • Больше данных! • Пока растет метрика – все приемы хороши • Не подглядывать 6

Slide 11

Slide 11 text

Свойства контура обучения • Больше данных! • Пока растет метрика – все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем 6

Slide 12

Slide 12 text

Свойства контура обучения • Больше данных! • Пока растет метрика – все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем ⇒ Обучение определяет оценку 6

Slide 13

Slide 13 text

Коллективный бессознательный асессор (КБА)

Slide 14

Slide 14 text

Коллективный бессознательный асессор Почему я не говорю про отдельных экспертов: 1. Мы редко оцениваем работу отдельного эксперта 2. Эксперты меняются во времени 3. Они общаются между собой! ⇒ В crowdsourcing’е наша задача не научить отдельных людей, а создать такие правила игры, которые приносят результат на доступной категории экспертов 7

Slide 15

Slide 15 text

Свойства КБА I Эксперты говорят то, что мы спрашиваем 8

Slide 16

Slide 16 text

Свойства КБА I Размер инструкции Google/Яндекс по разметке соответствия документов запросам 10 лет назад был > 100 стр. 9

Slide 17

Slide 17 text

Свойства КБА II Эксперты разные, и их цели не всегда совпадают с целями исследователя 10

Slide 18

Slide 18 text

Свойства КБА II 11

Slide 19

Slide 19 text

Свойства КБА III Оценка деятельности эксперта важна для него и должна быть ему понятна 12

Slide 20

Slide 20 text

Ответы получены ручным способом, или вы про навык скорочтения не слышали? в общем, так или иначе, напишите конкретно по каждому заданию, что нет? по какой причине в каждом задании отклонение? или прокляну за такое приход к неправильному выводу. надеюсь на понимание и ответственность Anonymous Toloker 13

Slide 21

Slide 21 text

Свойства КБА IV Эксперты – сообщество, структура которого и общение в котором может существенно повлиять на результат 14

Slide 22

Slide 22 text

Свойства КБА IV Good Judgment Project in collaboration with IARPA-ACE 15

Slide 23

Slide 23 text

Что мы хотим оптимизировать Ограничимся контуром обучения • Цена • Качество • Скорость 16

Slide 24

Slide 24 text

Что мы хотим оптимизировать Ограничимся контуром обучения • Цена • Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” 16

Slide 25

Slide 25 text

Что мы хотим оптимизировать Ограничимся контуром обучения • Цена • Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” ⇒ Эффективность конечной формулы оптимизации определяется ростом качества модели 16

Slide 26

Slide 26 text

Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы 17

Slide 27

Slide 27 text

Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы • Добавление роботов в оценку 17

Slide 28

Slide 28 text

Как обуздать КБА

Slide 29

Slide 29 text

Основные инструменты контроля качества 1. Обучение и контрольные задания 2. Honeypot’ы (ручные, автоматические) 3. Перекрытие и динамическое перекрытие 18

Slide 30

Slide 30 text

Немного о силе перекрытий • 1000 заданий • 0.01$ за задание • Эксперт говорит правду в 60% случаев 19

Slide 31

Slide 31 text

Экзоскелет для КБА

Slide 32

Slide 32 text

Ground truth inference Предсказать по набору решений какие из них истинны – нормальная математическая задачка, которую можно решать. ˆ Y = arg max Y ={li } i log P(li |Ji = {ji1, . . . , jiki }) Где j = (y, a, c), l, y ∈ Y – шкала оценок, a ∈ A –множество экспертов, c обобщенный контекст оценки. 20

Slide 33

Slide 33 text

Есть много способов решать эту задачу Yudian Zheng et al. Truth Inference in Crowdsourcing: Is the Problem Solved? VLDB 2017 21

Slide 34

Slide 34 text

Немного выводов из тестирования 1. Перекрытие+большинство достаточно, если перекрытий >20 2. Dawid & Skene (1979) работает в большинстве остальных случаев 3. Остальные методы выступают лишь в узких категориях 22

Slide 35

Slide 35 text

D&S в двух словах P(l|J = {ju}k 1 ) ∼ P(l|J, ˆ z) = k u=1 ˆ zI{y=y(ju)} a(ju)y(ju)l ˆ z = arg max z log   Y m i=1 y∈Y P(yi |Ji , z)   23

Slide 36

Slide 36 text

Пару слов о динамическом перекрытии • Аккуратное моделирование сложных случаев с увеличением перекрытия до значений > 20 позволяет не думать о GTI • Динамическое перекрытие позволяет понять разброс мнения и получить не точечную оценку, а “распределение” 24

Slide 37

Slide 37 text

Learning from Crowds Raykar at. al. Совместим в одной оптимизации железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 25

Slide 38

Slide 38 text

Параллельное моделирование оценки Raykar at. al. Совместим в одной оптимизации железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 26

Slide 39

Slide 39 text

Модель как эксперт

Slide 40

Slide 40 text

Почему вообще можно использовать модель в разметке? Проблема в систематической ошибке, которую дает нам модель. Тем не менее: • Мы свободно используем модель только для разметки в контуре обучения • В контуре оценки необходимо контролировать уровень смещения или вообще исключить применение моделей 27

Slide 41

Slide 41 text

Характеристики эксперта-модели + Не устает (не меняет характеристик со временем) + Заинтересована в успехе исследователя :) + Относительно бесплатна – Плохо реагирует на изменения в данных – Систематическая оценка, которая зависит от модели 28

Slide 42

Slide 42 text

Для чего мы можем использовать такого эксперта • Контроль за состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning 29

Slide 43

Slide 43 text

Для чего мы можем использовать такого эксперта • Контроль за состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning ⇒ можем “честно” сравнить с человеками 29

Slide 44

Slide 44 text

Выводы

Slide 45

Slide 45 text

На вынос • Чтобы ослабить требования к оценкам можно разделить разметку на два контура • Эксперты – социальное явление и нужно учитывать это их свойства • Существуют модели обучения, которые позволяют оценивать качество асессоров как с помощью данных так и нет • В контуре обучения (и, если акуратно, то в оценке) можно использовать робота 30

Slide 46

Slide 46 text

Бонус трек (Одна схема разметки) 31