Crowdsourcing с механической поддержкой

Crowdsourcing с механической поддержкой Октябрь 2020 1

Оценки в ML Коллективный бессознательный асессор (КБА) Как обуздать КБА
Экзоскелет для КБА Модель как эксперт Выводы 2

Оценки в ML

Как мы делаем ML 3

Как мы делаем ML Какие свойства мы ожидаем от примеров
и разметки? 3

Пробуем разрешить противоречия 4

Свойства контура оценки • Несмещенность по конечной метрике • Достаточная
разрешающая способность • Актуальность по данным и по оценке 5

разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок 5

разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок ⇒ готовы вкладываться в новое знание 5

Свойства контура обучения • Больше данных! • Пока растет метрика
– все приемы хороши • Не подглядывать 6

– все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем 6

– все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем ⇒ Обучение определяет оценку 6

Коллективный бессознательный асессор (КБА)

Коллективный бессознательный асессор Почему я не говорю про отдельных экспертов:
1. Мы редко оцениваем работу отдельного эксперта 2. Эксперты меняются во времени 3. Они общаются между собой! ⇒ В crowdsourcing’е наша задача не научить отдельных людей, а создать такие правила игры, которые приносят результат на доступной категории экспертов 7

Свойства КБА I Эксперты говорят то, что мы спрашиваем 8

Свойства КБА I Размер инструкции Google/Яндекс по разметке соответствия документов
запросам 10 лет назад был > 100 стр. 9

Свойства КБА II Эксперты разные, и их цели не всегда
совпадают с целями исследователя 10

Свойства КБА II 11

Свойства КБА III Оценка деятельности эксперта важна для него и
должна быть ему понятна 12

Ответы получены ручным способом, или вы про навык скорочтения не
слышали? в общем, так или иначе, напишите конкретно по каждому заданию, что нет? по какой причине в каждом задании отклонение? или прокляну за такое приход к неправильному выводу. надеюсь на понимание и ответственность Anonymous Toloker 13

Свойства КБА IV Эксперты – сообщество, структура которого и общение
в котором может существенно повлиять на результат 14

Свойства КБА IV Good Judgment Project in collaboration with IARPA-ACE
15

Что мы хотим оптимизировать Ограничимся контуром обучения • Цена •
Качество • Скорость 16

Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” 16

Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” ⇒ Эффективность конечной формулы оптимизации определяется ростом качества модели 16

Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции
и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы 17

Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции
и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы • Добавление роботов в оценку 17

Как обуздать КБА

Основные инструменты контроля качества 1. Обучение и контрольные задания 2.
Honeypot’ы (ручные, автоматические) 3. Перекрытие и динамическое перекрытие 18

Немного о силе перекрытий • 1000 заданий • 0.01$ за
задание • Эксперт говорит правду в 60% случаев 19

Экзоскелет для КБА

Ground truth inference Предсказать по набору решений какие из них
истинны – нормальная математическая задачка, которую можно решать. ˆ Y = arg max Y ={li } i log P(li |Ji = {ji1, . . . , jiki }) Где j = (y, a, c), l, y ∈ Y – шкала оценок, a ∈ A –множество экспертов, c обобщенный контекст оценки. 20

Есть много способов решать эту задачу Yudian Zheng et al.
Truth Inference in Crowdsourcing: Is the Problem Solved? VLDB 2017 21

Немного выводов из тестирования 1. Перекрытие+большинство достаточно, если перекрытий >20
2. Dawid & Skene (1979) работает в большинстве остальных случаев 3. Остальные методы выступают лишь в узких категориях 22

D&S в двух словах P(l|J = {ju}k 1 ) ∼
P(l|J, ˆ z) = k u=1 ˆ zI{y=y(ju)} a(ju)y(ju)l ˆ z = arg max z log   Y m i=1 y∈Y P(yi |Ji , z)   23

Пару слов о динамическом перекрытии • Аккуратное моделирование сложных случаев
с увеличением перекрытия до значений > 20 позволяет не думать о GTI • Динамическое перекрытие позволяет понять разброс мнения и получить не точечную оценку, а “распределение” 24

Learning from Crowds Raykar at. al. Совместим в одной оптимизации
железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 25

Параллельное моделирование оценки Raykar at. al. Совместим в одной оптимизации
железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 26

Модель как эксперт

Почему вообще можно использовать модель в разметке? Проблема в систематической
ошибке, которую дает нам модель. Тем не менее: • Мы свободно используем модель только для разметки в контуре обучения • В контуре оценки необходимо контролировать уровень смещения или вообще исключить применение моделей 27

Характеристики эксперта-модели + Не устает (не меняет характеристик со временем)
+ Заинтересована в успехе исследователя :) + Относительно бесплатна – Плохо реагирует на изменения в данных – Систематическая оценка, которая зависит от модели 28

Для чего мы можем использовать такого эксперта • Контроль за
состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning 29

Для чего мы можем использовать такого эксперта • Контроль за
состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning ⇒ можем “честно” сравнить с человеками 29

Выводы

На вынос • Чтобы ослабить требования к оценкам можно разделить
разметку на два контура • Эксперты – социальное явление и нужно учитывать это их свойства • Существуют модели обучения, которые позволяют оценивать качество асессоров как с помощью данных так и нет • В контуре обучения (и, если акуратно, то в оценке) можно использовать робота 30

Бонус трек (Одна схема разметки) 31

Crowdsourcing с механической поддержкой

Crowdsourcing с механической поддержкой

More Decks by Machinelearner

Featured

Transcript