Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Crowdsourcing - lessons learned from mistakes

Crowdsourcing - lessons learned from mistakes

A polish version of the presentation about crowdsourcing.

Kacper Łukawski

March 27, 2019
Tweet

More Decks by Kacper Łukawski

Other Decks in Research

Transcript

  1. Agenda: Czym tak właściwie jest crowdsourcing? Do czego wykorzystaliśmy go

    w Codete Proces etykietowania danych Ufać, ale kontrolować Znane przykłady crowdsourcingu Jak zaprojektować dobry crowdsourcing?
  2. • Uczenie maszynowe póki co stara się imitować ludzki umysł

    • Do nauczania modeli ML potrzebujemy danych • W przypadku niektórych modeli ciągle potrzebujemy mieć poetykietowane przykłady • Crowdsourcing to proces wykorzystywania mądrości tłumu Czym tak właściwie jest crowdsourcing?
  3. Jako firma potrzebowaliśmy wizualizacji, którą będziemy pokazywać na różnego rodzaju

    konferencjach IT - wybór padł na monitorowanie mediów społecznościowych w celu analizowania tego w jaki sposób postrzegane jest dane wydarzenie. Do czego wykorzystaliśmy go w Codete
  4. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  5. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  6. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  7. Na rynku jest dostępnych kilka narzędzi pozwalających na uruchomienie crowdsourcingu,

    m.in. • Amazon Mechanical Turk • Figure Eight Proces etykietowania danych
  8. Proces etykietowania danych 13884 wiadomości 3 zgodne głosy 200 wiadomości

    kontrolnych 9 zatrudnionych osób ~1600 zł brutto
  9. Test DANVA2 pozwala na określenie zdolności komunikacji niewerbalnej. Trzeba w

    nim zinterpretować stan emocjonalny innych osób na podstawie zdjęć (część pierwsza) oraz nagrań głosu (część druga). Ufać, ale kontrolować
  10. Lekcje wyciągnięte z naszej próby: • Zadanie nie powinno wymagać

    specjalistycznej wiedzy • Wstępna selekcja osób jest wymagana • Kontrola procesu w trakcie jego trwania jest niezbędna Jak zaprojektować dobry crowdsourcing?
  11. Grywalizacja jest metodą pozwalającą na zwiększenie zaangażowania ludzi w stosunku

    do zajęć, które mogą być nudne bądź rutynowe. Korzysta ona z metod znanych z gier komputerowych. Jak zaprojektować dobry crowdsourcing?