Crowdsourcing - lessons learned from mistakes

Crowdsourcing - lessons learned from mistakes

A polish version of the presentation about crowdsourcing.

308c44d9a8939c8253a81a7afca54793?s=128

Kacper Łukawski

March 27, 2019
Tweet

Transcript

  1. 21. marca, 2019 - Data Science Lublin #3

  2. Agenda: Czym tak właściwie jest crowdsourcing? Do czego wykorzystaliśmy go

    w Codete Proces etykietowania danych Ufać, ale kontrolować Znane przykłady crowdsourcingu Jak zaprojektować dobry crowdsourcing?
  3. • Uczenie maszynowe póki co stara się imitować ludzki umysł

    • Do nauczania modeli ML potrzebujemy danych • W przypadku niektórych modeli ciągle potrzebujemy mieć poetykietowane przykłady • Crowdsourcing to proces wykorzystywania mądrości tłumu Czym tak właściwie jest crowdsourcing?
  4. Jako firma potrzebowaliśmy wizualizacji, którą będziemy pokazywać na różnego rodzaju

    konferencjach IT - wybór padł na monitorowanie mediów społecznościowych w celu analizowania tego w jaki sposób postrzegane jest dane wydarzenie. Do czego wykorzystaliśmy go w Codete
  5. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  6. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  7. Do czego wykorzystaliśmy go w Codete

  8. Do czego wykorzystaliśmy go w Codete • Faza pierwsza: Użyjmy

    gotowych narzędzi do analizy sentymentu (OpenNLP) • Faza druga: Napiszemy własne rozwiązanie, ale wykorzystamy publiczne dane • Faza trzecia: Potrzebujemy danych dopasowanych do problemu. Zbierzmy je sami! Nie można wymagać od systemu opartego o ML, że nauczy się generalizować i rozpoznawać język którego nigdy nie widział.
  9. Do czego wykorzystaliśmy go w Codete

  10. Na rynku jest dostępnych kilka narzędzi pozwalających na uruchomienie crowdsourcingu,

    m.in. • Amazon Mechanical Turk • Figure Eight Proces etykietowania danych
  11. Proces etykietowania danych

  12. Proces etykietowania danych 13884 wiadomości

  13. Proces etykietowania danych 13884 wiadomości 3 zgodne głosy

  14. Proces etykietowania danych 13884 wiadomości 3 zgodne głosy 200 wiadomości

    kontrolnych
  15. Proces etykietowania danych 13884 wiadomości 3 zgodne głosy 200 wiadomości

    kontrolnych 9 zatrudnionych osób
  16. Proces etykietowania danych 13884 wiadomości 3 zgodne głosy 200 wiadomości

    kontrolnych 9 zatrudnionych osób ~1600 zł brutto
  17. Proces etykietowania danych

  18. Ufać, ale kontrolować

  19. Ufać, ale kontrolować

  20. Test DANVA2 pozwala na określenie zdolności komunikacji niewerbalnej. Trzeba w

    nim zinterpretować stan emocjonalny innych osób na podstawie zdjęć (część pierwsza) oraz nagrań głosu (część druga). Ufać, ale kontrolować
  21. Ufać, ale kontrolować

  22. Ufać, ale kontrolować

  23. Ufać, ale kontrolować

  24. Ufać, ale kontrolować

  25. reCAPTCHA Znane przykłady crowdsourcingu

  26. Crowdsource Znane przykłady crowdsourcingu

  27. #10yearschallenge Znane przykłady crowdsourcingu

  28. Lekcje wyciągnięte z naszej próby: • Zadanie nie powinno wymagać

    specjalistycznej wiedzy • Wstępna selekcja osób jest wymagana • Kontrola procesu w trakcie jego trwania jest niezbędna Jak zaprojektować dobry crowdsourcing?
  29. Jak zaprojektować dobry crowdsourcing?

  30. Grywalizacja jest metodą pozwalającą na zwiększenie zaangażowania ludzi w stosunku

    do zajęć, które mogą być nudne bądź rutynowe. Korzysta ona z metod znanych z gier komputerowych. Jak zaprojektować dobry crowdsourcing?
  31. Dziękuję! Kacper Łukawski kacper.lukawski@codete.com

  32. A Mona Lisa wygląda tak...