Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Women's March Analysis - Izabella Borges

PyData BH
August 23, 2018

Women's March Analysis - Izabella Borges

PyData BH

August 23, 2018
Tweet

More Decks by PyData BH

Other Decks in Education

Transcript

  1. 01 IZABELA BORGES • Cientista de Dados @ HEKIMA •

    Co-organizadora do PyData • Co-fundadora do Escola de Férias @ PUC Minas twitter/ig: @belacb_ github: izabelacborges www.izabelacborges.com
  2. 03 21 JANEIRO 2017 DIREITOS DAS MULHERES REFORMA DA IMIGRAÇÃO

    REFORMA DA SAÚDE DIREITOS REPRODUTIVOS MEIO AMBIENTE DIREITOS DOS TRABALHADORES IGUALDADE RACIAL DIREITOS LGBT LIBERDADE DE RELIGIÃO
  3. Foi o maior protesto na história dos Estados Unidos a

    acontecer em um único dia, e a maior demonstração política já registrada em Washington, D.C. 1.000.216 pessoas presentes em Washington, D.C. 04
  4. 05

  5. Twitter Women's March 330M usuários/mês 500M tweets/dia 80% usuários em

    mobile 3M usuários/dia 854.811 tweets/dia 92% usuários em mobile 09
  6. 10

  7. 11

  8. 12

  9. Um Lexicon de sentimentos contém listas de palavras e expressões

    usadas para expressar sentimentos positivos ou negativos e opiniões subjetivas presentes em um texto. Lexicons geralmente são divididos em unigramas, bigramas e pares. Unigramas são palavras únicas, bigramas são pares de palavras, e pares podem ser um par de unigramas, bigramas, ou unigrama-bigrama. 19
  10. Existem atualmente três maneiras de se compor um lexicon: -

    Manualmente, usando mão de obra humana como no Amazon Mechanical Turk; - Método dicionário, onde se utiliza uma lista curta de palavras e um programa que procura recursivamente por todos os sinônimos à essas palavras em um dicionário; - Método Corpus, em que se utilizam extensas bases rotuladas para mineração de texto e treino. 20
  11. 22

  12. A Análise de Sentimentos é uma mineração contextual de texto

    que identifica e extrai informações subjetivas na corpora de texto usada para análise. Sua maior aplicação atual em mercado, é ajudar empresas a entender o sentimento social da sua própria marca, produto ou serviço processando interações em redes sociais como Twitter, Facebook e Instagram. 23
  13. Alguns desafios atuais da análise de sentimentos são a identificação

    de sarcasmo, estudo de contexto e intenção, reconhecimento de entidades, classificação de emojis e erros ortográficos. Com os recentes avanços em Deep Learning, a capacidade dos algoritmos de analisar o texto melhorou consideravelmente, e alguns estudos já mostram avanços em identificação de sarcasmo, estudo de contexto e classificação de emojis. 24
  14. Existem atualmente duas técnicas de análise de sentimentos: - Baseadas

    em Machine Learning, são eficazes em contexto de aprendizado supervisionado, ou seja, existe uma base de dados rotulada (input e output); - Baseadas em Lexicons, são eficazes em contexto de aprendizado não supervisionado, onde não há rótulos de saída esperada. 25
  15. 26 Bibliotecas utilizadas: - pandas: biblioteca de análise de dados;

    - os: biblioteca padrão para manipulação do S.O.; - re, string: bibliotecas padrão para processamento de texto; - glob: biblioteca de manipulação de arquivos no S.O.; - nltk: biblioteca de processamento e tokenização; - TextBlob: biblioteca de análise básica de texto;
  16. 27 Foram três abordagens: 1. Análise inicial com o TextBlob,

    uma biblioteca de processamento de texto; 2. Rede Neural treinada com avaliações de filmes no IMDb; 3. Análise Lexicon-based, com contagem de termos (unigramas e bigramas).
  17. 28 Nossa análise passa pelos seguintes passos: 1. Transformação de

    IDs para tweet objects; 2. Limpeza de atributos dos dados; 3. Análise estatística básica geral; 4. Redução de ruído e retirada de textos duplicados; 5. Criação dos modelos; 6. Classificação de sentimentos; 7. Análise estatística básica dos sentimentos.
  18. 29

  19. 30

  20. 31

  21. 32 O TextBlob utiliza uma combinação de análise de padrões

    e análise probabilística. A Rede Neural é treinada em avaliações de filmes recolhidas pelo projeto CoreNLP de Stanford no site IMDb. A abordagem lexicon-based é feita por reconhecimento de padrões no texto, utilizando unigramas e bigramas de um lexicon feito manualmente para análises de textos em redes sociais.
  22. 33

  23. 42 Alguns pontos fracos na análise utilizando a Rede Neural:

    - O texto de treinamento, por ter um contexto muito diferente do estudado, tem um número muito alto de erros de classificação; - Como tweets são um tipo de texto não classificado, onde a classificação seria manual, não é factível treiná-lo.
  24. 43 Alguns pontos fracos na análise utilizando o lexicon: -

    O lexicon precisa ser específico para o assunto da análise. Mesmo estando no mesmo contexto (redes sociais), a análise foi fraca; - Utilizar pares de negação-unigrama ou negação-bigrama não foi possível, mas melhoraria nossa análise.
  25. 44 Outras melhorias futuras seriam: processamento de negação, identificação de

    entidade, identificação de sarcasmo, e conseguir processar mais abreviações, erros ortográficos e gírias.
  26. 46