Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Afinal, o que é esse tal de Machine Learning?

Carla Vieira
February 13, 2019

Afinal, o que é esse tal de Machine Learning?

Palestra apresentada na Campus Party Brasil 12.

Nesta palestra, a ideia é desmistificar alguns conceitos sobre Inteligência participal e principalmente Machine Learning e refletir sobre como ele tem revolucionado as nossas vidas. Não à toa, empresas como Google, IBM, Microsoft, Amazon têm direcionado times inteiros para desenvolver tecnologias de análise de dados. Quais são as tecnologias e ferramentas por trás desse conceito? E qual o nosso papel em tudo isso? O objetivo é apresentar algumas aplicações reais de como essa tecnologia tem mudado o mercado e explicar alguns conceitos básicos dos algoritmos responsáveis por essas automações isso.

Carla Vieira

February 13, 2019
Tweet

More Decks by Carla Vieira

Other Decks in Technology

Transcript

  1. Quem sou eu? Graduanda de Sistemas de Informação - USP

    Apaixonada por Data Science e Business Intelligence @carlaprvieira @carlaprv
  2. Agenda 01 02 03 04 Big Data e Mineração de

    Dados IA X ML Ferramentas utilizadas Exemplo prático de mineração de textos Conclusão, carreira e dicas de estudo
  3. Zetta = 1021 Crescimento exponencial do volume de dados Tecnologias

    como celulares e o uso constante de aplicativos de redes sociais resultaram em um rápido crescimento no volume de dados
  4. O que é Mineração de Dados? Data Mining define o

    processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.
  5. Sabedoria Conhecimento com contexto Conhecimento Informação com contexto Informação Dados

    com contexto Dados Representação de fatos Cadeia de Valor do Conhecimento (Davenport e Prusak - 1998)
  6. “Um dado não vira informação se você não souber o

    que ele significa; uma informação não vira conhecimento se você não enxergar relevância nela e conhecimento não serve pra nada se não aplicá-lo de maneira apropriada.”
  7. Processo Knowledge Discovery in Databases (KDD) -1989 Dados Dados de

    interesse Dados pré-processados Dados formados Padrões CONHECIMENTO Seleção Pré-processamento Formatação Mineração Interpretação
  8. “Um programa de computador aprende se ele é capaz de

    melhorar seu desempenho em determinada tarefa, sob alguma medida de avaliação, a partir de experiências passadas.” (Tom Mitchell)
  9. Classificação Aprendizagem Supervisionada Aprendizado Indutivo Aprendizagem não supervisionada Regressão Agrupamento

    Sumarização Métodos de Mineração de Dados Associação ➔ Árvores de decisão ➔ KNN ➔ Redes Neurais ➔ SOM ➔ K-means
  10. Objetivo Encontrar uma maneira de agrupar automaticamente estas notícias em

    grupos que são de alguma forma semelhantes ou relacionadas por diferentes variáveis.
  11. Seleção de dados Dados Dados de interesse Seleção Corpora BBC

    (2225 notícias em inglês) 20.246 termos distintos http://mlg.ucd.ie/howmanytopics/index.html
  12. Etapas do pré-processamento Case Folding 1 Tokenização 2 Remoção de

    stop words 3 Redução ao radical 4 Corte de termos 5
  13. 1) Case Folding Converter todas as palavras para minúsculas ou

    maiúsculas Por quê? A mesma palavra seria contada muitas vezes por diferentes escritas Exemplo: Amor e amor (seriam consideradas palavras diferentes)
  14. 2) Tokenização 1) u.s foi transformado em usa; 2) palavras

    compostas com hífen foram unidas; 3) expressões que continham subtraço (_) foram separadas Tokens com menos de 3 caracteres foram retirados da lista from nltk import regexp_tokenize
  15. 3) Remoção de stop words O que são stop words

    (ou palavras vazias)? Lista de stop words da NLTK a, agora, ainda, alguém, algum, alguma, meus, minha, minhas, muita, muitas, muito, muitos, na, não, nas, nem, nenhum, a, able, about, across, after, all, almost, also, am, among, an, and, any, are, as, at, be, because, been, but, by, can, cannot,
  16. 4) Redução ao radical (Stemming) Playing Plays Played Play Play

    Play Radical comum é ‘play’ from nltk import SnowballStemmer
  17. 5) Corte de termos Termo aparece em menos de 3

    textos Termo aparece em mais de 35% dos textos Termo é excluído da lista
  18. Representação binária Texto 0 termo 0 termo 1 termo 2

    ….. termo n 1 0 1 1 1 0 0 1 1 0 1 1 0 1 0 0 0 1 0 0 1 1 1 0 1 Texto 1 Texto 2 Texto …. Texto 2225
  19. Representação TF Texto 0 termo 0 termo 1 termo 2

    ….. termo n 2 0 5 0 15 7 0 1 1 0 1 1 0 1 0 0 0 1 0 0 1 1 1 0 1 Texto 1 Texto 2 Texto …. Texto 2225
  20. Algoritmo k-means (agrupamento) Algoritmo de aprendizado não supervisionado Objetivo: agrupar

    elementos em K grupos No nosso caso… iremos agrupar notícias da BBC
  21. Qual o critério de agrupamento? O que determina que 2

    textos são semelhantes e deveriam pertencer ao mesmo grupo?
  22. Entradas do algoritmo Elementos (textos): 2225 textos Quantidade de grupos

    esperada (k): 5 grupos Tipo de distância utilizada: cosseno Número de iterações (condição de parada): 30 épocas
  23. Saídas do algoritmo Log de execução Para cada iteração do

    algoritmo, como os textos foram agrupados
  24. Saídas do algoritmo Silhouette - cálculo do quão bem representado

    aquele texto está no grupo dele 1 -1 0 Bem classificado no grupo Mal classificado no grupo
  25. Saídas do algoritmo Arquivos para pós-processamento Nuvem de palavras para

    cada grupo https://worditout.com/word-cloud/create
  26. Referências Machine Learning • https://stanford.edu/~shervine/l/pt/teaching/cs-229/dicas-truques-aprendizado-maq uina • https://stanford.edu/~shervine/l/pt/teaching/cs-229/dicas-aprendizado-supervisiona do •

    https://stanford.edu/~shervine/l/pt/teaching/cs-229/dicas-aprendizado-nao-supervisi onado • https://hackernoon.com/best-machine-learning-libraries-for-java-development-4ecc b88e1348 • https://medium.com/nexo-ai/machine-learning-x-deep-learning-qual-a-diferen%C3% A7a-entre-eles-665c0739f78a