De ASCII a Muppets - Ensinando uma máquina a ler (Arthur Camara)

ENSINANDO UMA MÁQUINA A LER DE ASCII AOS MUPPETS

OLAR QUEM SOU EU ▸ PhD - Information Retrieval ∩
NLP ▸ Web Information Systems Group - TU Delft ▸ Prof. Claudia Hauff ▸ BSc e MSc Ciência da Computação ▸ LATIN - UFMG (prof. Rodrygo Santos) ▸ Antigo Organizador do PyData! (SDDS)

OLAR UMA HISTORINHA. ▸ Meu PhD seria em Neural Information
Retrieval.

AUTOBOTS, ROLLOUT! EU DISSE SERIA. Attention is all you need
- Vaswani, et al., Dezembro 2017 (Google Brain)

AUTOBOTS, ROLLOUT! OU MELHOR…

AUTOBOTS, ROLLOUT! ESPECIFICAMENTE

MAS VAMOS COM CALMA. POR QUE?

Y THO POR QUE? ▸ Computadores são feitos para calcular.
▸ Computadores nada mais são que super calculadoras. Nada mais, nada menos. ▸ Como fazer para um computador entender palavras e letras?

Y THO DATASETS ▸ SQuAD (ALBERT) ▸ Pergunta e resposta,
extraindo de um texto ▸ GLUE (ERNIE) / SuperGLUE (T5, RoBERTa) ▸ Combinação de diversas tarefas (Q&A, compreensão de texto, geração de linguagem, etc) ▸ MsMARCO (BERT) ▸ Recuperação da Informação ▸ Com queries do BING, ranquear documentos, parágrafos ou frases-chave (BERT)

Y THO POR QUE?

VECTOR SPACE MODELS ONE-HOT Python R Haskell TAMANHO DO VOCABULÁRIO

VECTOR SPACE MODELS ONE-HOT - PROBLEMAS? Python R Haskell -
Desperdício de espaço! (Apesar de termos formas bem eﬁcientes de armazenar isso) - Quanto maior o vocabulário, maior a representação - Qualquer palavra é igualmente diferente de qualquer outra. - Python é bem mais parecido com R do que com Haskell, concorda?

CONHECERÁ UMA PALAVRA PELA COMPANHIA DELA. John Rupert Firth

VECTOR SPACE MODELS HIPÓTESE DISTRIBUTIVA Python Linguagem Programação Funcional tipada
Data Science Haskel Linguagem Programação Funcional tipada Data Science

LEARNED REPRESENTATIONS WORD2VEC A linguagem de programação python é usada
em data science Linguagem Programação Data Science Python

LEARNED REPRESENTATIONS WORD2VEC - + Pode ser pré-treinado e compartilhado!
- + Razoavelmente rápido (Gensim) - + Bastante efetivo! - - E palavras que estão fora do vocabulário? - - O sentido de uma palavra depende do seu contexto! (Manga vs manga)

HERE COME THE MUPPETS ELMO - TREINAMENTO ▸ Idéia principal:
A representação de uma palavra depende do seu contexto! ▸ Language Model: Prever uma palavra dado seu contexto FEED- FORWARD Science LSTM #1 Programação Python Data Programação Python Data LSTM #2

HERE COME THE MUPPETS ELMO - EXTRAIR FEATURES Programação Python
Data LSTM #1 LSTM #2 Programação Python Data Especíﬁco da tarefa Python

AUTOBOTS, ROLLOUT! TRANSFORMERS!!!! ▸ Transformer é uma “evolução” de redes
neurais recorrentes (como LSTM) ▸ MAS, com alto poder de paralelismo ▸ E muito menos parâmetros (teoricamente) https://colab.research.google.com/github/tensorﬂow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t.ipynb

BERT IS EVIL (?) BERT!

BERT IS EVIL (?) BERT - INPUT Aprendido Qual frase?
Posição (seno)

BERT IS EVIL (?) BERT - MODELO

IT’S DEMO TIME MELHOR MOSTRAR DO QUE FALAR https://colab.research.google.com/drive/1iD5e6s9ItmmETdaTXkYDM3FT7L1eVVUb ‣
Google colocou BERT em produção: ‣ https://www.blog.google/products/search/search-language-understanding-bert/ ‣ Em máquinas de buscas, o BERT é o novo estado da arte: ‣ Diagnosing BERT with Retrieval Heuristics - Arthur Câmara, ECIR’20, Abril 2020 ‣ The Neural Hype, Justiﬁed! A Recantation, Jimmy Lin, SIGIR Forum 53, 2 (Dezembro 2019)

E O QUE MAIS? ▸ XLNet - Resolve o problema
de limite de tokens (512) ▸ XLM - Cross-language - múltiplas linguagens em um modelo ▸ RoBERTA - Melhoras no treinamento do BERT, com mais dados. ▸ GPT-2 - “unicornios muito perigosos" ▸ T5 - Treinar um modelo ENORME para várias tarefas diferentes ▸ VideoBERT - BERT para video

VALEU! @ARTHURCAMARA [email protected]

De ASCII a Muppets - Ensinando uma máquina a le...

De ASCII a Muppets - Ensinando uma máquina a ler (Arthur Camara)

PyData BH

More Decks by PyData BH

Featured

Transcript

ENSINANDO UMA MÁQUINA A LER DE ASCII AOS MUPPETS

OLAR QUEM SOU EU ▸ PhD - Information Retrieval ∩

OLAR UMA HISTORINHA. ▸ Meu PhD seria em Neural Information

AUTOBOTS, ROLLOUT! EU DISSE SERIA. Attention is all you need

AUTOBOTS, ROLLOUT! OU MELHOR…

AUTOBOTS, ROLLOUT! ESPECIFICAMENTE

MAS VAMOS COM CALMA. POR QUE?

Y THO POR QUE? ▸ Computadores são feitos para calcular.

Y THO DATASETS ▸ SQuAD (ALBERT) ▸ Pergunta e resposta,

Y THO POR QUE?

VECTOR SPACE MODELS ONE-HOT Python R Haskell TAMANHO DO VOCABULÁRIO

VECTOR SPACE MODELS ONE-HOT - PROBLEMAS? Python R Haskell -

CONHECERÁ UMA PALAVRA PELA COMPANHIA DELA. John Rupert Firth

VECTOR SPACE MODELS HIPÓTESE DISTRIBUTIVA Python Linguagem Programação Funcional tipada

LEARNED REPRESENTATIONS WORD2VEC A linguagem de programação python é usada

LEARNED REPRESENTATIONS WORD2VEC - + Pode ser pré-treinado e compartilhado!

HERE COME THE MUPPETS ELMO - TREINAMENTO ▸ Idéia principal:

HERE COME THE MUPPETS ELMO - EXTRAIR FEATURES Programação Python

AUTOBOTS, ROLLOUT! TRANSFORMERS!!!! ▸ Transformer é uma “evolução” de redes

BERT IS EVIL (?) BERT!

BERT IS EVIL (?) BERT - INPUT Aprendido Qual frase?

BERT IS EVIL (?) BERT - MODELO

IT’S DEMO TIME MELHOR MOSTRAR DO QUE FALAR https://colab.research.google.com/drive/1iD5e6s9ItmmETdaTXkYDM3FT7L1eVVUb ‣

E O QUE MAIS? ▸ XLNet - Resolve o problema

VALEU! @ARTHURCAMARA [email protected]