Upgrade to Pro — share decks privately, control downloads, hide ads and more …

paper_talk_transformer_nlp

etalab-ia
July 31, 2020
150

 paper_talk_transformer_nlp

etalab-ia

July 31, 2020
Tweet

Transcript

  1. Attention Layers: Corrélation et alignement Figure 1: Corrélation entre deux

    phrases traduction Français/Anglais [2] Le mécanisme d'attention décris la détection du lien de corrélation entre deux éléments par apprentissage à l'aide d'un réseau de neurone. Il sait sur quels mots xer son attention car il a appris à le faire sur des millions d'exemples en évaluant l'ecacité de chaque alignement essayé durant l'apprentissage. 1
  2. Exemple du mécanisme d'attention self-attention (ex: compréhension) Figure 2: Exemple:

    Attention Head [4] Mécanisme d'attention: Chaque Attention head est une couleur. Essaye de déterminer si it concerne la rue ou l'animal. 3
  3. Attention Layers: Les avancées Evolution principales ˆ Changement d'architecture RNNs/LSTMs

    vers Transformer pour la plupart de l'état de l'art NLP. ˆ Plus de problème de longues séquences. Gradient mieux conservé ˆ Meilleure mise en correspondance des contexte des phrases, plus de contraintes d'ordre dans la phrase. ˆ Exécution plus rapide 4
  4. BERT, le transformer de référence Caractéristiques principales ˆ Solution complète

    équivalente ou meilleure que les modèle basé sur RNNs/LSTMs ˆ Lecture des phrase bidirectionnelle (droite -> gauche puis gauche ->droite) donne un contexte global à chaque mot, évolution par rapport à ELMO [6]. ˆ Entrainement en deux temps: Pre-training (langage général) Fine-Tuning (tâche spécique) ˆ Pre-entrainement sur deux tâches: Texte à trou - Cloze (MLM) et Prédiction de phrase suivante (NSP) ˆ Entraînement en dualité: phrase A/B 5
  5. Pourquoi BERT ne fonctionne pas en recherche de similarité ?

    Des raisons techniques BERT traite des tâche complexes. Il répond rapidement à une requête précise. Mais il ne donne pas de caractérisation globale d'une phrase par rapport aux autres. Lors de la recherche de similarité il faut donc exécuter une étude de similarité pour tous les couples de phrases possibles. Supposons que l'on ait n = 10000 phrases, trouver le couple présentant la plus grande similarité avec notre phrase de recherche requiert avec BERT n(n − 1)/2 = 49995000 calculs d'inférence, ce qui représente environ 65 heures de calcul sur un GPU moderne (V100). Des raisons de construction du réseau ˆ BERT n'est pas un modèle d'Embedding, les poids sur la dernière couche n'ont qu'une signication pour répondre à une certaine tâche ˆ BERT est prévu pour produire un résultat et une réponse à un problème sans que l'on puisse réutiliser les étapes intermédiaire de son extraction pour d'autres tâches. ˆ Une grande partie du fonctionnement de BERT est prévu en dualité avec une seconde phrase 8
  6. Sentence-BERT pour la recherche de similarité Caractéristiques principales ˆ Retour

    à une nalité d'embedding : chaque phrase correspond à un vecteur ˆ Changement d'architecture (réseau Siamois) ˆ Entraînement sur des jeux de données avec une interaction globale entre les phrases Figure 5: Réseau Siamois de SBERT [7] 9
  7. Les jeux de données francophones vs les datasets anglophones Jeux

    de données francophones ˆ Wikipédia ˆ Common Crawl (OSCAR, CCNet) ˆ FQuAD ˆ Piaf [8] Datasets anglophones ˆ Wikipedia ˆ Common Crawl ˆ BooksCorpus ˆ SQuAD, SQuAD v2 ˆ SNLI, MultiNLI ˆ QNLI, CoLA, STS-B, RTE, MRPC, SST-2, QQP ....... Modèles pré-entrainés [FR] ˆ CamemBERT [9] ˆ FlauBERT [10] ˆ Très peu de ne-tuning existants Modèles [EN] ˆ BERT ˆ SBERT ˆ Innité de versions ne-tunées 10
  8. SBERT Multilingue Jeux de données multilingues ˆ Europarl ˆ OpenSubtitles

    ˆ UNPC ˆ TED2020 Le principe de l'approche Multilingue est d'utiliser l'apprentissage sur des jeux de données annotées monolingues, puis de se servir de textes dont la traduction existe (sans aucune contrainte sur ces textes et sans annotation nécessaire) pour transposer l'apprentissage d'une langue à une autre. Figure 6: Knowledge Distillation - Teacher/Student [11] 11
  9. References i A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit,

    L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention Is All You Need, arXiv:1706.03762 [cs], Dec. 2017. arXiv: 1706.03762. D. Bahdanau, K. Cho, and Y. Bengio, Neural Machine Translation by Jointly Learning to Align and Translate, arXiv:1409.0473 [cs, stat], May 2016. arXiv: 1409.0473. J. Alammar, The Illustrated Transformer, June 27 - 2018. J. Uszkoreit, Transformer: A Novel Neural Network Architecture for Language Understanding, August - 2017. 12
  10. References ii J. Devlin, M.-W. Chang, K. Lee, and K.

    Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 [cs], May 2019. arXiv: 1810.04805. M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, Deep contextualized word representations, CoRR, vol. abs/1802.05365, 2018. N. Reimers and I. Gurevych, Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv:1908.10084 [cs], Aug. 2019. arXiv: 1908.10084. R. Keraron, G. Lancrenon, M. Bras, F. Allary, G. Moyse, T. Scialom, E.-P. Soriano-Morales, and J. Staiano, Project PIAF: Building a Native French Question-Answering Dataset, in Proceedings of The 12th Language Resources and Evaluation Conference, (Marseille, France), pp. 54815490, European Language Resources Association, May 2020. 13
  11. References iii L. Martin, B. Muller, P. J. Ortiz Suárez,

    Y. Dupont, L. Romary, r. de la Clergerie, D. Seddah, and B. Sagot, CamemBERT: a Tasty French Language Model, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, (Online), pp. 72037219, Association for Computational Linguistics, July 2020. H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabbé, L. Besacier, and D. Schwab, FlauBERT: Unsupervised Language Model Pre-training for French, arXiv:1912.05372 [cs], Mar. 2020. arXiv: 1912.05372. N. Reimers and I. Gurevych, Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation, arXiv:2004.09813 [cs], Apr. 2020. arXiv: 2004.09813. 14