paper_talk_transformer_nlp

Autour des modèles de Transformers ( NLP) Florian LABORDE Direction
interministérielle du numérique Etalab

Attention Layers [1]

Attention Layers: Corrélation et alignement Figure 1: Corrélation entre deux
phrases traduction Français/Anglais [2] Le mécanisme d'attention décris la détection du lien de corrélation entre deux éléments par apprentissage à l'aide d'un réseau de neurone. Il sait sur quels mots xer son attention car il a appris à le faire sur des millions d'exemples en évaluant l'ecacité de chaque alignement essayé durant l'apprentissage. 1

Fonctionnement du transformer [3] (ex: traduction) 2

Exemple du mécanisme d'attention self-attention (ex: compréhension) Figure 2: Exemple:
Attention Head [4] Mécanisme d'attention: Chaque Attention head est une couleur. Essaye de déterminer si it concerne la rue ou l'animal. 3

Attention Layers: Les avancées Evolution principales Changement d'architecture RNNs/LSTMs
vers Transformer pour la plupart de l'état de l'art NLP. Plus de problème de longues séquences. Gradient mieux conservé Meilleure mise en correspondance des contexte des phrases, plus de contraintes d'ordre dans la phrase. Exécution plus rapide 4

BERT [5]

BERT, le transformer de référence Caractéristiques principales Solution complète
équivalente ou meilleure que les modèle basé sur RNNs/LSTMs Lecture des phrase bidirectionnelle (droite -> gauche puis gauche ->droite) donne un contexte global à chaque mot, évolution par rapport à ELMO [6]. Entrainement en deux temps: Pre-training (langage général) Fine-Tuning (tâche spécique) Pre-entrainement sur deux tâches: Texte à trou - Cloze (MLM) et Prédiction de phrase suivante (NSP) Entraînement en dualité: phrase A/B 5

MLM Figure 3: Masked Language Model [3] 6

NSP Figure 4: Next Sentence Prediction [3] 7

Sentence-BERT [7] et recherche de similarité

Pourquoi BERT ne fonctionne pas en recherche de similarité ?
Des raisons techniques BERT traite des tâche complexes. Il répond rapidement à une requête précise. Mais il ne donne pas de caractérisation globale d'une phrase par rapport aux autres. Lors de la recherche de similarité il faut donc exécuter une étude de similarité pour tous les couples de phrases possibles. Supposons que l'on ait n = 10000 phrases, trouver le couple présentant la plus grande similarité avec notre phrase de recherche requiert avec BERT n(n − 1)/2 = 49995000 calculs d'inférence, ce qui représente environ 65 heures de calcul sur un GPU moderne (V100). Des raisons de construction du réseau BERT n'est pas un modèle d'Embedding, les poids sur la dernière couche n'ont qu'une signication pour répondre à une certaine tâche BERT est prévu pour produire un résultat et une réponse à un problème sans que l'on puisse réutiliser les étapes intermédiaire de son extraction pour d'autres tâches. Une grande partie du fonctionnement de BERT est prévu en dualité avec une seconde phrase 8

Sentence-BERT pour la recherche de similarité Caractéristiques principales Retour
à une nalité d'embedding : chaque phrase correspond à un vecteur Changement d'architecture (réseau Siamois) Entraînement sur des jeux de données avec une interaction globale entre les phrases Figure 5: Réseau Siamois de SBERT [7] 9

La question de la langue française

Les jeux de données francophones vs les datasets anglophones Jeux
de données francophones Wikipédia Common Crawl (OSCAR, CCNet) FQuAD Piaf [8] Datasets anglophones Wikipedia Common Crawl BooksCorpus SQuAD, SQuAD v2 SNLI, MultiNLI QNLI, CoLA, STS-B, RTE, MRPC, SST-2, QQP ....... Modèles pré-entrainés [FR] CamemBERT [9] FlauBERT [10] Très peu de ne-tuning existants Modèles [EN] BERT SBERT Innité de versions ne-tunées 10

Solution: Multilingue et Teacher/Student Knowledge Distillation [11]

SBERT Multilingue Jeux de données multilingues Europarl OpenSubtitles
UNPC TED2020 Le principe de l'approche Multilingue est d'utiliser l'apprentissage sur des jeux de données annotées monolingues, puis de se servir de textes dont la traduction existe (sans aucune contrainte sur ces textes et sans annotation nécessaire) pour transposer l'apprentissage d'une langue à une autre. Figure 6: Knowledge Distillation - Teacher/Student [11] 11

References i A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit,
L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention Is All You Need, arXiv:1706.03762 [cs], Dec. 2017. arXiv: 1706.03762. D. Bahdanau, K. Cho, and Y. Bengio, Neural Machine Translation by Jointly Learning to Align and Translate, arXiv:1409.0473 [cs, stat], May 2016. arXiv: 1409.0473. J. Alammar, The Illustrated Transformer, June 27 - 2018. J. Uszkoreit, Transformer: A Novel Neural Network Architecture for Language Understanding, August - 2017. 12

References ii J. Devlin, M.-W. Chang, K. Lee, and K.
Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 [cs], May 2019. arXiv: 1810.04805. M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, Deep contextualized word representations, CoRR, vol. abs/1802.05365, 2018. N. Reimers and I. Gurevych, Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv:1908.10084 [cs], Aug. 2019. arXiv: 1908.10084. R. Keraron, G. Lancrenon, M. Bras, F. Allary, G. Moyse, T. Scialom, E.-P. Soriano-Morales, and J. Staiano, Project PIAF: Building a Native French Question-Answering Dataset, in Proceedings of The 12th Language Resources and Evaluation Conference, (Marseille, France), pp. 54815490, European Language Resources Association, May 2020. 13

References iii L. Martin, B. Muller, P. J. Ortiz Suárez,
Y. Dupont, L. Romary, r. de la Clergerie, D. Seddah, and B. Sagot, CamemBERT: a Tasty French Language Model, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, (Online), pp. 72037219, Association for Computational Linguistics, July 2020. H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabbé, L. Besacier, and D. Schwab, FlauBERT: Unsupervised Language Model Pre-training for French, arXiv:1912.05372 [cs], Mar. 2020. arXiv: 1912.05372. N. Reimers and I. Gurevych, Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation, arXiv:2004.09813 [cs], Apr. 2020. arXiv: 2004.09813. 14

paper_talk_transformer_nlp

paper_talk_transformer_nlp

etalab-ia

More Decks by etalab-ia

Featured

Transcript

Autour des modèles de Transformers ( NLP) Florian LABORDE Direction

Attention Layers [1]

Attention Layers: Corrélation et alignement Figure 1: Corrélation entre deux

Fonctionnement du transformer [3] (ex: traduction) 2

Exemple du mécanisme d'attention self-attention (ex: compréhension) Figure 2: Exemple:

Attention Layers: Les avancées Evolution principales Changement d'architecture RNNs/LSTMs

BERT [5]

BERT, le transformer de référence Caractéristiques principales Solution complète

MLM Figure 3: Masked Language Model [3] 6

NSP Figure 4: Next Sentence Prediction [3] 7

Sentence-BERT [7] et recherche de similarité

Pourquoi BERT ne fonctionne pas en recherche de similarité ?

Sentence-BERT pour la recherche de similarité Caractéristiques principales Retour

La question de la langue française

Les jeux de données francophones vs les datasets anglophones Jeux

Solution: Multilingue et Teacher/Student Knowledge Distillation [11]

SBERT Multilingue Jeux de données multilingues Europarl OpenSubtitles

References i A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit,

References ii J. Devlin, M.-W. Chang, K. Lee, and K.

References iii L. Martin, B. Muller, P. J. Ortiz Suárez,