Natural Language Processing Expert Briefing @ PyData Global 2022

Natural Language Processing   Trends, Challenges and Opportunities @MarcoBonzanini  
marcobonzanini.com PyData Global 2022

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Agenda for Today •
Quick overview on NLP and current trends • Round table discussion • Your challenges? • Your success stories? 2

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Nice to meet you
• Consulting, training and coaching   on Python + Data Science • Chair @ PyData London 3

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Language is Challenging •
Language is evolving         6

Language is evolving • Language is ambiguous     7

Language is evolving • Language is ambiguous • (Understanding) Language requires context 8

© Bonzanini Consulting Ltd — BonzaniniConsulting.com We need annotated data
9

• Variability: domains and languages               10

• Variability: domains and languages • Available data: sparse+biased?           11

• Variability: domains and languages • Available data: sparse+biased? • Annotated data is the bottleneck       12

• Variability: domains and languages • Available data: sparse+biased? • Annotated data is the bottleneck • Vincent Warmerdam on Tools to Improve Training Data: https://www.youtube.com/watch?v=KRQJDLyc1uM 13

© Bonzanini Consulting Ltd — BonzaniniConsulting.com 15 Evolution of Models
Bag-of-words

Bag-of-words Word Embeddings   (circa 2013)

Bag-of-words Word Embeddings   (circa 2013) “Traditional”   ML models

Bag-of-words Word Embeddings   (circa 2013) “Traditional”   ML models RNN/LSTM (circa 2015)

Bag-of-words Word Embeddings   (circa 2013) “Traditional”   ML models RNN/LSTM (circa 2015) Transformers (circa 2017)

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Transformers 22 Attention is
all you need (Vaswani et al., 2017)   57K citations in November 2022

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Transformers • Parallelisation →
training on bigger dataset • Fine-tuning on speci fi c task 23

© Bonzanini Consulting Ltd — BonzaniniConsulting.com • BERT (2018): 345M
parameters • GPT-2 (2019): 1.5B parameters • GPT-3 (2020): 175B parameters • Galactica (2022): 120B parameters 25 Bigger and Bigger Models

Bolukbasi et al., 2016 NIPS

Bolukbasi et al., 2016 NIPS • King - man + woman = Queen • Doctor - man + woman = Nurse?     • Word embeddings are not “neutral”   Bias in the data

https://twitter.com/Michael_J_Black/status/1593133722316189696

https://arstechnica.com/gadgets/2022/11/amazon-alexa-is-a-colossal-failure-on-pace-to-lose-10-billion-this-year/

© Bonzanini Consulting Ltd — BonzaniniConsulting.com Discussion 34 • “Let’s
just use Deep Learning (TM)” • What if we don’t have millions of $$$? • Data annotation / quality:   still the main issue? • Your Success Stories? • Your Horror Stories?

Natural Language Processing Expert Briefing @ P...

Natural Language Processing Expert Briefing @ PyData Global 2022

More Decks by Marco Bonzanini

Other Decks in Technology

Featured

Transcript