20211021-datadrink-textmining-ce

Text mining as a support for public consultation: Multilingual clustering
Datadrink 21/10/21 Nicolas Stefanovitch, Guillaume Jacquet JRC.I.3 Text and Data Mining

Context: Conference on the Future of Europe https://futureu.europa.eu/

Context: Conference on the Future of Europe

Context: Conference on the Future of Europe • EU-wide multilingual
public consultation:  24+ languages  3.5 million uniq visitors  140 000 participants  26 000 contributions • Aim:  Make sense of large number of multilingual contributions  Identify clusters of linked ideas  Find related ideas

Methodology and technology • How it works:  Aligned multilingual
sentence embeddings (~ 100 languages)  Ad-hoc: Search, Clustering and Visualisation algorithms • References:  Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond  A Survey Of Cross-lingual Word Embedding Models

Semantic search examples

Clustering

Cluster description example

Cluster quality evaluation • For a given set of parameters:
 8000+ sentences  100+ clusters • Measure:  Unsupervised: silhouette score (range: [-1,1]) • Summary clusters:  Silhouette: 0.14 • Whole clusters:  Silhouette: -0.001 • “Topic” clusters:  Silhouette: -0.023

Key Takeaways • Conference on the Future of Europe: https://futureu.europa.eu/
• Information access and summarization in a highly multilingual environment • Supporting “Data for Policy” with Text Mining tools NLP as a key support in ‘Data For Policy’

Thank you

20211021-datadrink-textmining-ce

20211021-datadrink-textmining-ce

etalab-ia

More Decks by etalab-ia

Featured

Transcript

Text mining as a support for public consultation: Multilingual clustering

Context: Conference on the Future of Europe https://futureu.europa.eu/

Context: Conference on the Future of Europe

Context: Conference on the Future of Europe • EU-wide multilingual

Methodology and technology • How it works:  Aligned multilingual

Semantic search examples

Clustering

Clustering

Cluster description example

Cluster quality evaluation • For a given set of parameters:

Key Takeaways • Conference on the Future of Europe: https://futureu.europa.eu/

Thank you