Sémantique des échanges informels

Polytech’Nice-Sophia — 29/11/2011 Synthèse d’articles — Ingénierie des connaissances Sémantique
des échanges informels Matti Schneider-Ghibaudo @matti_sg 1

Sémantique des échanges informels I. Recherche à facettes sur Twitter
II. Détermination d’expertise par email III. Limitations IV. Conclusion 2

Recherche à facettes sur Twitter 3

Anatomie d’un tweet 4

Anatomie d’un tweet • message textuel 4

Anatomie d’un tweet • message textuel • moins de 140
caractères 4

caractères • liens 4

caractères • liens • #hashtags 4

caractères • liens • #hashtags • raccourcis syntaxiques 4

caractères • liens • #hashtags • raccourcis syntaxiques • abréviations 4

Recherche dans Twitter 5

Recherche dans Twitter • isoler un tweet 5

Recherche dans Twitter • isoler un tweet • recherche textuelle
5

Recherche dans Twitter • isoler un tweet • recherche textuelle
• mots-clés • hashtags • mentions 5

Améliorer la recherche 6

Améliorer la recherche • augmentation sémantique des tweets 6

Améliorer la recherche • augmentation sémantique des tweets • contenu
6

6 SPARQL

6 SPARQL Ontologies

6 SPARQL Brouillon Ontologies

6 SPARQL Document Brouillon Ontologies

6 SPARQL Document Brouillon Ontologies Publication

• liens 6 SPARQL Document Brouillon Ontologies Publication

• liens 6 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes

Améliorer la recherche 7 SPARQL Document Ontologies Publication RDF Graphe
Web sémantique Data store Théorie des graphes Brouillon

Améliorer la recherche • tweets augmentés sémantiquement 7 SPARQL Document
Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon

Améliorer la recherche • tweets augmentés sémantiquement • …et maintenant
? 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon

Recherche à facettes 8 Résultats de recherche

Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)
SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

Recherche à facettes 10 Résultats de recherche Sélection de couples
facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !

facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique ?

Ordre des facettes 12

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

• compter le nombre d’occurrences d’un CFV

• compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation

• compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un proﬁl d’utilisateur à partir des tweets publiés

• compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un proﬁl d’utilisateur à partir des tweets publiés • un CFV publié = 1 point

Ordre des facettes 13

Ordre des facettes 13 • Méthode 3 : Diversiﬁcation

Ordre des facettes 13 • Méthode 3 : Diversiﬁcation •
choisir les CFV qui correspondent au plus grand nombre de tweets

choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés”

choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle

choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets

choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets • plus récent = mieux noté

Évaluation des pondérations 14

Évaluation des pondérations • Success@k 14 SPARQL Document Brouillon Ontologies
Publication RDF Graphe Web sém

Évaluation des pondérations • Success@k • probabilité que le CFV
choisi soit dans les k premiers 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 3

choisi soit dans les k premiers • plusieurs recherches avec chaque méthode 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 ! 3

choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3

choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul • S@3 = 0 • S@5 = 1/2 • S@8 = 1 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3

Comparaison pondérations 15 S@20 S@50 S@100

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1
0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1
0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique

Comparaison enrichissements 16 Contenu seul Contenu + liens

Comparaison enrichissements 16 Facettes / tweet 0 1 2 3
4 5 6 Contenu seul Contenu + liens ! 3

Comparaison enrichissements 16 Facettes / tweet 0 1 2 3
4 5 6 Contenu seul Contenu + liens Tweets candidats 0 250 500 750 1000 1250 1500 1750 2000 ! 3 / 9

Détermination d’expertise par email 17

Repérer des experts 18

Repérer des experts 18 • proﬁter des échanges informels dans
une organisation

une organisation • repérer les compétences dupliquées

une organisation • repérer les compétences dupliquées • trouver des experts méconnus

Extraction sémantique 19

Proﬁl utilisateur 20

Mots-clés Entités Concepts Proﬁl utilisateur 20

Mots-clés Entités Concepts Proﬁl utilisateur 20 Sémantique

Mots-clés Entités Concepts Proﬁl utilisateur 20 Sémantique Efﬁcacité ?

Expérimentation 21

Expérimentation 21 • mailing-list de l’OAK Shefﬁeld • équivalent KIS
Polytech’

Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires)

Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires) • comparaison avec les similarités entre proﬁls sémantiques

Similarités de proﬁls 22

Index de Jaccard 23

Corrélation (de Pearson) 24

Corrélation (de Pearson) 24 • lien entre deux variables •
1 = accord total • 0 = aucun lien

Résultats 25

Résultats 25 Mots-clés Entités Concepts 0!% 25!% 50!% 75!% 100!%
Corrélation proﬁl logiciel / proﬁl humain

Limitations 26 ⾠

Calcul de corrélation 27

Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de
Pearson

Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de
Pearson ! ീ([0,!1]2,![0,!1])

Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité
humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1]) f ?

Données expérimentales 28

Données expérimentales 28 • mailing-list OAK : 25 membres

Données expérimentales 28 • mailing-list OAK : 25 membres •
seuls 15 acceptent de répondre au questionnaire

seuls 15 acceptent de répondre au questionnaire • pourquoi ?

seuls 15 acceptent de répondre au questionnaire • pourquoi ? • signiﬁcatif ?

seuls 15 acceptent de répondre au questionnaire • pourquoi ? • signiﬁcatif ? • biais ?

Signiﬁcances 29

Significances • significance = probabilité que la corrélation soit due
au hasard • 0 = excellent • 1 = absolument pas significatif 29

au hasard • 0 = excellent • 1 = absolument pas signiﬁcatif • mots-clés : seuls 7 / 15 à p < 0,05 29

au hasard • 0 = excellent • 1 = absolument pas signiﬁcatif • mots-clés : seuls 7 / 15 à p < 0,05 • entités : 6 / 15 • concepts : 8 / 15 • 1 chance sur 20 d’être due au hasard 29

Accord entre évaluateurs 30

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”
30

• 3 réfutant l’hypothèse : “Agr inférieur” 30

• 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! 30

• 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) 30

• 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! 30

• 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles 30

• 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles • métrique existante : kappa de Fleiss 30

Limitations : Twitter 31

Limitations : Twitter • nombre d’utilisateurs test non précisé 31

Limitations : Twitter • nombre d’utilisateurs test non précisé •
corpus > 30 millions tweets, 20000 utilisateurs 31

corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible 31

corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” 31

corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” • pas d’incidence sur l’expérimentation 31

Conclusion 32

Conclusion 32 • augmentation sémantique très efﬁcace pour la recherche

• pas de conclusion quant à la détermination d’expertise

• pas de conclusion quant à la détermination d’expertise • utiliser une requête à facettes pour trouver les experts ?

Merci de votre attention ! • Articles traités • F.
Abel, I. Celik, G.J. Houben, P. Siehndel (2011) : Leveraging the Semantics of Tweets for Adaptive Faceted Search on Twitter • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F. Ciravegna (2011) : Extracting Semantic User Networks From Informal Communication Exchanges. • Bibliographie • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng (2008) : Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks (p. 3) • R.J. Hunt (1986) : Percent Agreement, Pearson's Correlation, and Kappa as Measures of Inter- examiner Reliability (p.128) • J.L. Fleiss (1971) : Measuring nominal scale agreement among many raters • D. Milne, I.H. Witten (2008) : Learning to Link with Wikipedia • G.E. Dallal (2003) : Why P=0.05? • J.M. Bland, D.G. Altman (1995) : Multiple signiﬁcance tests: the Bonferroni method • Crédits • Icône Twitter © Twitter • Icônes “Enveloppe”, “Cerveau”, “Reboot”, “Montre” : CC-BY-SA ou domaine public, The Noun Project 33 Des questions ? Matti Schneider-Ghibaudo | @matti_sg

Sémantique des échanges informels

Sémantique des échanges informels

More Decks by Matti Schneider

Other Decks in Research

Featured

Transcript