Slide 1

Slide 1 text

Polytech’Nice-Sophia — 29/11/2011 Synthèse d’articles — Ingénierie des connaissances Sémantique des échanges informels Matti Schneider-Ghibaudo @matti_sg 1

Slide 2

Slide 2 text

Sémantique des échanges informels I. Recherche à facettes sur Twitter II. Détermination d’expertise par email III. Limitations IV. Conclusion 2

Slide 3

Slide 3 text

Recherche à facettes sur Twitter 3

Slide 4

Slide 4 text

Anatomie d’un tweet 4

Slide 5

Slide 5 text

Anatomie d’un tweet • message textuel 4

Slide 6

Slide 6 text

Anatomie d’un tweet • message textuel • moins de 140 caractères 4

Slide 7

Slide 7 text

Anatomie d’un tweet • message textuel • moins de 140 caractères • liens 4

Slide 8

Slide 8 text

Anatomie d’un tweet • message textuel • moins de 140 caractères • liens • #hashtags 4

Slide 9

Slide 9 text

Anatomie d’un tweet • message textuel • moins de 140 caractères • liens • #hashtags • raccourcis syntaxiques 4

Slide 10

Slide 10 text

Anatomie d’un tweet • message textuel • moins de 140 caractères • liens • #hashtags • raccourcis syntaxiques • abréviations 4

Slide 11

Slide 11 text

Recherche dans Twitter 5

Slide 12

Slide 12 text

Recherche dans Twitter • isoler un tweet 5

Slide 13

Slide 13 text

Recherche dans Twitter • isoler un tweet • recherche textuelle 5

Slide 14

Slide 14 text

Recherche dans Twitter • isoler un tweet • recherche textuelle • mots-clés • hashtags • mentions 5

Slide 15

Slide 15 text

Améliorer la recherche 6

Slide 16

Slide 16 text

Améliorer la recherche • augmentation sémantique des tweets 6

Slide 17

Slide 17 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6

Slide 18

Slide 18 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6 SPARQL

Slide 19

Slide 19 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6 SPARQL Ontologies

Slide 20

Slide 20 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6 SPARQL Brouillon Ontologies

Slide 21

Slide 21 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6 SPARQL Document Brouillon Ontologies

Slide 22

Slide 22 text

Améliorer la recherche • augmentation sémantique des tweets • contenu 6 SPARQL Document Brouillon Ontologies Publication

Slide 23

Slide 23 text

Améliorer la recherche • augmentation sémantique des tweets • contenu • liens 6 SPARQL Document Brouillon Ontologies Publication

Slide 24

Slide 24 text

Améliorer la recherche • augmentation sémantique des tweets • contenu • liens 6 SPARQL Document Brouillon Ontologies Publication

Slide 25

Slide 25 text

Améliorer la recherche • augmentation sémantique des tweets • contenu • liens 6 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes

Slide 26

Slide 26 text

Améliorer la recherche 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon

Slide 27

Slide 27 text

Améliorer la recherche • tweets augmentés sémantiquement 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon

Slide 28

Slide 28 text

Améliorer la recherche • tweets augmentés sémantiquement • …et maintenant ? 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon

Slide 29

Slide 29 text

Recherche à facettes 8 Résultats de recherche

Slide 30

Slide 30 text

Recherche à facettes 8 Résultats de recherche

Slide 31

Slide 31 text

Recherche à facettes 8 Résultats de recherche

Slide 32

Slide 32 text

Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

Slide 33

Slide 33 text

Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

Slide 34

Slide 34 text

Recherche à facettes 10 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

Slide 35

Slide 35 text

Recherche à facettes 10 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !

Slide 36

Slide 36 text

Recherche à facettes 10 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !

Slide 37

Slide 37 text

Recherche à facettes 11 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

Slide 38

Slide 38 text

Recherche à facettes 11 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique

Slide 39

Slide 39 text

Recherche à facettes 11 Résultats de recherche Sélection de couples facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique ?

Slide 40

Slide 40 text

Ordre des facettes 12

Slide 41

Slide 41 text

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

Slide 42

Slide 42 text

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition • compter le nombre d’occurrences d’un CFV

Slide 43

Slide 43 text

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation

Slide 44

Slide 44 text

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés

Slide 45

Slide 45 text

Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés • un CFV publié = 1 point

Slide 46

Slide 46 text

Ordre des facettes 13

Slide 47

Slide 47 text

Ordre des facettes 13 • Méthode 3 : Diversification

Slide 48

Slide 48 text

Ordre des facettes 13 • Méthode 3 : Diversification • choisir les CFV qui correspondent au plus grand nombre de tweets

Slide 49

Slide 49 text

Ordre des facettes 13 • Méthode 3 : Diversification • choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés”

Slide 50

Slide 50 text

Ordre des facettes 13 • Méthode 3 : Diversification • choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle

Slide 51

Slide 51 text

Ordre des facettes 13 • Méthode 3 : Diversification • choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets

Slide 52

Slide 52 text

Ordre des facettes 13 • Méthode 3 : Diversification • choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets • plus récent = mieux noté

Slide 53

Slide 53 text

Évaluation des pondérations 14

Slide 54

Slide 54 text

Évaluation des pondérations • Success@k 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém

Slide 55

Slide 55 text

Évaluation des pondérations • Success@k • probabilité que le CFV choisi soit dans les k premiers 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 3

Slide 56

Slide 56 text

Évaluation des pondérations • Success@k • probabilité que le CFV choisi soit dans les k premiers • plusieurs recherches avec chaque méthode 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 ! 3

Slide 57

Slide 57 text

Évaluation des pondérations • Success@k • probabilité que le CFV choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3

Slide 58

Slide 58 text

Évaluation des pondérations • Success@k • probabilité que le CFV choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul • S@3 = 0 • S@5 = 1/2 • S@8 = 1 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3

Slide 59

Slide 59 text

Comparaison pondérations 15 S@20 S@50 S@100

Slide 60

Slide 60 text

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100

Slide 61

Slide 61 text

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100

Slide 62

Slide 62 text

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique

Slide 63

Slide 63 text

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique

Slide 64

Slide 64 text

Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique

Slide 65

Slide 65 text

Comparaison enrichissements 16 Contenu seul Contenu + liens

Slide 66

Slide 66 text

Comparaison enrichissements 16 Facettes / tweet 0 1 2 3 4 5 6 Contenu seul Contenu + liens ! 3

Slide 67

Slide 67 text

Comparaison enrichissements 16 Facettes / tweet 0 1 2 3 4 5 6 Contenu seul Contenu + liens Tweets candidats 0 250 500 750 1000 1250 1500 1750 2000 ! 3 / 9

Slide 68

Slide 68 text

Détermination d’expertise par email 17

Slide 69

Slide 69 text

Repérer des experts 18

Slide 70

Slide 70 text

Repérer des experts 18 • profiter des échanges informels dans une organisation

Slide 71

Slide 71 text

Repérer des experts 18 • profiter des échanges informels dans une organisation • repérer les compétences dupliquées

Slide 72

Slide 72 text

Repérer des experts 18 • profiter des échanges informels dans une organisation • repérer les compétences dupliquées • trouver des experts méconnus

Slide 73

Slide 73 text

Extraction sémantique 19

Slide 74

Slide 74 text

Extraction sémantique 19

Slide 75

Slide 75 text

Extraction sémantique 19

Slide 76

Slide 76 text

Profil utilisateur 20

Slide 77

Slide 77 text

Mots-clés Entités Concepts Profil utilisateur 20

Slide 78

Slide 78 text

Mots-clés Entités Concepts Profil utilisateur 20 Sémantique

Slide 79

Slide 79 text

Mots-clés Entités Concepts Profil utilisateur 20 Sémantique Efficacité ?

Slide 80

Slide 80 text

Expérimentation 21

Slide 81

Slide 81 text

Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS Polytech’

Slide 82

Slide 82 text

Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires)

Slide 83

Slide 83 text

Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires) • comparaison avec les similarités entre profils sémantiques

Slide 84

Slide 84 text

Similarités de profils 22

Slide 85

Slide 85 text

Similarités de profils 22

Slide 86

Slide 86 text

Index de Jaccard 23

Slide 87

Slide 87 text

Corrélation (de Pearson) 24

Slide 88

Slide 88 text

Corrélation (de Pearson) 24 • lien entre deux variables • 1 = accord total • 0 = aucun lien

Slide 89

Slide 89 text

Résultats 25

Slide 90

Slide 90 text

Résultats 25 Mots-clés Entités Concepts 0!% 25!% 50!% 75!% 100!% Corrélation profil logiciel / profil humain

Slide 91

Slide 91 text

Limitations 26 ⾠

Slide 92

Slide 92 text

Calcul de corrélation 27

Slide 93

Slide 93 text

Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de Pearson

Slide 94

Slide 94 text

Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

Slide 95

Slide 95 text

Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

Slide 96

Slide 96 text

Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

Slide 97

Slide 97 text

Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1]) f ?

Slide 98

Slide 98 text

Données expérimentales 28

Slide 99

Slide 99 text

Données expérimentales 28 • mailing-list OAK : 25 membres

Slide 100

Slide 100 text

Données expérimentales 28 • mailing-list OAK : 25 membres • seuls 15 acceptent de répondre au questionnaire

Slide 101

Slide 101 text

Données expérimentales 28 • mailing-list OAK : 25 membres • seuls 15 acceptent de répondre au questionnaire • pourquoi ?

Slide 102

Slide 102 text

Données expérimentales 28 • mailing-list OAK : 25 membres • seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ?

Slide 103

Slide 103 text

Données expérimentales 28 • mailing-list OAK : 25 membres • seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ? • biais ?

Slide 104

Slide 104 text

Significances 29

Slide 105

Slide 105 text

Significances • significance = probabilité que la corrélation soit due au hasard • 0 = excellent • 1 = absolument pas significatif 29

Slide 106

Slide 106 text

Significances • significance = probabilité que la corrélation soit due au hasard • 0 = excellent • 1 = absolument pas significatif 29

Slide 107

Slide 107 text

Significances • significance = probabilité que la corrélation soit due au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 29

Slide 108

Slide 108 text

Significances • significance = probabilité que la corrélation soit due au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 • entités : 6 / 15 • concepts : 8 / 15 • 1 chance sur 20 d’être due au hasard 29

Slide 109

Slide 109 text

Accord entre évaluateurs 30

Slide 110

Slide 110 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” 30

Slide 111

Slide 111 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” 30

Slide 112

Slide 112 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! 30

Slide 113

Slide 113 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) 30

Slide 114

Slide 114 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! 30

Slide 115

Slide 115 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles 30

Slide 116

Slide 116 text

Accord entre évaluateurs • “Pearson’s correlation at p < 0,001” • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles • métrique existante : kappa de Fleiss 30

Slide 117

Slide 117 text

Limitations : Twitter 31

Slide 118

Slide 118 text

Limitations : Twitter • nombre d’utilisateurs test non précisé 31

Slide 119

Slide 119 text

Limitations : Twitter • nombre d’utilisateurs test non précisé • corpus > 30 millions tweets, 20000 utilisateurs 31

Slide 120

Slide 120 text

Limitations : Twitter • nombre d’utilisateurs test non précisé • corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible 31

Slide 121

Slide 121 text

Limitations : Twitter • nombre d’utilisateurs test non précisé • corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” 31

Slide 122

Slide 122 text

Limitations : Twitter • nombre d’utilisateurs test non précisé • corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” • pas d’incidence sur l’expérimentation 31

Slide 123

Slide 123 text

Conclusion 32

Slide 124

Slide 124 text

Conclusion 32 • augmentation sémantique très efficace pour la recherche

Slide 125

Slide 125 text

Conclusion 32 • augmentation sémantique très efficace pour la recherche • pas de conclusion quant à la détermination d’expertise

Slide 126

Slide 126 text

Conclusion 32 • augmentation sémantique très efficace pour la recherche • pas de conclusion quant à la détermination d’expertise • utiliser une requête à facettes pour trouver les experts ?

Slide 127

Slide 127 text

Merci de votre attention ! • Articles traités • F. Abel, I. Celik, G.J. Houben, P. Siehndel (2011) : Leveraging the Semantics of Tweets for Adaptive Faceted Search on Twitter • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F. Ciravegna (2011) : Extracting Semantic User Networks From Informal Communication Exchanges. • Bibliographie • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng (2008) : Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks (p. 3) • R.J. Hunt (1986) : Percent Agreement, Pearson's Correlation, and Kappa as Measures of Inter- examiner Reliability (p.128) • J.L. Fleiss (1971) : Measuring nominal scale agreement among many raters • D. Milne, I.H. Witten (2008) : Learning to Link with Wikipedia • G.E. Dallal (2003) : Why P=0.05? • J.M. Bland, D.G. Altman (1995) : Multiple significance tests: the Bonferroni method • Crédits • Icône Twitter © Twitter • Icônes “Enveloppe”, “Cerveau”, “Reboot”, “Montre” : CC-BY-SA ou domaine public, The Noun Project 33 Des questions ? Matti Schneider-Ghibaudo | @matti_sg