Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sémantique des échanges informels

Sémantique des échanges informels

Une analyse d'articles de recherches publiés lors de l'ISWC11 (International Semantic Web Conference 2011).
Un article plus complet a également été rédigé, et est disponible à http://mattischneider.fr/research/synthese_articles_ISWC11.pdf

C17904e5ca39a09fdd1dea24b39f57fd?s=128

Matti Schneider

November 29, 2011
Tweet

Transcript

  1. Polytech’Nice-Sophia — 29/11/2011 Synthèse d’articles — Ingénierie des connaissances Sémantique

    des échanges informels Matti Schneider-Ghibaudo @matti_sg 1
  2. Sémantique des échanges informels I. Recherche à facettes sur Twitter

    II. Détermination d’expertise par email III. Limitations IV. Conclusion 2
  3. Recherche à facettes sur Twitter 3

  4. Anatomie d’un tweet 4

  5. Anatomie d’un tweet • message textuel 4

  6. Anatomie d’un tweet • message textuel • moins de 140

    caractères 4
  7. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens 4
  8. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags 4
  9. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques 4
  10. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques • abréviations 4
  11. Recherche dans Twitter 5

  12. Recherche dans Twitter • isoler un tweet 5

  13. Recherche dans Twitter • isoler un tweet • recherche textuelle

    5
  14. Recherche dans Twitter • isoler un tweet • recherche textuelle

    • mots-clés • hashtags • mentions 5
  15. Améliorer la recherche 6

  16. Améliorer la recherche • augmentation sémantique des tweets 6

  17. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6
  18. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL
  19. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Ontologies
  20. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Brouillon Ontologies
  21. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Document Brouillon Ontologies
  22. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Document Brouillon Ontologies Publication
  23. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  24. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  25. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes
  26. Améliorer la recherche 7 SPARQL Document Ontologies Publication RDF Graphe

    Web sémantique Data store Théorie des graphes Brouillon
  27. Améliorer la recherche • tweets augmentés sémantiquement 7 SPARQL Document

    Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  28. Améliorer la recherche • tweets augmentés sémantiquement • …et maintenant

    ? 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  29. Recherche à facettes 8 Résultats de recherche

  30. Recherche à facettes 8 Résultats de recherche

  31. Recherche à facettes 8 Résultats de recherche

  32. Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

  33. Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

    SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  34. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  35. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  36. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  37. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  38. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  39. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique ?
  40. Ordre des facettes 12

  41. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

  42. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV
  43. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation
  44. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés
  45. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés • un CFV publié = 1 point
  46. Ordre des facettes 13

  47. Ordre des facettes 13 • Méthode 3 : Diversification

  48. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets
  49. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés”
  50. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle
  51. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets
  52. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets • plus récent = mieux noté
  53. Évaluation des pondérations 14

  54. Évaluation des pondérations • Success@k 14 SPARQL Document Brouillon Ontologies

    Publication RDF Graphe Web sém
  55. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 3
  56. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 ! 3
  57. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  58. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul • S@3 = 0 • S@5 = 1/2 • S@8 = 1 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  59. Comparaison pondérations 15 S@20 S@50 S@100

  60. Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1

    0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100
  61. Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1

    0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100
  62. Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1

    0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique
  63. Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1

    0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique
  64. Comparaison pondérations 15 Hashtag Fréquence Diversification Temporelle Personnalisation 0 0,1

    0,2 0,3 0,4 0,5 0,6 0,7 S@20 S@50 S@100 Sémantique
  65. Comparaison enrichissements 16 Contenu seul Contenu + liens

  66. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens ! 3
  67. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens Tweets candidats 0 250 500 750 1000 1250 1500 1750 2000 ! 3 / 9
  68. Détermination d’expertise par email 17

  69. Repérer des experts 18

  70. Repérer des experts 18 • profiter des échanges informels dans

    une organisation
  71. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées
  72. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées • trouver des experts méconnus
  73. Extraction sémantique 19

  74. Extraction sémantique 19

  75. Extraction sémantique 19

  76. Profil utilisateur 20

  77. Mots-clés Entités Concepts Profil utilisateur 20

  78. Mots-clés Entités Concepts Profil utilisateur 20 Sémantique

  79. Mots-clés Entités Concepts Profil utilisateur 20 Sémantique Efficacité ?

  80. Expérimentation 21

  81. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’
  82. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires)
  83. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires) • comparaison avec les similarités entre profils sémantiques
  84. Similarités de profils 22

  85. Similarités de profils 22

  86. Index de Jaccard 23

  87. Corrélation (de Pearson) 24

  88. Corrélation (de Pearson) 24 • lien entre deux variables •

    1 = accord total • 0 = aucun lien
  89. Résultats 25

  90. Résultats 25 Mots-clés Entités Concepts 0!% 25!% 50!% 75!% 100!%

    Corrélation profil logiciel / profil humain
  91. Limitations 26 ⾠

  92. Calcul de corrélation 27

  93. Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de

    Pearson
  94. Calcul de corrélation 27 Similarité logicielle Similarité humaine Corrélation de

    Pearson ! ീ([0,!1]2,![0,!1])
  95. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  96. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  97. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1]) f ?
  98. Données expérimentales 28

  99. Données expérimentales 28 • mailing-list OAK : 25 membres

  100. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire
  101. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ?
  102. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ?
  103. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ? • biais ?
  104. Significances 29

  105. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  106. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  107. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 29
  108. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 • entités : 6 / 15 • concepts : 8 / 15 • 1 chance sur 20 d’être due au hasard 29
  109. Accord entre évaluateurs 30

  110. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    30
  111. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” 30
  112. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! 30
  113. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) 30
  114. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! 30
  115. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles 30
  116. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles • métrique existante : kappa de Fleiss 30
  117. Limitations : Twitter 31

  118. Limitations : Twitter • nombre d’utilisateurs test non précisé 31

  119. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs 31
  120. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible 31
  121. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” 31
  122. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” • pas d’incidence sur l’expérimentation 31
  123. Conclusion 32

  124. Conclusion 32 • augmentation sémantique très efficace pour la recherche

  125. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise
  126. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise • utiliser une requête à facettes pour trouver les experts ?
  127. Merci de votre attention ! • Articles traités • F.

    Abel, I. Celik, G.J. Houben, P. Siehndel (2011) : Leveraging the Semantics of Tweets for Adaptive Faceted Search on Twitter • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F. Ciravegna (2011) : Extracting Semantic User Networks From Informal Communication Exchanges. • Bibliographie • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng (2008) : Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks (p. 3) • R.J. Hunt (1986) : Percent Agreement, Pearson's Correlation, and Kappa as Measures of Inter- examiner Reliability (p.128) • J.L. Fleiss (1971) : Measuring nominal scale agreement among many raters • D. Milne, I.H. Witten (2008) : Learning to Link with Wikipedia • G.E. Dallal (2003) : Why P=0.05? • J.M. Bland, D.G. Altman (1995) : Multiple significance tests: the Bonferroni method • Crédits • Icône Twitter © Twitter • Icônes “Enveloppe”, “Cerveau”, “Reboot”, “Montre” : CC-BY-SA ou domaine public, The Noun Project 33 Des questions ? Matti Schneider-Ghibaudo | @matti_sg