Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sémantique des échanges informels

Avatar for Matti Schneider Matti Schneider
November 29, 2011

Sémantique des échanges informels

Une analyse d'articles de recherches publiés lors de l'ISWC11 (International Semantic Web Conference 2011).
Un article plus complet a également été rédigé, et est disponible à http://mattischneider.fr/research/synthese_articles_ISWC11.pdf

Avatar for Matti Schneider

Matti Schneider

November 29, 2011
Tweet

More Decks by Matti Schneider

Other Decks in Research

Transcript

  1. Sémantique des échanges informels I. Recherche à facettes sur Twitter

    II. Détermination d’expertise par email III. Limitations IV. Conclusion 2
  2. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags 4
  3. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques 4
  4. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques • abréviations 4
  5. Recherche dans Twitter • isoler un tweet • recherche textuelle

    • mots-clés • hashtags • mentions 5
  6. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Document Brouillon Ontologies Publication
  7. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  8. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  9. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes
  10. Améliorer la recherche 7 SPARQL Document Ontologies Publication RDF Graphe

    Web sémantique Data store Théorie des graphes Brouillon
  11. Améliorer la recherche • tweets augmentés sémantiquement 7 SPARQL Document

    Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  12. Améliorer la recherche • tweets augmentés sémantiquement • …et maintenant

    ? 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  13. Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

    SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  14. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  15. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  16. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  17. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  18. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  19. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique ?
  20. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV
  21. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation
  22. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés
  23. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés • un CFV publié = 1 point
  24. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets
  25. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés”
  26. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle
  27. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets
  28. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets • plus récent = mieux noté
  29. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 3
  30. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 ! 3
  31. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  32. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul • S@3 = 0 • S@5 = 1/2 • S@8 = 1 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  33. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens ! 3
  34. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens Tweets candidats 0 250 500 750 1000 1250 1500 1750 2000 ! 3 / 9
  35. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées
  36. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées • trouver des experts méconnus
  37. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires)
  38. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires) • comparaison avec les similarités entre profils sémantiques
  39. Résultats 25 Mots-clés Entités Concepts 0!% 25!% 50!% 75!% 100!%

    Corrélation profil logiciel / profil humain
  40. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  41. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  42. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1]) f ?
  43. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire
  44. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ?
  45. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ?
  46. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ? • biais ?
  47. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  48. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  49. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 29
  50. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 • entités : 6 / 15 • concepts : 8 / 15 • 1 chance sur 20 d’être due au hasard 29
  51. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” 30
  52. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! 30
  53. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) 30
  54. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! 30
  55. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles 30
  56. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles • métrique existante : kappa de Fleiss 30
  57. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs 31
  58. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible 31
  59. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” 31
  60. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” • pas d’incidence sur l’expérimentation 31
  61. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise
  62. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise • utiliser une requête à facettes pour trouver les experts ?
  63. Merci de votre attention ! • Articles traités • F.

    Abel, I. Celik, G.J. Houben, P. Siehndel (2011) : Leveraging the Semantics of Tweets for Adaptive Faceted Search on Twitter • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F. Ciravegna (2011) : Extracting Semantic User Networks From Informal Communication Exchanges. • Bibliographie • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng (2008) : Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks (p. 3) • R.J. Hunt (1986) : Percent Agreement, Pearson's Correlation, and Kappa as Measures of Inter- examiner Reliability (p.128) • J.L. Fleiss (1971) : Measuring nominal scale agreement among many raters • D. Milne, I.H. Witten (2008) : Learning to Link with Wikipedia • G.E. Dallal (2003) : Why P=0.05? • J.M. Bland, D.G. Altman (1995) : Multiple significance tests: the Bonferroni method • Crédits • Icône Twitter © Twitter • Icônes “Enveloppe”, “Cerveau”, “Reboot”, “Montre” : CC-BY-SA ou domaine public, The Noun Project 33 Des questions ? Matti Schneider-Ghibaudo | @matti_sg