Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Sémantique des échanges informels

Sémantique des échanges informels

Une analyse d'articles de recherches publiés lors de l'ISWC11 (International Semantic Web Conference 2011).
Un article plus complet a également été rédigé, et est disponible à http://mattischneider.fr/research/synthese_articles_ISWC11.pdf

Matti Schneider

November 29, 2011
Tweet

More Decks by Matti Schneider

Other Decks in Research

Transcript

  1. Sémantique des échanges informels I. Recherche à facettes sur Twitter

    II. Détermination d’expertise par email III. Limitations IV. Conclusion 2
  2. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags 4
  3. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques 4
  4. Anatomie d’un tweet • message textuel • moins de 140

    caractères • liens • #hashtags • raccourcis syntaxiques • abréviations 4
  5. Recherche dans Twitter • isoler un tweet • recherche textuelle

    • mots-clés • hashtags • mentions 5
  6. Améliorer la recherche • augmentation sémantique des tweets • contenu

    6 SPARQL Document Brouillon Ontologies Publication
  7. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  8. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication
  9. Améliorer la recherche • augmentation sémantique des tweets • contenu

    • liens 6 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes
  10. Améliorer la recherche 7 SPARQL Document Ontologies Publication RDF Graphe

    Web sémantique Data store Théorie des graphes Brouillon
  11. Améliorer la recherche • tweets augmentés sémantiquement 7 SPARQL Document

    Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  12. Améliorer la recherche • tweets augmentés sémantiquement • …et maintenant

    ? 7 SPARQL Document Ontologies Publication RDF Graphe Web sémantique Data store Théorie des graphes Brouillon
  13. Recherche à facettes 9 Ré Sélection de couples facettes-valeurs (CFV)

    SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  14. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  15. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  16. Recherche à facettes 10 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique !
  17. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  18. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique
  19. Recherche à facettes 11 Résultats de recherche Sélection de couples

    facettes-valeurs (CFV) SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sémantique ?
  20. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV
  21. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation
  22. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés
  23. Ordre des facettes 12 • Méthode 1 : Fréquence d’apparition

    • compter le nombre d’occurrences d’un CFV • Méthode 2 : Personnalisation • créer un profil d’utilisateur à partir des tweets publiés • un CFV publié = 1 point
  24. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets
  25. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés”
  26. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle
  27. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets
  28. Ordre des facettes 13 • Méthode 3 : Diversification •

    choisir les CFV qui correspondent au plus grand nombre de tweets • éviter les tweets déjà “utilisés” • Méthode 4 : Sensibilité temporelle • pondérer les CFV selon l’ancienneté des tweets • plus récent = mieux noté
  29. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 3
  30. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém 5 8 ! 3
  31. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  32. Évaluation des pondérations • Success@k • probabilité que le CFV

    choisi soit dans les k premiers • plusieurs recherches avec chaque méthode • Exemple de calcul • S@3 = 0 • S@5 = 1/2 • S@8 = 1 14 SPARQL Document Brouillon Ontologies Publication RDF Graphe Web sém ! 5 8 ! 3
  33. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens ! 3
  34. Comparaison enrichissements 16 Facettes / tweet 0 1 2 3

    4 5 6 Contenu seul Contenu + liens Tweets candidats 0 250 500 750 1000 1250 1500 1750 2000 ! 3 / 9
  35. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées
  36. Repérer des experts 18 • profiter des échanges informels dans

    une organisation • repérer les compétences dupliquées • trouver des experts méconnus
  37. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires)
  38. Expérimentation 21 • mailing-list de l’OAK Sheffield • équivalent KIS

    Polytech’ • membres (humains) évaluent la similarité de leurs pairs • questionnaires : 1 (très différents) à 10 (très similaires) • comparaison avec les similarités entre profils sémantiques
  39. Résultats 25 Mots-clés Entités Concepts 0!% 25!% 50!% 75!% 100!%

    Corrélation profil logiciel / profil humain
  40. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  41. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
  42. Calcul de corrélation 27 Similarité logicielle ! [0, 1] Similarité

    humaine ! ⟦1, 10⟧ " { " } Corrélation de Pearson ! ീ([0,!1]2,![0,!1]) f ?
  43. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire
  44. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ?
  45. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ?
  46. Données expérimentales 28 • mailing-list OAK : 25 membres •

    seuls 15 acceptent de répondre au questionnaire • pourquoi ? • significatif ? • biais ?
  47. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  48. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif 29
  49. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 29
  50. Significances • significance = probabilité que la corrélation soit due

    au hasard • 0 = excellent • 1 = absolument pas significatif • mots-clés : seuls 7 / 15 à p < 0,05 • entités : 6 / 15 • concepts : 8 / 15 • 1 chance sur 20 d’être due au hasard 29
  51. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” 30
  52. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! 30
  53. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) 30
  54. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! 30
  55. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles 30
  56. Accord entre évaluateurs • “Pearson’s correlation at p < 0,001”

    • 3 réfutant l’hypothèse : “Agr inférieur” • 3 /15 = 20% ! • …et ρX,Y ∈ ീ([0,!1]2,![0,!1]) • corrélation entre une V.A.R et 14 autres ?! • déconseillé par plusieurs articles • métrique existante : kappa de Fleiss 30
  57. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs 31
  58. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible 31
  59. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” 31
  60. Limitations : Twitter • nombre d’utilisateurs test non précisé •

    corpus > 30 millions tweets, 20000 utilisateurs • API citée non disponible • Twitter : “Annotations is still more concept then reality. Maybe some day we'll have more to say about them” • pas d’incidence sur l’expérimentation 31
  61. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise
  62. Conclusion 32 • augmentation sémantique très efficace pour la recherche

    • pas de conclusion quant à la détermination d’expertise • utiliser une requête à facettes pour trouver les experts ?
  63. Merci de votre attention ! • Articles traités • F.

    Abel, I. Celik, G.J. Houben, P. Siehndel (2011) : Leveraging the Semantics of Tweets for Adaptive Faceted Search on Twitter • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F. Ciravegna (2011) : Extracting Semantic User Networks From Informal Communication Exchanges. • Bibliographie • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng (2008) : Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks (p. 3) • R.J. Hunt (1986) : Percent Agreement, Pearson's Correlation, and Kappa as Measures of Inter- examiner Reliability (p.128) • J.L. Fleiss (1971) : Measuring nominal scale agreement among many raters • D. Milne, I.H. Witten (2008) : Learning to Link with Wikipedia • G.E. Dallal (2003) : Why P=0.05? • J.M. Bland, D.G. Altman (1995) : Multiple significance tests: the Bonferroni method • Crédits • Icône Twitter © Twitter • Icônes “Enveloppe”, “Cerveau”, “Reboot”, “Montre” : CC-BY-SA ou domaine public, The Noun Project 33 Des questions ? Matti Schneider-Ghibaudo | @matti_sg