Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sémantique des échanges informels

Sémantique des échanges informels

Une analyse d'articles de recherches publiés lors de l'ISWC11 (International Semantic Web Conference 2011).
Un article plus complet a également été rédigé, et est disponible à http://mattischneider.fr/research/synthese_articles_ISWC11.pdf

Matti Schneider

November 29, 2011
Tweet

More Decks by Matti Schneider

Other Decks in Research

Transcript

  1. Polytech’Nice-Sophia — 29/11/2011
    Synthèse d’articles — Ingénierie des connaissances
    Sémantique des
    échanges informels
    Matti Schneider-Ghibaudo
    @matti_sg
    1

    View Slide

  2. Sémantique des
    échanges informels
    I. Recherche à facettes sur Twitter
    II. Détermination d’expertise par email
    III. Limitations
    IV. Conclusion
    2

    View Slide

  3. Recherche à facettes sur Twitter
    3

    View Slide

  4. Anatomie d’un tweet
    4

    View Slide

  5. Anatomie d’un tweet
    • message textuel
    4

    View Slide

  6. Anatomie d’un tweet
    • message textuel
    • moins de 140 caractères
    4

    View Slide

  7. Anatomie d’un tweet
    • message textuel
    • moins de 140 caractères
    • liens
    4

    View Slide

  8. Anatomie d’un tweet
    • message textuel
    • moins de 140 caractères
    • liens
    • #hashtags
    4

    View Slide

  9. Anatomie d’un tweet
    • message textuel
    • moins de 140 caractères
    • liens
    • #hashtags
    • raccourcis syntaxiques
    4

    View Slide

  10. Anatomie d’un tweet
    • message textuel
    • moins de 140 caractères
    • liens
    • #hashtags
    • raccourcis syntaxiques
    • abréviations
    4

    View Slide

  11. Recherche dans Twitter
    5

    View Slide

  12. Recherche dans Twitter
    • isoler un tweet
    5

    View Slide

  13. Recherche dans Twitter
    • isoler un tweet
    • recherche textuelle
    5

    View Slide

  14. Recherche dans Twitter
    • isoler un tweet
    • recherche textuelle
    • mots-clés
    • hashtags
    • mentions
    5

    View Slide

  15. Améliorer la recherche
    6

    View Slide

  16. Améliorer la recherche
    • augmentation sémantique des tweets
    6

    View Slide

  17. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6

    View Slide

  18. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6
    SPARQL

    View Slide

  19. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6
    SPARQL
    Ontologies

    View Slide

  20. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6
    SPARQL
    Brouillon
    Ontologies

    View Slide

  21. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6
    SPARQL
    Document
    Brouillon
    Ontologies

    View Slide

  22. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    6
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication

    View Slide

  23. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    • liens
    6
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication

    View Slide

  24. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    • liens
    6
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication

    View Slide

  25. Améliorer la recherche
    • augmentation sémantique des tweets
    • contenu
    • liens
    6
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    Data store
    Théorie
    des graphes

    View Slide

  26. Améliorer la recherche
    7
    SPARQL
    Document
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    Data store
    Théorie
    des graphes
    Brouillon

    View Slide

  27. Améliorer la recherche
    • tweets augmentés sémantiquement
    7
    SPARQL
    Document
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    Data store
    Théorie
    des graphes
    Brouillon

    View Slide

  28. Améliorer la recherche
    • tweets augmentés sémantiquement
    • …et maintenant ?
    7
    SPARQL
    Document
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    Data store
    Théorie
    des graphes
    Brouillon

    View Slide

  29. Recherche à facettes
    8
    Résultats de recherche

    View Slide

  30. Recherche à facettes
    8
    Résultats de recherche

    View Slide

  31. Recherche à facettes
    8
    Résultats de recherche

    View Slide

  32. Recherche à facettes
    9

    Sélection de couples
    facettes-valeurs (CFV)

    View Slide

  33. Recherche à facettes
    9

    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique

    View Slide

  34. Recherche à facettes
    10
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique

    View Slide

  35. Recherche à facettes
    10
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    !

    View Slide

  36. Recherche à facettes
    10
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    !

    View Slide

  37. Recherche à facettes
    11
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique

    View Slide

  38. Recherche à facettes
    11
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique

    View Slide

  39. Recherche à facettes
    11
    Résultats de recherche
    Sélection de couples
    facettes-valeurs (CFV)
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sémantique
    ?

    View Slide

  40. Ordre des facettes
    12

    View Slide

  41. Ordre des facettes
    12
    • Méthode 1 : Fréquence d’apparition

    View Slide

  42. Ordre des facettes
    12
    • Méthode 1 : Fréquence d’apparition
    • compter le nombre d’occurrences d’un CFV

    View Slide

  43. Ordre des facettes
    12
    • Méthode 1 : Fréquence d’apparition
    • compter le nombre d’occurrences d’un CFV
    • Méthode 2 : Personnalisation

    View Slide

  44. Ordre des facettes
    12
    • Méthode 1 : Fréquence d’apparition
    • compter le nombre d’occurrences d’un CFV
    • Méthode 2 : Personnalisation
    • créer un profil d’utilisateur à partir des tweets publiés

    View Slide

  45. Ordre des facettes
    12
    • Méthode 1 : Fréquence d’apparition
    • compter le nombre d’occurrences d’un CFV
    • Méthode 2 : Personnalisation
    • créer un profil d’utilisateur à partir des tweets publiés
    • un CFV publié = 1 point

    View Slide

  46. Ordre des facettes
    13

    View Slide

  47. Ordre des facettes
    13
    • Méthode 3 : Diversification

    View Slide

  48. Ordre des facettes
    13
    • Méthode 3 : Diversification
    • choisir les CFV qui correspondent au plus grand nombre de tweets

    View Slide

  49. Ordre des facettes
    13
    • Méthode 3 : Diversification
    • choisir les CFV qui correspondent au plus grand nombre de tweets
    • éviter les tweets déjà “utilisés”

    View Slide

  50. Ordre des facettes
    13
    • Méthode 3 : Diversification
    • choisir les CFV qui correspondent au plus grand nombre de tweets
    • éviter les tweets déjà “utilisés”
    • Méthode 4 : Sensibilité temporelle

    View Slide

  51. Ordre des facettes
    13
    • Méthode 3 : Diversification
    • choisir les CFV qui correspondent au plus grand nombre de tweets
    • éviter les tweets déjà “utilisés”
    • Méthode 4 : Sensibilité temporelle
    • pondérer les CFV selon l’ancienneté des tweets

    View Slide

  52. Ordre des facettes
    13
    • Méthode 3 : Diversification
    • choisir les CFV qui correspondent au plus grand nombre de tweets
    • éviter les tweets déjà “utilisés”
    • Méthode 4 : Sensibilité temporelle
    • pondérer les CFV selon l’ancienneté des tweets
    • plus récent = mieux noté

    View Slide

  53. Évaluation des pondérations
    14

    View Slide

  54. Évaluation des pondérations
    • Success@k
    14
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sém

    View Slide

  55. Évaluation des pondérations
    • Success@k
    • probabilité que le CFV choisi soit dans les k premiers
    14
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sém
    5
    8
    3

    View Slide

  56. Évaluation des pondérations
    • Success@k
    • probabilité que le CFV choisi soit dans les k premiers
    • plusieurs recherches avec chaque méthode
    14
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sém
    5
    8
    !
    3

    View Slide

  57. Évaluation des pondérations
    • Success@k
    • probabilité que le CFV choisi soit dans les k premiers
    • plusieurs recherches avec chaque méthode
    • Exemple de calcul
    14
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sém
    !
    5
    8
    !
    3

    View Slide

  58. Évaluation des pondérations
    • Success@k
    • probabilité que le CFV choisi soit dans les k premiers
    • plusieurs recherches avec chaque méthode
    • Exemple de calcul
    • S@3 = 0
    • S@5 = 1/2
    • S@8 = 1
    14
    SPARQL
    Document
    Brouillon
    Ontologies
    Publication
    RDF
    Graphe
    Web sém
    !
    5
    8
    !
    3

    View Slide

  59. Comparaison pondérations
    15
    S@20 S@50 S@100

    View Slide

  60. Comparaison pondérations
    15
    Hashtag Fréquence Diversification Temporelle Personnalisation
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    0,7
    S@20 S@50 S@100

    View Slide

  61. Comparaison pondérations
    15
    Hashtag Fréquence Diversification Temporelle Personnalisation
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    0,7
    S@20 S@50 S@100

    View Slide

  62. Comparaison pondérations
    15
    Hashtag Fréquence Diversification Temporelle Personnalisation
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    0,7
    S@20 S@50 S@100
    Sémantique

    View Slide

  63. Comparaison pondérations
    15
    Hashtag Fréquence Diversification Temporelle Personnalisation
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    0,7
    S@20 S@50 S@100
    Sémantique

    View Slide

  64. Comparaison pondérations
    15
    Hashtag Fréquence Diversification Temporelle Personnalisation
    0
    0,1
    0,2
    0,3
    0,4
    0,5
    0,6
    0,7
    S@20 S@50 S@100
    Sémantique

    View Slide

  65. Comparaison enrichissements
    16
    Contenu seul Contenu + liens

    View Slide

  66. Comparaison enrichissements
    16
    Facettes / tweet
    0 1 2 3 4 5 6
    Contenu seul Contenu + liens
    ! 3

    View Slide

  67. Comparaison enrichissements
    16
    Facettes / tweet
    0 1 2 3 4 5 6
    Contenu seul Contenu + liens
    Tweets candidats
    0 250 500 750 1000 1250 1500 1750 2000
    ! 3
    / 9

    View Slide

  68. Détermination d’expertise par email
    17

    View Slide

  69. Repérer des experts
    18

    View Slide

  70. Repérer des experts
    18
    • profiter des échanges informels dans une organisation

    View Slide

  71. Repérer des experts
    18
    • profiter des échanges informels dans une organisation
    • repérer les compétences dupliquées

    View Slide

  72. Repérer des experts
    18
    • profiter des échanges informels dans une organisation
    • repérer les compétences dupliquées
    • trouver des experts méconnus

    View Slide

  73. Extraction sémantique
    19

    View Slide

  74. Extraction sémantique
    19

    View Slide

  75. Extraction sémantique
    19

    View Slide

  76. Profil utilisateur
    20

    View Slide

  77. Mots-clés
    Entités
    Concepts
    Profil utilisateur
    20

    View Slide

  78. Mots-clés
    Entités
    Concepts
    Profil utilisateur
    20
    Sémantique

    View Slide

  79. Mots-clés
    Entités
    Concepts
    Profil utilisateur
    20
    Sémantique
    Efficacité ?

    View Slide

  80. Expérimentation
    21

    View Slide

  81. Expérimentation
    21
    • mailing-list de l’OAK Sheffield
    • équivalent KIS Polytech’

    View Slide

  82. Expérimentation
    21
    • mailing-list de l’OAK Sheffield
    • équivalent KIS Polytech’
    • membres (humains) évaluent la similarité de leurs pairs
    • questionnaires : 1 (très différents) à 10 (très similaires)

    View Slide

  83. Expérimentation
    21
    • mailing-list de l’OAK Sheffield
    • équivalent KIS Polytech’
    • membres (humains) évaluent la similarité de leurs pairs
    • questionnaires : 1 (très différents) à 10 (très similaires)
    • comparaison avec les similarités entre profils sémantiques

    View Slide

  84. Similarités de profils
    22

    View Slide

  85. Similarités de profils
    22

    View Slide

  86. Index de Jaccard
    23

    View Slide

  87. Corrélation (de Pearson)
    24

    View Slide

  88. Corrélation (de Pearson)
    24
    • lien entre deux variables
    • 1 = accord total
    • 0 = aucun lien

    View Slide

  89. Résultats
    25

    View Slide

  90. Résultats
    25
    Mots-clés
    Entités
    Concepts
    0!% 25!% 50!% 75!% 100!%
    Corrélation profil logiciel / profil humain

    View Slide

  91. Limitations
    26

    View Slide

  92. Calcul de corrélation
    27

    View Slide

  93. Calcul de corrélation
    27
    Similarité logicielle
    Similarité humaine
    Corrélation de Pearson

    View Slide

  94. Calcul de corrélation
    27
    Similarité logicielle
    Similarité humaine
    Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

    View Slide

  95. Calcul de corrélation
    27
    Similarité logicielle ! [0, 1]
    Similarité humaine
    Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

    View Slide

  96. Calcul de corrélation
    27
    Similarité logicielle ! [0, 1]
    Similarité humaine ! ⟦1, 10⟧ " { " }
    Corrélation de Pearson ! ീ([0,!1]2,![0,!1])

    View Slide

  97. Calcul de corrélation
    27
    Similarité logicielle ! [0, 1]
    Similarité humaine ! ⟦1, 10⟧ " { " }
    Corrélation de Pearson ! ീ([0,!1]2,![0,!1])
    f ?

    View Slide

  98. Données expérimentales
    28

    View Slide

  99. Données expérimentales
    28
    • mailing-list OAK : 25 membres

    View Slide

  100. Données expérimentales
    28
    • mailing-list OAK : 25 membres
    • seuls 15 acceptent de répondre au questionnaire

    View Slide

  101. Données expérimentales
    28
    • mailing-list OAK : 25 membres
    • seuls 15 acceptent de répondre au questionnaire
    • pourquoi ?

    View Slide

  102. Données expérimentales
    28
    • mailing-list OAK : 25 membres
    • seuls 15 acceptent de répondre au questionnaire
    • pourquoi ?
    • significatif ?

    View Slide

  103. Données expérimentales
    28
    • mailing-list OAK : 25 membres
    • seuls 15 acceptent de répondre au questionnaire
    • pourquoi ?
    • significatif ?
    • biais ?

    View Slide

  104. Significances
    29

    View Slide

  105. Significances
    • significance = probabilité que la corrélation
    soit due au hasard
    • 0 = excellent
    • 1 = absolument pas significatif
    29

    View Slide

  106. Significances
    • significance = probabilité que la corrélation
    soit due au hasard
    • 0 = excellent
    • 1 = absolument pas significatif
    29

    View Slide

  107. Significances
    • significance = probabilité que la corrélation
    soit due au hasard
    • 0 = excellent
    • 1 = absolument pas significatif
    • mots-clés : seuls 7 / 15 à p < 0,05
    29

    View Slide

  108. Significances
    • significance = probabilité que la corrélation
    soit due au hasard
    • 0 = excellent
    • 1 = absolument pas significatif
    • mots-clés : seuls 7 / 15 à p < 0,05
    • entités : 6 / 15
    • concepts : 8 / 15
    • 1 chance sur 20 d’être due au hasard
    29

    View Slide

  109. Accord entre évaluateurs
    30

    View Slide

  110. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    30

    View Slide

  111. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    30

    View Slide

  112. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    • 3 /15 = 20% !
    30

    View Slide

  113. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    • 3 /15 = 20% !
    • …et ρX,Y ∈ ീ([0,!1]2,![0,!1])
    30

    View Slide

  114. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    • 3 /15 = 20% !
    • …et ρX,Y ∈ ീ([0,!1]2,![0,!1])
    • corrélation entre une V.A.R et 14 autres ?!
    30

    View Slide

  115. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    • 3 /15 = 20% !
    • …et ρX,Y ∈ ീ([0,!1]2,![0,!1])
    • corrélation entre une V.A.R et 14 autres ?!
    • déconseillé par plusieurs articles
    30

    View Slide

  116. Accord entre évaluateurs
    • “Pearson’s correlation at p < 0,001”
    • 3 réfutant l’hypothèse : “Agr inférieur”
    • 3 /15 = 20% !
    • …et ρX,Y ∈ ീ([0,!1]2,![0,!1])
    • corrélation entre une V.A.R et 14 autres ?!
    • déconseillé par plusieurs articles
    • métrique existante : kappa de Fleiss
    30

    View Slide

  117. Limitations : Twitter
    31

    View Slide

  118. Limitations : Twitter
    • nombre d’utilisateurs test non précisé
    31

    View Slide

  119. Limitations : Twitter
    • nombre d’utilisateurs test non précisé
    • corpus > 30 millions tweets, 20000 utilisateurs
    31

    View Slide

  120. Limitations : Twitter
    • nombre d’utilisateurs test non précisé
    • corpus > 30 millions tweets, 20000 utilisateurs
    • API citée non disponible
    31

    View Slide

  121. Limitations : Twitter
    • nombre d’utilisateurs test non précisé
    • corpus > 30 millions tweets, 20000 utilisateurs
    • API citée non disponible
    • Twitter : “Annotations is still more concept then reality. Maybe some day we'll
    have more to say about them”
    31

    View Slide

  122. Limitations : Twitter
    • nombre d’utilisateurs test non précisé
    • corpus > 30 millions tweets, 20000 utilisateurs
    • API citée non disponible
    • Twitter : “Annotations is still more concept then reality. Maybe some day we'll
    have more to say about them”
    • pas d’incidence sur l’expérimentation
    31

    View Slide

  123. Conclusion
    32

    View Slide

  124. Conclusion
    32
    • augmentation sémantique très efficace pour la recherche

    View Slide

  125. Conclusion
    32
    • augmentation sémantique très efficace pour la recherche
    • pas de conclusion quant à la détermination d’expertise

    View Slide

  126. Conclusion
    32
    • augmentation sémantique très efficace pour la recherche
    • pas de conclusion quant à la détermination d’expertise
    • utiliser une requête à facettes pour trouver les experts ?

    View Slide

  127. Merci de votre attention !
    • Articles traités
    • F. Abel, I. Celik, G.J. Houben, P. Siehndel (2011) :
    Leveraging the Semantics of Tweets for
    Adaptive Faceted Search on Twitter
    • A.L. Gentile, V. Lanfranchi, S. Mazumdar, F.
    Ciravegna (2011) : Extracting Semantic User
    Networks From Informal Communication
    Exchanges.
    • Bibliographie
    • R. Snow, B. O’Connor, D. Jurafsky, Andrew Y. Ng
    (2008) : Cheap and Fast—But is it Good?
    Evaluating Non-Expert Annotations for
    Natural Language Tasks (p. 3)
    • R.J. Hunt (1986) : Percent Agreement, Pearson's
    Correlation, and Kappa as Measures of Inter-
    examiner Reliability (p.128)
    • J.L. Fleiss (1971) : Measuring nominal scale
    agreement among many raters
    • D. Milne, I.H. Witten (2008) : Learning to Link
    with Wikipedia
    • G.E. Dallal (2003) : Why P=0.05?
    • J.M. Bland, D.G. Altman (1995) : Multiple
    significance tests: the Bonferroni method
    • Crédits
    • Icône Twitter © Twitter
    • Icônes “Enveloppe”, “Cerveau”, “Reboot”,
    “Montre” : CC-BY-SA ou domaine public,
    The Noun Project
    33
    Des questions ?
    Matti Schneider-Ghibaudo | @matti_sg

    View Slide