Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pytology - Rumo ao Cálculo de Relevância sobre ...

Pytology - Rumo ao Cálculo de Relevância sobre dados RDF

With the wide availability of RDF datasets on the Web, it becomes increasingly complex the manual analysis to understand the domains of ontologies and their levels of links. Therefore, a challenge is the semi-automatic identification of the relevant relations at the ontology, which are important to define the semantics of the data. This work presents a method to calculate relevance values to the predicates in an ontology by using topological analysis. We show the consolidation of this work with a tool named Pytology and the experimental results generated by using available datasets on the web.

Avatar for Insight Data Science Lab

Insight Data Science Lab

August 26, 2018
Tweet

More Decks by Insight Data Science Lab

Other Decks in Research

Transcript

  1. Pytology: Rumo ao Cálculo de Relevância sobre dados RDF Victor

    Vieira Barros Leal da Silveira José Antônio Fernandes de Macedo Lucas Peres Gaspar David Araújo Abreu
  2. O RDF O modelo simples do RDF ▹ Permite a

    junção, divulgação e compartilhamento de dados estruturados e semiestruturados. ▹ Gera um grafo direcionado nos quais as arestas são ligações nomeadas entre duas fontes, representadas pelos nós do grafo. 4 INTRODUÇÃO
  3. Recuperação de Informações Dada a disponibilidade de um grande quantidade

    de fontes RDF (e.g. Linked Data) é necessário prover mecanismos eficazes para realizar recuperação sobre essas bases. 5 INTRODUÇÃO
  4. Busca Exploratória Nem sempre o usuário possui conhecimento sobre os

    esquemas das fontes RDF 6 INTRODUÇÃO Fonte: Marchionini, Gary. "Exploratory search: from finding to understanding." Communications of the ACM 49.4 (2006): 41-46.
  5. 7 Motivação TRABALHO OBJETIVO TIPO DO PROBLEMA CALCULA A RELEVÂNCIA

    (ELBASSUONI; BLANCO, 2011) Obter triplas a partir de keywords Recuperação de Informações NÃO (MIRIZZI; NOIA, 2010) Exploração de RDF a partir de predicados pré-definidos Busca Exploratória NÃO (MUSETTI et al., 2012) Exploração de RDF a partir de glossário de predicados Busca Exploratória NÃO
  6. O Pytology : ▹ Calcula um valor para determinar a

    relevância dos predicados baseando-se na topologia do grafo RDF ▹ Ranquea os predicados ▹ Provê métrica de comparação 8 Motivação
  7. Conceitos 9 Medidas de centralidade Centralidade é uma medida que

    tenta estimar o quão importante é um nó no grafo. Existem vários tipos de medidas de centralidade dentre elas temos centralidade de grau, intermediação, proximidade e de vetor próprio.
  8. Técnicas de Centralidade Betweenness Técnica baseada em caminhos mínimos entre

    vértices. Eigenvectors Técnica de vetor de pesos, funciona bem somente em grafos fortemente conexos. PageRank Acrescenta a técnica de Katz um fator de decaimento da importância. 10 Closeness Técnica que utiliza a distância de um nó a todos os outros. Katz Eigenvectors Extensão do Eigenvectors, porém usa a conectividade dos vértices.
  9. • Unificação das ocorrências os literais, permitindo que literais de

    mesmo valor sejam tratados como um mesmo nó Objetificação dos Literais 1 2 3 4 ETAPAS PRINCIPAIS 12
  10. 1 2 3 4 • Aplicação das métricas de centralidades

    já mencionadas para calcular as relevâncias dos nós • OBS: somente o Betweenness é capaz de ser aplicado diretamente nas arestas Métricas de Centralidade ETAPAS PRINCIPAIS 13
  11. 1 2 3 4 • As arestas possuem uma semântica

    associada a elas • Um mesmo tipo de aresta pode ocorrer de diversas vezes no grafo • É preciso levar em conta as frequencias das ocorrencias dos predicados no grafo Distribuição de Centralidade ETAPAS PRINCIPAIS 14
  12. 1 2 3 4 Calculamos a relevância dos predicados levando

    em conta os valores dos nós. Distribuição de Centralidade ETAPAS PRINCIPAIS 15 • Cn : Centralidade do nó “n“ • Fr : Frequência da relação “r” • Cr : Relevância da relação “r”
  13. 1 2 3 4 Podemos obter vários ranqueamentos diferentes. Logo,

    para não descartarmos nenhum dos rankings, usamos as métricas de correlação para compará-los: • Spearman: Correlação linear e não linear • Pearson: Correlação linear • Kendall: Correlação Ordinal Métricas de Correlação ETAPAS PRINCIPAIS 16
  14. 17 Análises • Base de dados Nobeis(datahub.io) • Utilizamos as

    seguintes métricas: ◦ Betweenness (B) ◦ Betweenness com Distribuição (BD) ◦ PageRank (PR) ◦ Closeness (C) ◦ Eigenvectors (E) ◦ Katz Eigenvectors(K)
  15. 18 Análises Nobel Prize Laureate nobel prize prize file category

    Prize File Laureate Award laureate award laureate literal motivation literal year literal field Award File award file Nobel Prize Category literal gender
  16. 19 Análises Posição B BD C E K PR 1

    label label type label label label 2 motivation gender year motivation year year 3 gender motivation awardFile gender motivation motivation 4 year year label year gender gender 5 share type prizeFile share type type • Informações particulares ao schema RDF • Informações particulares ao domínio dos dados
  17. 23 Análises • Pouca variação em técnicas semelhantes • Maior

    variação é na técnica do Closeness • Pouca variação entre Betweenness e Betweenness com Distribuição • Kendall é a métrica que possui piores resultados
  18. Conclusão • O Pytology computa relevância dos predicados; • Predicados

    com funcionalidades distintas estão dispersos no mesmo ranqueamento; • Os experimentos evidenciam que a distribuição das centralidades para os predicado consegue refletir o valor da centralidade, uma vez que as duas abordagens do Betweenness são semelhantes. 24
  19. 25 Utilizar Métricas de comparação para gerar um ranqueamento final

    Exploração do Schema Exploração da Semântica PRÓXIMOS PASSOS
  20. Trabalhos relacionados a: ▹ Recuperação de Informações ▸ (ELBASSUONI; BLANCO,

    2011) , que trabalha na recuperação de keywords em grafos RDF. ▹ Busca Exploratória ▸ LED (MIRIZZI; NOIA, 2010) . ▸ Aeemo (MUSETTI et al., 2012). 27 Motivação
  21. ▹ (ELBASSUONI; BLANCO, 2011) ▸ Não consegue determinar a relevância

    dos predicados na etapa de ranqueamento de subgrafos. ▹ LED (MIRIZZI; NOIA, 2010) ▸ Utiliza predicados preestabelecidos para navegar no base como skos:broader e skos:subject. 28 Motivação
  22. ▹ Aeemo (MUSETTI et al., 2012) ▸ Utiliza padrões de

    conhecimento gerados em uma determinada base, em particular a base do Wikipédia, e usa os padrões para efetuar filtragem e enriquecimento de busca. 29 Motivação
  23. 37 Análises Spearman C E B BD K PR C

    1 0.729 0.751 0.770 0.823 0.793 E 0.729 1 0.830 0.946 0.843 0.847 B 0.751 0.890 1 0.914 0.806 0.790 BD 0.770 0.946 0.914 1 0.811 0.811 K 0.823 0.843 0.806 0.811 1 0.992 PR 0.793 0.847 0.790 0.811 0.992 1 Técnica de correlação entre ranks que mede relações lineares e não lineares. Pior correlação: Closeness - Eigenvectors Melhor correlação: Page rank - Katz
  24. 38 Análises Pearson C E B BD K PR C

    1 0.294 0.257 0.354 0.334 0.307 E 0.294 1 0.971 0.981 0.989 0.957 B 0.257 0.971 1 0.991 0.985 0.990 BD 0.354 0.981 0.991 1 0.993 0.985 K 0.334 0.989 0.985 0.993 1 0.986 PR 0.307 0.957 0.990 0.985 0.986 1 Técnica de correlação entre ranks que mede relações lineares. Pior correlação: Closeness - Betweenness Melhor correlação: BetweenessD - Katz
  25. 39 Análises Kendall C E B BD K PR C

    1 0.575 0.586 0.630 0.646 0.624 E 0.575 1 0.739 0.838 0.733 0.740 B 0.586 0.739 1 0.769 0.673 0.642 BD 0.630 0.838 0.769 1 0.683 0.706 K 0.646 0.733 0.673 0.693 1 0.963 PR 0.624 0.740 0.642 0.706 0.963 1 Técnica de correlação entre ranks que mede relações ordinal. Pior correlação: Closeness - Eigenvector Melhor correlação: Katz - Page Rank