sistemas de recuperação de informação Amanda Damasceno de Souza Claudiney Vander Ramos Fernanda Farinelli Jose Alberto Grossi Junior Lucélia Branquinho Rogério Amaral Bonatti
Organização do Conhecimento • Sistemas de Recuperação de Informação • Ontologias 3. Modelos conceituais como sistemas de organização do conhecimento 4. Ontologias biomédicas 5. Ontologias para sistemas de informação 6. Ontologias para recuperação de informação 7. Ontologias e mineração de dados 8. Ontologias e grafos
acesso, representação, organização, apresentação e manutenção de informações. • Estudos na CI voltados para a organização, representação e recuperação da informação e do conhecimento. o Sistemas de Recuperação da Informação (SRI). o Sistemas de Organização de Conhecimento (KOS). o Ontologias.
em um documento, independentemente do suporte e da forma como o conhecimento tenha sido registrado. (Pinto, 2003 apud Almeida, 2006). • Para representar o conhecimento é necessário que os termos e conceitos em concordância com comunidade ou grupo de sujeitos. (Almeida, 2005; Alvarenga, 2003) • A principal função da representação é criar uma estrutura eficiente para a recuperação da informação.
visa à construção de modelos de mundo que se constituem em abstrações da realidade” • “[...] é fruto de um processo de análise de domínio e procura refletir uma visão consensual sobre a realidade que se pretende representar”. HUSSERL (1996) • KOS são todos os tipos de esquemas para organizar a informação e promover a gestão do conhecimento. Souza, Tudhope e Almeida (2010)
em determinar quais documentos de uma coleção possui maior relevância dentro de um conjunto de palavras-chaves que o usuário deseja. (BAEZA-YATES, 1999). • Em um SRI o usuário expressa sua necessidade de informação por meio de uma expressão de busca, composta geralmente por um conjunto de termos que a representa linguisticamente.
um ambiente linguístico cuja eficiência depende de um controle adequado da linguagem de representação dos itens de informação e das requisições de seus usuários. • Insere-se assim como um agente mediador na comunicação entre um estoque de informação e os seus potenciais requisitantes. • Em um SRI, o nível e a precisão das representações dos itens de informação e das necessidades de informação dos usuários afetam diretamente no desempenho do sistema.
Filosofia (Aristóteles) à àquilo que existe, entender o mundo (entidades e relações). • CC à engenharia de software, modelagem de SI para representação do conhecimento. (GRUBER, 1993). • CI à representação formal de um domínio do conhecimento. (VICKERY, 1997; SOERGEL, 1997; ALMEIDA E BAX, 2003).
podem ser classificadas em ontologias genéricas, ontologias de domínio, ontologias de tarefa e ontologias de aplicação. ◦ Genéricas: conceitos gerais. ◦ Domínio: domínios genéricos a fim de se evitar contradições entre dois conceitos. ◦ Tarefa: funcionalidade de um domínio. ◦ Aplicação: conceitos dependentes do domínio e da tarefa.
(OLIVEIRA, 2009) • CC à no desenvolvimento de SI, é o modelo voltado para entendimento humano, representa uma tradução da estrutura do domínio de conhecimento. (ALMEIDA et. al., 2009; ALMEIDA, 2006).
domínio de maneira não ambígua e consistente. (OLIVEIRA, 2009). • Autores que defendem a representação de domínios de conhecimento por meio de uma ontologia formal: GUARINO (1998, 1998A, 1994, 1997); GRUBER (1993);
vocabulários, V1 e V2, associados a dois Sis diferentes. • Estabelecer relações semânticas entre os termos de V1 e os termos de V2. • O significado de cada termo de V1 e de V2 expresso em uma linguagem que seja mais expressiva que os próprios V1 e V2.
que possibilita representação do conhecimento. (SOERGEL, 1997). • Ontologias podem ter várias funções na construção do modelo conceitual, seja para representar o conhecimento da organização ou para descrição ou conceituação de um domínio. (GUARINO, 1998; GRUBER, 1993); SOWA, 1999; OLIVEIRA, 2009).
Experiência pessoal Literatura científica Queixas Exame físico Resultados anteriores • O volume de informações médicas publicadas na Internet está duplicando a cada 6 meses. • Após o médico se formar, cerca de 50% das informações obtidas está obsoleta . • Crescente número de fontes de dados e conhecimentos biomédicos. • SI permitem aumento das trocas de ideias entre campos científicos e a possibilidade de buscas mais exaustivas.
realizar a integração das informações e interoperabilidade entre sistemas médicos. • Pode ser utilizada para representar informações clinicas de forma consistentes e confiáveis nos registros eletrônicos de saúde – Prontuário Eletrônico do Paciente (PEP) por fornecer um núcleo terminológico consistente para este. Manter sistemas de referência semântica, muitas vezes caracterizados como vocabulários, tesauros, terminologias, e ontologias
1. Classificação Internacional de Doenças – CID 2. Medical Subject Headings – MeSH 3. Gene Ontology – GO 4. Systematized Nomenclature of Medicine - Clinical Terms - SNOMED CT 5. Generalized Architecture for Languages, Encyclopaedias and Nomenclatures - openGALEN, 6. Foundational Model of Anatomy – FMA 7. Unified Medical Language System – UMLS 8. Open Biomedical Ontologies (OBO) Foundry 9. Blood Ontology – Ontologia do sangue – UFMG 10. NCI- Thesaurus - terminologias sobre câncer
banco de dados) o Pré-processamento, Mineração de Dados e Pós-processamento. • Mineração de dados o Análise de dados o Técnicas/Algoritmos para revelar padrões ocultos
Dados incorporar conhecimento ao processo com a adição de Ontologias. • Mineração de Dados para as Ontologias adicionar conhecimento de domínio a informação de entrada ou até mesmo usar essas Ontologias para representar os resultados.
de informação contribuem para a solução de vários problemas empresariais, independentemente do seu tipo ou do seu uso. o Operacional, Conhecimento, Gerencial, Estratégico
do desenvolvimento de software, fez com que paradigmas fossem quebrados e que surgissem novas abordagens: o Desenvolvimento rápido de software: Métodos ágeis, Extreme Programming, o Desenvolvimento rápido de aplicações; o Reuso: Utilização de design patterns, Framework de aplicações; o Engenharia de software baseada em componentes; o Desenvolvimento de sistemas críticos; o Evolução de software.
Informação, ontologias são artefatos tecnológicos usados em sistemas de informação. • Elas consistem de um vocabulário especifico para descrever uma parte da realidade. • Ontologias são usadas para validar modelos e esquemas conceituais.
aquisição, organização, armazenamento, recuperação e distribuição de informação. • SARACEVIC(1999): “a RI pode ser considerada a vertente tecnológica da CI, e é resultado da relação desta com a Ciência da Computação”. • Recuperar informação consiste em identificar, em um acervo documental, quais os documentos que satisfazem total ou parcialmente a uma determinada necessidade de informação do usuário.
é relevante ou não para a necessidade do usuário • Esse conceito é essencial em RI pois o seu objetivo primordial consiste em: o Recuperar todos os documentos relevantes (revocação) o Recuperar a menor quantidade possível de documentos não relevantes (precisão)
necessidade de informação. o Função de busca: compara as representações dos documentos com a representação da expressão de busca. o Centro do processo de recuperação § Ranking dos documentos relevantes
Melhorar a precisão e a revocação em sistemas de RI textual. o Incorporar conceitos do domínio no processo de busca. o Duas direções principais: § Expansão de consultas através de termos relacionados § Uso de medidas de distância conceitual
Web) • Busca/recuperação baseada em texto (full- text-search) - limitações: o Vagueza/indeterminação da linguagem natural o Conceitos de alto nível (não podem ser recuperados) o Relações semânticas (não podem ser exploradas) o Dimensão temporal (não pode ser tratada)
DE CONSULTA Índices Uma representação dos documentos Consultas PROCESSO DE RECUPERAÇÃO Lista de documentos recuperados PERDA DE INFORMAÇÃO Fonte: Cardoso(2007)
o Indexação automática baseada em ontologias (índice acrescido de termos) o Expansão de consulta baseada em ontologias (modificação da consulta) o SRI semânticos (documentos previamente anotados) o Interfaces de busca (definir termos de busca)
que é ontologia. Dificuldade de consenso sobre os conceitos, entidades e relações que as ontologias se propõe a representar de um domínio. Falta de consenso sobre a metodologia ideal de desenvolvimento de ontologias. A escolha da ontologia de referência apropriada. Dificuldade de reuso de ontologias. Trabalho interdisciplinar que exige diferentes tipos de profissionais.