Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Parseo_QA.pdf

Gamar
November 21, 2014

 Parseo_QA.pdf

Parseo de preguntas en español

Gamar

November 21, 2014
Tweet

More Decks by Gamar

Other Decks in Education

Transcript

  1. Introducción • Parseo de Preguntas para QA en Español •

    Iria Gayo • Procedimientos del Taller de Investigación de Estudiantes asociados con RANLP-2011, págs. 73-78 Hissar, Bulgaria, 13 de Septiembre del 2011.
  2. Resumen • Contraste entre parseo general y el parseo de

    preguntas. • Comparación de la herramienta SpQA con parsers generales. • Evaluación de parseo de preguntas. • Trabajo futuro.
  3. Parseo de Preguntas • Se puede utilizar un parser general.

    Sin embargo, al menos para el idioma inglés, esta opción trae algunas consecuencias. – La precisión disminuye significativamente con datos fuera del dominio. Particularmente para analísis de preguntas. • En Español no hay datos que comparen la precisión de los parsers generales con los parsers de de preguntas. – Se procede a comparar los estudios que miden el rendimiento de los parsers de preguntas con el rendimiento de los parsers generales.
  4. Parseo de Preguntas Tipo/Parser Txala Hispal (G) Reconocimiento 81.1/80.9 (Q)

    Reconocimiento 91.6 87.8 (Pint) Reconocimiento 100.0 97.0 (G) Etiquetamiento 73.9/74.3 95.3 (P) Etiquetamiento 71.3 68.2 (Pint) Etiquetamiento 62.0 52.5 Tipo/Parser Hispal Txala DepPatt. (Todo) Reconocimiento 87.8 91.6 86.1 (Int) Reconocimiento 97.0 100.0 90.0 (Todo) Etiquetamiento 68.2 71.3 51.1 (Int) Etiquetamiento 52.5 62.0 25.0 Tabla 1: Evaluación de 3 parsers de español en análisis de preguntas. Tabla 2: Comparación de resultados en general (G), análisis de preguntas (P para todos los constituyentes, Pint para el constituyente interrogativo) de 2 parsers de español.
  5. SpQA • Parser (bajo desarrollo) diseñado para análisis de preguntas

    en español bajo un contexto QA. • Su objetivo es obtener tanta información lingüística como sea posible de preguntas. – Interés en información sintáctica y semántica .
  6. SpQA • Bajo la siguiente pregunta: ¿Qué dibujo Leonardo Da

    Vinci en 1492? • Reconoce y etiqueta todo los constituyentes sintácticos, y muestra las relaciones de dependencia entre ellas. • Identifica el objetivo sintáctico y semántico de la pregunta • Reconoce y especifica estructuras como fechas, cantidades y pronombres propios. [[PN3: Leonardo Da Vinci ] <SUBJ [ V:dibujar<qtOBJ [ENTITY] <DATEen 1492 ]] • Identifica seis diferentes objetivos semánticos: – Persona, Entidad, Cantidad, Tiempo, Lugar y Modo • Busca cubrir todos los tipos de estructuras interrogativas directas.
  7. Evaluación • Se decidió comparar la evaluación usando los mismos

    datos y método de evaluación presentados anteriormente. A su vez se comparan los resultados con los tres parsers mencionados anteriormente. • Como métrica se aplica PARSEVAL a dos variables en análisis de preguntas: reconocimiento y etiquetamiento de constituyente. • Para cada variable se miden: – Precisión – Exhaustividad – Puntaje F1
  8. Corpus a Evaluar • El corpus esta hecho de 100

    preguntas extraídas de CLEF 2004, 2005 y 2007. • Todas las preguntas son de tipo informativa (correspondiente a wh- en inglés) • Las preguntas seleccionadas fueron acorde a su estructura sintáctica. – Se busca obtener una gran variedad de estructuras sintácticas, como diferentes constituyentes interrogativos,.
  9. Estándar de Oro • Esta hecho de 100 preguntas del

    corpus a evaluar analizado manualmente por una sola persona. • Su análisis consiste en identificar la estructura sintáctica principal: verbos y argumentos, etiquetados con su función sintáctica. ¿Qué robaba el oso Yogui? 3 constituyentes: Verbo: robaba Objeto directo interrogativo: Qué Sujeto: el oso Yogui • El análisis sintético es simplificado, – Solo se consideran seis etiquetas sintácticas: Sujeto (S), objeto directo (O), objeto indirecto (IO), predicativo (PR), complemente circunstancial (CC) y modificador (MOD) – Frases verbales son tratados como un solo constituyente: ha sido premiado
  10. Resultados • Inicialmente se muestran los resultados correspondientes a los

    constituyentes de preguntas en general. • Posteriormente los resultados relacionados con los constituyentes interrogativos. (reconocimiento y etiquetamiento para ambos) • Su análisis consiste en identificar la estructura sintáctica principal: verbos y argumentos, etiquetados con su función sintáctica. ¿Qué robaba el oso Yogui? 3 constituyentes: Verbo: robaba Objeto directo interrogativo: Qué Sujeto: el oso Yogui • El análisis sintético es simplificado, – Solo se consideran seis etiquetas sintácticas: Sujeto (S), objeto directo (O), objeto indirecto (IO), predicativo (PR), complemente circunstancial (CC) y modificador (MOD) – Frases verbales son tratados como un solo constituyente: ha sido premiado
  11. Resultados Hispal Txala DepPatt. SpQA precisión 86.9 89.9 88.8 91.2

    exhausti vidad 88.7 93.3 83.6 93.6 Puntaje F 87.8 91.6 86.1 92.4 Hispal Txala DepPatt. SpQA precisión 72.5 73.9 56.1 94.5 exhausti vidad 64.3 69.0 46.9 88.5 Puntaje F 68.2 71.3 51.1 91.4 Hispal Txala DepPatt. SpQA precisión 96.1 100.0 90.0 99.0 exhaustiv idad 98.0 100.0 90.0 99.0 Puntaje F 97.0 100.0 90.0 99.0 Hispal Txala DepPatt. SpQA precisión 52.0 62.0 25.0 94.9 exhaustiv idad 53.0 62.0 25.0 94.0 Puntaje F 52.5 62.0 25.0 94.5 Tabla 3: Reconocimiento de constituyente Tabla 5: Reconocimiento de constituyente interrogativo Tabla 4: Etiquetamiento de constituyente Tabla 6: Etiquetamiento de constituyente interrogativo
  12. Conclusión • El procesamiento de preguntas es un paso crucial

    para los sistemas de QA. Para su procesamiento, el análisis sintáctico juega un papel importante. • Se presentó la herramienta SpQA, el cual actualmente reconoce y etiqueta todos los constituyentes de las preguntas. • Comparado con los otros parser disponibles gratuitamente: Hispal, Txala y DepPattern, SpQA muestra mejores resultados para reconocimiento y etiquetamiento de constituyentes y constituyentes interrogativos. • El trabajo futuro consiste en los aspectos semánticos y sintácticos de SpQA. Principalmente se debe ampliar la gramática de manera de cubrir todas las estructuras de las preguntas en español.