Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Anotación de errores de artículos en textos de aprendizaje en español: diseño y evaluación del esquema de anotación

Gamar
July 14, 2015

Anotación de errores de artículos en textos de aprendizaje en español: diseño y evaluación del esquema de anotación

Gamar

July 14, 2015
Tweet

More Decks by Gamar

Other Decks in Research

Transcript

  1. Introducción Annotating article errors in Spanish learner texts: design and

    evaluation of an annotation scheme María del Pilar Valverde Ibañez y Akira Ohtani Proceedings of the 28th Pacific Asia Conference on Language, Information and Computation (2014) Anotación de errores de artículos en textos de aprendizaje en español: diseño y evaluación del esquema de anotación 2
  2. Introducción La anotación de textos de aprendizaje es necesaria para

    la investigación lingüística y el desarrollo de aplicaciones de aprendizaje. El español es el idioma extranjero más estudiado en Estados Unidos y es el segundo idioma extranjero más estudiado en otros países. La detección automática de errores se concentra en palabras funcionales como artículos, preposiciones y partículas. Son las palabras más frecuentes en cualquier idioma y corresponde a la mayor fuente de errores para aprendices. El trabajo experimenta con un esquema de anotación preliminar para errores de artículos analizando el desacuerdo entre los anotadores para luego refinarlo. 3
  3. Artículos de Español En español los artículos pueden ser definitivos

    o indefinidos y su forma cambiar de acuerdo al género y número del sustantivo que complementan, tal como se muestra en la Tabla 1. Tabla 1: Artículos de español 4
  4. Artículos de Español El uso de artículos es complejo porque

    es el resultado de la interacción de factores pragmáticos, semánticos, sintácticos y léxicos. Se refieren a clases de personas u objetos. Los hijos dan muchos disgustos. Children cause a great deal of trouble. Se refieren a algo identificable para el oyente. El hijo de María tiene dos años. Maria’s son is two years old. Se refieren a un objeto de una clase particular. Tener un hijo es lo mejor que te puede pasar en esta vida. Having a child is the best thing that can happen in life. Se refiere a un monto indefinido de algo. No tengo hijos pero tengo sobrinos. I do not have children but I have nephews. 5
  5. Dificultades para alumnos El corpus TenTen (Corpus de Español con

    9 billones de palabras) los artículos definidos son el tipo más frecuente de palabra y los artículos indefinidos corresponden al 6to. Aproximadamente 1 de cada 10 palabras de este corpus son artículos. Los artículos corresponden a uno de los errores gramaticales más frecuentes, en especial para las personas cuya lengua nativa no tenga artículos como el Chino, Japonés, Coreano o Ruso. Con respecto a los japoneses un estudio (Fernández 1997) indica un promedio de 2.2 errores de artículo por cada 100 palabras. La dificultad de los artículos del español es comparable con la del inglés. Para este trabajo se decidió usar alumnos japoneses para desarrollar el esquema de anotación. 6
  6. Experimento La anotación de errores de textos de aprendizaje es

    una tarea difícil por muchas razones. Las oraciones de los alumnos contienen a lo menudo errores que dificultan su comprensión. Errores como acuerdo entre género y número son reglas concisas, sin embargo los errores como la presencia de artículo y elección de preposición no están claramente definidos. En algunos casos, se puede requerir un mayor contexto para determinar el uso correcto del artículo. 7
  7. Experimento Se realiza el experimento de anotación de errores con

    los siguientes objetivos: Calcular el acuerdo entre los anotadores Analizar los tipos y fuentes de desacuerdos para identificar las principales dificultades que enfrentan los anotadores. Refinar los lineamientos y el esquema de anotación para la anotación de errores. 8
  8. Colección de Datos Se usaron textos de aprendizaje escritos por

    estudiantes de español japoneses con un nivel de proficiencia intermedio en la Universidad de la Prefectura de Aichi Se extrajeron oraciones que contienen al menos un error de artículo. 50 fueron extraídas para cada tipo (definido, indefinido y articulo cero). Adicionalmente se extrajo el mismo número de oraciones pero con al menos un uso correcto de artículo. Para cada oración únicamente la frase nominal resaltada debe ser anotada. 9
  9. Esquema de anotación preliminar Las 300 frases nominales fueron anotadas

    por cuatro anotadores. Los anotadores fueron 2 expertos (profesores de español como una lengua extranjera) llamados E1 y E2, y 2 no expertos (nativos de español sin experiencia en anotación de corpus) llamados NE1 y NE2. La misma frase nominal fue anotada en las mismas oraciones. Se proporcionó la oración objetivo junto con una oración precedente y procedente. La frase nominal fue clasificada en una de las siguiente categorías mostradas en la tabla 3. 11
  10. Esquema de anotación preliminar Articulo faltante (AD,AI): Ocurre cuando el

    alumno no usa un articulo cuando la oración debería contener uno. (AD|AD|AD|AD||AD) Originalmente el español y el portugués son categorizados en mismo grupo lingüístico, la lengua románica. Originally Spanish and Portuguese are categorized in the same linguistic group, the romance language. Articulo extra (E): Ocurre cuando el articulo usado por el alumno no es necesario. (E|E|E|E||E) El objetivo de este trabajo es conocer cómo propagó el tomate como la verdura comestible desde el continente americano. The goal of this paper is to know how tomato spreaded as an edible vegetable from the American continent. 13
  11. Esquema de anotación preliminar Confusión: Un error de confusión ocurre

    cuando el alumno usa un articulo definido en lugar de uno indefinido y viceversa. (C|C|C|C||CA) Franco consiguió una victoria en la Guerra Civil en 1939 y su dictadura comenzó. Franco pursued the victory in the Civil War in 1939 and his dictatorship began. Difícil de juzgar: En cuyo caso que los anotadores estuviesen inseguros sobre el uso del articulo para una oración dada. 14
  12. Acuerdo entre anotadores Acuerdo observado fue de 0.79 con coeficiente

    kappa de 0.71 Tabla 4: Matriz de confusión para los anotadores E1 y E2 15
  13. Acuerdo entre anotadores Acuerdo observado fue de 0.76 con coeficiente

    kappa de 0.68 Tabla 5: Matriz de confusión para los anotadores NE1 y NE2 16
  14. Acuerdo entre anotadores Artículo definido o articulo cero Frecuentemente tanto

    los artículos definidos como los artículos ceros son aceptables para la misma frase nominal. Esto pasa cuando la frase puede referirse a una clase o personas en general o un monto indefinido de algo. (OK|AD|AD|OK||OK) Los políticos hablan en público y manifiestan sus opiniones con el objeto de conseguir votos de ciudadanos [...] Politicians talk in public and show their opinion with a view to get votes from the citizens [...] Artículo indefinido o artículo cero Una frase nominal se puede referir a un monto indefinido de algo o un objeto de una clase particular. (E|C|C|E||E/CA) En cambio, la cocaína tiene el efecto tóxico. On the contrary, cocaine has a toxic effect. 17
  15. Acuerdo entre anotadores Conocimiento global Ocurre cuando se tiene insuficiente

    información extralingüística para determinar el uso correcto del articulo (OK|E|E|E||OK) Sale cada treinta minutos aproximadamente desde la estación de Nagoya y paran en los nueve sitios muy interesantes y turísticos, por ejemplo El castillo de Nagoya. It runs approximately every thirty minutes from Nagoya station and stops in nine very interesting and touristy places, for example Nagoya Castle. Reglas semánticas y léxico-sintácticas Ocurre cuando no se tiene un conocimiento profundo de las restricciones lingüísticas de lo que es considerado correcto o no. (AD|AD|OK|OK||OK) [...] el capítulo 2 dice sobre el proceso del portuñol y los problemas a que el portuñol se enfrenta actualmente. [...] chapter 2 is about the portuñol process and the problems that the portuñol confronts nowadays. 18
  16. Sugerencias para una anotación confiable No es recomendable usar una

    etiqueta como NC, debido a que tiene la confiabilidad más baja. Las etiquetas deben informar sobre el tipo de error y la corrección. La etiqueta de confusión se debe dividir en confusión entre artículos definidos e indefinidos (CA) y confusión entre artículos y otro tipo de determinante (CD) Las oraciones deben ser aceptables y no perfectas. Cuando la selección del alumno no es aceptable y hay dos correcciones igualmente buenas, se permite la anotación doble. En el caso del uso de artículos basados en reglas sintácticas y léxico-semánticas basarse en reglas sobre el uso de artículos publicado por instituciones respetadas (RAE) Cuando se necesita conocimiento global para juzgar una oración, no se corrige si es considerada aceptable en algún contexto. 19
  17. Sugerencias para una anotación confiable Tabla 7: Frecuencia de etiquetas

    de error en el estándar de oro por cada tipo de artículo. 20
  18. Conclusión Previamente no ha habido un estudio previo con respecto

    al error de artículos y el acuerdo entre anotadores para textos de aprendizaje en español. Se prueba un esquema de anotación para errores de artículos en una muestra de alumnos japoneses. Se analizó el desacuerdo entre los anotadores para refinar el esquema de anotación, se revisaron los datos para crear el estándar de oro. 21