Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Anotación de errores de artículos en textos de ...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Gamar Gamar
July 14, 2015

Anotación de errores de artículos en textos de aprendizaje en español: diseño y evaluación del esquema de anotación

Avatar for Gamar

Gamar

July 14, 2015
Tweet

More Decks by Gamar

Other Decks in Research

Transcript

  1. Introducción Annotating article errors in Spanish learner texts: design and

    evaluation of an annotation scheme María del Pilar Valverde Ibañez y Akira Ohtani Proceedings of the 28th Pacific Asia Conference on Language, Information and Computation (2014) Anotación de errores de artículos en textos de aprendizaje en español: diseño y evaluación del esquema de anotación 2
  2. Introducción La anotación de textos de aprendizaje es necesaria para

    la investigación lingüística y el desarrollo de aplicaciones de aprendizaje. El español es el idioma extranjero más estudiado en Estados Unidos y es el segundo idioma extranjero más estudiado en otros países. La detección automática de errores se concentra en palabras funcionales como artículos, preposiciones y partículas. Son las palabras más frecuentes en cualquier idioma y corresponde a la mayor fuente de errores para aprendices. El trabajo experimenta con un esquema de anotación preliminar para errores de artículos analizando el desacuerdo entre los anotadores para luego refinarlo. 3
  3. Artículos de Español En español los artículos pueden ser definitivos

    o indefinidos y su forma cambiar de acuerdo al género y número del sustantivo que complementan, tal como se muestra en la Tabla 1. Tabla 1: Artículos de español 4
  4. Artículos de Español El uso de artículos es complejo porque

    es el resultado de la interacción de factores pragmáticos, semánticos, sintácticos y léxicos. Se refieren a clases de personas u objetos. Los hijos dan muchos disgustos. Children cause a great deal of trouble. Se refieren a algo identificable para el oyente. El hijo de María tiene dos años. Maria’s son is two years old. Se refieren a un objeto de una clase particular. Tener un hijo es lo mejor que te puede pasar en esta vida. Having a child is the best thing that can happen in life. Se refiere a un monto indefinido de algo. No tengo hijos pero tengo sobrinos. I do not have children but I have nephews. 5
  5. Dificultades para alumnos El corpus TenTen (Corpus de Español con

    9 billones de palabras) los artículos definidos son el tipo más frecuente de palabra y los artículos indefinidos corresponden al 6to. Aproximadamente 1 de cada 10 palabras de este corpus son artículos. Los artículos corresponden a uno de los errores gramaticales más frecuentes, en especial para las personas cuya lengua nativa no tenga artículos como el Chino, Japonés, Coreano o Ruso. Con respecto a los japoneses un estudio (Fernández 1997) indica un promedio de 2.2 errores de artículo por cada 100 palabras. La dificultad de los artículos del español es comparable con la del inglés. Para este trabajo se decidió usar alumnos japoneses para desarrollar el esquema de anotación. 6
  6. Experimento La anotación de errores de textos de aprendizaje es

    una tarea difícil por muchas razones. Las oraciones de los alumnos contienen a lo menudo errores que dificultan su comprensión. Errores como acuerdo entre género y número son reglas concisas, sin embargo los errores como la presencia de artículo y elección de preposición no están claramente definidos. En algunos casos, se puede requerir un mayor contexto para determinar el uso correcto del artículo. 7
  7. Experimento Se realiza el experimento de anotación de errores con

    los siguientes objetivos: Calcular el acuerdo entre los anotadores Analizar los tipos y fuentes de desacuerdos para identificar las principales dificultades que enfrentan los anotadores. Refinar los lineamientos y el esquema de anotación para la anotación de errores. 8
  8. Colección de Datos Se usaron textos de aprendizaje escritos por

    estudiantes de español japoneses con un nivel de proficiencia intermedio en la Universidad de la Prefectura de Aichi Se extrajeron oraciones que contienen al menos un error de artículo. 50 fueron extraídas para cada tipo (definido, indefinido y articulo cero). Adicionalmente se extrajo el mismo número de oraciones pero con al menos un uso correcto de artículo. Para cada oración únicamente la frase nominal resaltada debe ser anotada. 9
  9. Esquema de anotación preliminar Las 300 frases nominales fueron anotadas

    por cuatro anotadores. Los anotadores fueron 2 expertos (profesores de español como una lengua extranjera) llamados E1 y E2, y 2 no expertos (nativos de español sin experiencia en anotación de corpus) llamados NE1 y NE2. La misma frase nominal fue anotada en las mismas oraciones. Se proporcionó la oración objetivo junto con una oración precedente y procedente. La frase nominal fue clasificada en una de las siguiente categorías mostradas en la tabla 3. 11
  10. Esquema de anotación preliminar Articulo faltante (AD,AI): Ocurre cuando el

    alumno no usa un articulo cuando la oración debería contener uno. (AD|AD|AD|AD||AD) Originalmente el español y el portugués son categorizados en mismo grupo lingüístico, la lengua románica. Originally Spanish and Portuguese are categorized in the same linguistic group, the romance language. Articulo extra (E): Ocurre cuando el articulo usado por el alumno no es necesario. (E|E|E|E||E) El objetivo de este trabajo es conocer cómo propagó el tomate como la verdura comestible desde el continente americano. The goal of this paper is to know how tomato spreaded as an edible vegetable from the American continent. 13
  11. Esquema de anotación preliminar Confusión: Un error de confusión ocurre

    cuando el alumno usa un articulo definido en lugar de uno indefinido y viceversa. (C|C|C|C||CA) Franco consiguió una victoria en la Guerra Civil en 1939 y su dictadura comenzó. Franco pursued the victory in the Civil War in 1939 and his dictatorship began. Difícil de juzgar: En cuyo caso que los anotadores estuviesen inseguros sobre el uso del articulo para una oración dada. 14
  12. Acuerdo entre anotadores Acuerdo observado fue de 0.79 con coeficiente

    kappa de 0.71 Tabla 4: Matriz de confusión para los anotadores E1 y E2 15
  13. Acuerdo entre anotadores Acuerdo observado fue de 0.76 con coeficiente

    kappa de 0.68 Tabla 5: Matriz de confusión para los anotadores NE1 y NE2 16
  14. Acuerdo entre anotadores Artículo definido o articulo cero Frecuentemente tanto

    los artículos definidos como los artículos ceros son aceptables para la misma frase nominal. Esto pasa cuando la frase puede referirse a una clase o personas en general o un monto indefinido de algo. (OK|AD|AD|OK||OK) Los políticos hablan en público y manifiestan sus opiniones con el objeto de conseguir votos de ciudadanos [...] Politicians talk in public and show their opinion with a view to get votes from the citizens [...] Artículo indefinido o artículo cero Una frase nominal se puede referir a un monto indefinido de algo o un objeto de una clase particular. (E|C|C|E||E/CA) En cambio, la cocaína tiene el efecto tóxico. On the contrary, cocaine has a toxic effect. 17
  15. Acuerdo entre anotadores Conocimiento global Ocurre cuando se tiene insuficiente

    información extralingüística para determinar el uso correcto del articulo (OK|E|E|E||OK) Sale cada treinta minutos aproximadamente desde la estación de Nagoya y paran en los nueve sitios muy interesantes y turísticos, por ejemplo El castillo de Nagoya. It runs approximately every thirty minutes from Nagoya station and stops in nine very interesting and touristy places, for example Nagoya Castle. Reglas semánticas y léxico-sintácticas Ocurre cuando no se tiene un conocimiento profundo de las restricciones lingüísticas de lo que es considerado correcto o no. (AD|AD|OK|OK||OK) [...] el capítulo 2 dice sobre el proceso del portuñol y los problemas a que el portuñol se enfrenta actualmente. [...] chapter 2 is about the portuñol process and the problems that the portuñol confronts nowadays. 18
  16. Sugerencias para una anotación confiable No es recomendable usar una

    etiqueta como NC, debido a que tiene la confiabilidad más baja. Las etiquetas deben informar sobre el tipo de error y la corrección. La etiqueta de confusión se debe dividir en confusión entre artículos definidos e indefinidos (CA) y confusión entre artículos y otro tipo de determinante (CD) Las oraciones deben ser aceptables y no perfectas. Cuando la selección del alumno no es aceptable y hay dos correcciones igualmente buenas, se permite la anotación doble. En el caso del uso de artículos basados en reglas sintácticas y léxico-semánticas basarse en reglas sobre el uso de artículos publicado por instituciones respetadas (RAE) Cuando se necesita conocimiento global para juzgar una oración, no se corrige si es considerada aceptable en algún contexto. 19
  17. Sugerencias para una anotación confiable Tabla 7: Frecuencia de etiquetas

    de error en el estándar de oro por cada tipo de artículo. 20
  18. Conclusión Previamente no ha habido un estudio previo con respecto

    al error de artículos y el acuerdo entre anotadores para textos de aprendizaje en español. Se prueba un esquema de anotación para errores de artículos en una muestra de alumnos japoneses. Se analizó el desacuerdo entre los anotadores para refinar el esquema de anotación, se revisaron los datos para crear el estándar de oro. 21