Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Spanish DAL: Un diccionario en español de afecto en el lenguaje

Gamar
February 18, 2015

Spanish DAL: Un diccionario en español de afecto en el lenguaje

Gamar

February 18, 2015
Tweet

More Decks by Gamar

Other Decks in Research

Transcript

  1. Seminario de Introducci´ on de Literatura Gamar Azuaje Universidad Tecnol´

    ogica de Nagaoka. Laboratorio Yamamoto. 18/02/2015
  2. Introducci´ on Spanish DAL: Un diccionario en espa˜ nol de

    afecto en el lenguaje Spanish DAL: A Spanish Dictionary of Affect in Language Mat´ ıas G. Dell Amerlina R´ ıos and Agust´ ın Gravano Proceedings of the 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis (WASSA 2013) 2 / 15
  3. Introducci´ on El diccionario de Afecto en el Lenguaje (DAL)

    fue desarrollado para clasificar el significado emocional del lenguaje escrito (Whissell) Herramienta de clasificaci´ on de palabras en 3 dimensiones (Afecto, Activo, Imaginable) En los ultimos a˜ nos han habido esfuerzos para construir recursos interling¨ u´ ısticos. Uso de herramientas de an´ alisis de sentimiento en ingles para analizar textos en espa˜ nol, previo a realizar una traducci´ on autom´ atica. (Brooke et al., 2009) Derivar l´ exicos de sentimientos autom´ aticamente en espa˜ nol (P´ erez-Rosas et al., 2012) Se busca construir un l´ exico anotado para el espa˜ nol, y posteriormente evaluar su uso en tareas simples. 3 / 15
  4. Selecci´ on de palabras Se decidi´ o usar textos de

    Wikipedia (Marzo, 2012) con 834.460 articulos en total, y de Los Cuentos, colecci´ on en l´ ınea de cuentos cortos, (Abril, 2012) con 216.060 historias cortas. Las palabras fueron extra´ ıdas, ordenadas por frecuencia y filtradas. Las clases como preposiciones, determinantes, conjunciones y n´ umeros fueron anotadas y removidas autom´ aticamente. Los verbos y sustantivos fueron lematizados, excepto por aquellas terminaciones aumentativas y diminutivas (Ejemplo: Burro vs Burrito) Los nombres de ciudades, regiones y pa´ ıses fueron eliminados usando la herramienta GeoWorldMap. 4 / 15
  5. Selecci´ on de palabras Para el conteo de palabras se

    decidi´ o usar pares de <palabra, clase>en lugar de solo palabras (Ejemplo: Bajosust vs Bajoadj ) Se obtuvo 163.071 pares de palabras de Wikipedia y 30.544 de Los Cuentos. Un total de 175.413 Figure 1: Frecuencia de palabras. 5 / 15
  6. Voluntarios 662 Voluntarios participaron en el estudio, con una media

    de edad de 33.3 a˜ nos Su nivel de eduaci´ on corresponde a 76% han completado estudios universitarios, 23% estudios de secundaria y 1% estudios de primaria. Los voluntarios clasificaron en promedio 52.3 palabras. 9 / 15
  7. Estad´ ısticas Un total de 2566 palabras fueron clasificadas por

    al menos 5 voluntarios. Las palabras con menores anotaciones fueron excluidas del estudio. Media DE Asimetr´ ıa Kurtosis Agradabilidad 2.23 0.47 −0.47 −0.06 Activaci´ on 2.33 0.48 −0.28 −0.84 Imaginabilidad 2.55 0.42 −0.90 0.18 Table 1: Estad´ ısticas de las tres dimensiones 10 / 15
  8. Estad´ ısticas Mayor Menor Agradabilidad Jugar,beso,sonrisa Asesinato,caro,ahogar Activaci´ on Idea,publicar,violento

    Yacer, espiritual,quieto Imaginabilidad Sucio,silencio,dar Consistir, constar,morfolog´ ıa Table 2: Palabras caracter´ ısticas Agradabilidad Activacion Imaginabilidad Agradabilidad 1.00 0.14 0.10 Activaci´ on 0.14 1.00 0.11 Imaginabilidad 0.10 0.11 1.00 Table 3: Matriz de correlaci´ on entre las dimensiones 11 / 15
  9. Evaluaci´ on Se usa un sistema simple para estimar las

    dimensiones. ”Mi amiga esperaba poder terminar las pruebas a tiempo.” Palabra Clase MediaAfc MediaAct MediaImg Amigo Sust 3.0 2.4 3 Esperar Verbo 1.2 1 2.8 Poder Verbo 2.8 2.8 2.2 Terminar Verbo 2.2 3 2.8 Prueba Sust 1.8 2.4 2.2 Tiempo Sust 2 2 2.2 Media: 2.17 2.27 2.53 Table 4: Base de conocimiento para el texto de ejemplo 12 / 15
  10. Estimaci´ on de emoci´ on Se compararon las predicciones por

    el sistema simple contra una asignaci´ on realizada por humanos (gold standard). Sistema \GS Agradabilidad Activacion Imaginabilidad Agradabilidad 0.59 * 0.15 * −0.18 * Activaci´ on 0.13 * 0.40 * 0.14 * Imaginabilidad 0.16 0.19 0.07 Table 5: Correlaci´ on entre el sistema y gold standard 13 / 15
  11. Clasificaci´ on de rese˜ nas Se us´ o un corpus

    de 400 rese˜ nas de productos como carros, hoteles, computadoras y libros de la p´ agina ciao.es. Las rese˜ nas poseen un valor num´ erico, se consideraron como opiniones negativas aquellas con 1-2 estrellas y positivas con 4-5 estrellas. Se calcul´ o el promedio de agrado M del 80% de los reviews. Posteriormente para el 20% restante si su agrado era mayor que M era consideraba positiva, en caso contrario se considera como negativa. La precisi´ on obtenida fue de 62.33 14 / 15
  12. Conclusi´ on Se present´ o una base de conocimiento para

    las palabras en espa˜ nol inspirado por DAL en ingl´ es. Las anotaciones de estas palabras estaban d´ ebilmente correlacionadas. El sistema present´ o correlaci´ on con los humanos, sin embargo los resultados de imaginabilidad no fueron satisfactorios. 15 / 15