FAMAF – UNC
[email protected] Tipo de colocaciones o evidencias: 1-gramas que co-ocurren con target en la misma instancia Lista de decisión – Target: Interés ------------------------------- --------- Probab. Cobertura Evidencia Sentido ------------------------------- --------- 0.999979 2433 tipo finanzas 0.999775 222 lector curiosidad 0.999756 205 respetuoso curiosidad 0.999750 200 réplica curiosidad 0.999655 145 alza finanzas 0.999463 93 fed finanzas 0.999001 50 eurozona finanzas 0.998981 49 arte curiosidad ... …................... Algoritmo de listas de decisión - Factores de impacto, y criterios y parámetros adoptados - Consideramos la tarea de desambiguar las ocurrencias de una palabra fija -target- en un texto (lexical sample task). - Preprocesamos un corpus y realizamos el training inicial, para obtener un conjunto de instancias -oraciones- a etiquetar con un sentido, cada una con ocurrencia del target y representada por un vector con valores para cada atributo del lexicón. Aplicar listas de decisión Aprender reglas de decisión Aceptar y ordenar reglas para obtener lista de decisión mientras (no converge y falta desambiguar) Dataset (formato ARFF) Lista final de reglas de decisión Preprocesamiento del corpus Info de desem- peño Training inicial: desambiguamos manualmente 2 instancias por sentido Heurística de “un sentido por discurso”: distintas ocurrencias del target en un mismo discurso tendrán el mismo sentido (No se implementa) Ecuación de confiabilidad de una regla: gracias a la optimización de [3] calculamos, para la regla E → A, la confiabilidad de que la evidencia E determine el sentido A como: C(E ,A)= cantidad deinstanciasetiquetadas como A yconevidencia E cantidad deinstancias etiquetadas ,conevidenciaE Threshold de confiabilidad que deben superar las reglas para ser agregadas a la lista de decisión: lo fijamos inicialmente en 0.95 Cobertura o cantidad mínima de evidencia que soporte a una regla: decisiones previas nos condicionan a pedir apenas cobertura > 0 No permitimos pérdida ni cambio de etiqueta de sentido para una instancia ya desambiguada 2 La tarea de la desambiguación La desambiguación de sentidos es muy importante para que muchas tareas de Procesamiento de Lenguaje Natural tengan buenos resultados, ya que implícitamente asumen que no hay ambigüedad. La estrategia dominante de los algoritmos de desambiguación es la de emular los mecanismos humanos, esto es, obtener información del contexto donde ocurren las palabras polisémicas. Trabajo relevante Desde hace tiempo, el problema de la desambiguación es abordado por métodos de aprendizaje automático de supervisión ligera o nula. Con el trabajo de Abney [2] se inicia el análisis sistemático del algoritmo de Yarowsky. Algunos factores como la confiabilidad de las reglas fueron estudiados en [3]. Motivación y objetivo Yarowsky presentó en [1] un algoritmo de listas de decisión que realiza un proceso de bootstrapping iterativo con un training inicial basado en semillas “no supervisadas”. Este algoritmo abundaba en criterios ligeramente justificados y/o aún entonces no parametrizados ni optimizados, y factores implícitos a determinar. Nuestro objetivo fue explorar sistemáticamente el impacto de diferentes aspectos del algoritmo: identificar los factores relevantes para su funcionamiento y, valorando cuáles de ellos preservar y con qué criterios y parámetros particulares, diseñar una implementación sencilla y evaluar su desempeño. 1 Experimentos con factores Corpus crudo a preprocesar: publicaciones digitales de diarios españoles (57M de palabras). Por simplicidad, el entorno experimental presenta estas características: - Targets: 5 sustantivos de 2 sentidos cada uno, eventualmente incluyendo el fenómeno de homonimia. - Reducción de dimensión: lexicón formado por los lemas que aparecen en al menos 10 instancias. Aún así, hay mucha dispersión (verificamos la validez de la ley de Zipf). . 3 Resultados Fig. 1 – (a) Cantidad de iteraciones hasta convergencia, y (b) proporciones de subconjuntos del dataset según etiquetas – Target: “interés”. Nuestras decisiones impactan en general de forma negativa en el desempeño. - Es de gran conveniencia cualquier factor que incremente la cantidad de reglas en la lista de decisión. - “velocidad vs. precisión”: factores como un threshold muy tolerante a reglas poco confiables puede impactar positivamente en la convergencia pero negativamente en la correctitud. - Caos inicial y estabilización posterior: la Fig. 1 (a) muestra que la primera iteración acepta muy pocas reglas de escasa evidencia ya que entran ajustadamente en la cobertura exigida: una decisión apenas más estricta impide toda desambiguación. Se dispara un salto de etiquetado para luego refinarse con más cobertura y estabilizar las proporciones hasta converger (Fig. 1 (b)). ¿Cuán bien desambigua? Evaluación bananadoor 4 Estrategia de evaluación bananadoor o de pseudo-palabras: introducida por Schütze en [4], consiste en elegir arbitrariamente dos palabras, p. ej. “banana” y “door”, y reemplazar en un corpus toda ocurrencia de cualquiera de las dos por “bananadoor”, es decir, la nueva pseudo-palabra target. Se aplica el algoritmo de desambiguación y se mide su performance en contraste con las palabras originales que han sido reemplazadas. - Produce casi sin costo grandes cantidades de ejemplos para evaluaciones. - En nuestro caso, “bananadoor” es “vidaciudad”. Si la palabra con reemplazo mayoritario tiene un k% de los reemplazos, se dispone de: Algoritmo Baseline: etiquetar toda instancia con el sentido mayoritario da k% de correctos. Algoritmo Random: etiquetar al azar dando tal sentido mayoritario un k% de las veces. Perspectivas 6 - Observar más precisamente el impacto de algunos de los factores recién mencionados: por ejemplo, contemplar también reglas por colocación o adyacencia de un lema de cierta categoría morfosintáctica, introducir un criterio que exija una cobertura no fija sino cada vez más estricta a medida que progresan las iteraciones. - Realizar una etapa previa de inducción o descubrimiento de sentidos –por ejemplo, mediante clustering sobre el dataset original sin etiqueta alguna, eventualmente reduciendo dimensionalidades– para guiar el training inicial manual. - Integrar la información que brindan lexicones verbales para aplicar el algoritmo también sobre targets verbos. Conclusiones 5 - El training inicial es un factor decisivo, tanto en aspectos de convergencia como en la correctitud de la desambiguación. Condiciona las decisiones a tomar respecto a otros factores de gran impacto como el threshold de confiabilidad y las restricciones de cobertura. - El uso de una optimización, dada en [3], del smoothing sobre la ecuación de confiabilidad puede paradójicamente impactar muy negativamente en el desempeño, todo esto por las mismas consecuencias del etiquetado inicial. - Factores como reetiquetado, un sentido por discurso o más tipos de colocaciones pueden refinar la performance, a costo de una convergencia más tardía. - El desempeño de nuestra implementación supera los baseline y random, y es aceptable tratándose de una versión tan simplificada. [1] Yarowsky, D.: Unsupervised word sense disambiguation rivaling supervised methods. Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics, 189–196 (1995) [2] Abney, S.: Understanding the Yarowsky Algorithm. Computational Linguistics 30(3) (2004) [3] Tsuruoka, Y., Chikayama, T.: Estimating Reliability of Contextual Evidences in Decision-List Classifiers under Bayesian Learning. Proc. of the Sixth Natural Language Processing Pacific Rim Symposium, November 27-30, 2001 (2001) [4] Schütze, H.: Context space. AAAI Fall Symposium on Probabilistic Approaches to Natural Language, 113–120, Cambridge, MA (1992) Evaluación bananadoor Otros Algoritmo Baseline Random Listas de decisión Implementación en [3] (*) Original/Ideal en [1] Performance 51.1% 50.13% 59.86% 69.4% 94.8% Tabla 1 – Performance de nuestro algoritmo, de los baselines y de otras versiones estudiadas. (*). Usa ecuación de confiabilidad de log-verosimilitud y cobertura optimizada de al menos 3 evidencias.