Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Extracción de eventos en una ciudad a partir de...

Avatar for MgCoders MgCoders
March 16, 2017

Extracción de eventos en una ciudad a partir de redes sociales

Proyecto de grado de Ingeniería en Computación - Udelar
Raúl Speroni - Martín Steglich
Tutor: Juan José Prada

Avatar for MgCoders

MgCoders

March 16, 2017
Tweet

Other Decks in Research

Transcript

  1. Extracción de eventos en una ciudad a partir de redes

    sociales Proyecto de grado Raúl Speroni - Martín Steglich Tutor: Juan José Prada
  2. “ Un Evento es una actividad del mundo real que

    ocurre durante cierto período de tiempo en cierto espacio geográfico
  3. Extraer y procesar automáticamente información relacionada a la limpieza publicada

    en Twitter por los ciudadanos de Montevideo. Tweet Evento
  4. Situación: ▷ Basura desparramada ▷ “Hace días que está así”

    ▷ “El contenedor está casi vacío” Espacio: ▷ Hocquart ▷ Emilia Pardo Bazán Tiempo: ▷ 9 de febrero, 2017 ▷ 08:45
  5. Tratamos de encontrar: ▷ La temática o situación, ¿qué? ▷

    Un espacio a partir del texto, ¿dónde? ▷ El tiempo cuándo ocurre, ¿cuándo? ¿Dónde buscar?
  6. Otros desafíos: ▷ Cantidad de tweets útiles. ▷ Temática sensible.

    ▷ Identificar ciudad. ▷ Distinguir noticias. ▷ Temática en imágenes.
  7. Módulo Extracción de Tweets Objetivo: Recuperar y almacenar todos los

    Tweets que puedan ser de interés con la menor demora posible
  8. Montevideo im imm @montevideoim Intendencia montevideo montevideo @quejasya @Dmartinez_uy @MunicipioE

    @MunicipioGMvd @municipioa @Municipiob Limpieza contenedor contenedores recolector recolectores limpio desbordado papelera tacho basura residuo bolsas
  9. Módulo Anotación del Corpus Objetivo: Anotación manual de los tweets

    recolectados por el módulo de extracción de tweets
  10. Módulo Información Gramatical Objetivo: Agregar a cada pieza de información

    datos sobre el rol gramatical de las palabras del texto
  11. Módulo Clasificador de Dominio: Reclamos Objetivo: Determinar si un tweet

    pertenece al conjunto de los tweets en español que pueden considerarse reclamos o denuncias
  12. Módulo Clasificador de Dominio: Limpieza Objetivo: Determinar si un tweet

    pertenece al conjunto de los tweets que tratan sobre limpieza
  13. Módulo de Detección de Eventos Objetivo: Determinar a partir de

    los resultados de los otros módulos cuándo una Pieza de Información es un Evento
  14. Problema: encontrar 238 tweets de 15528 e identificar: ▷ Que

    ocurre ▷ Donde ocurre ▷ Cuando ocurre
  15. 213/238 89,5% muy útiles con ubicación correcta. 25/238 10,5% ninguna

    o ubicación incorrecta. +7021 extras con ubicación. ¿Dónde? Módulo de georreferenciación.
  16. Módulo de procesamiento de imágenes. ¿Qué? 1263/7671 16,46% con imágenes.

    840/1263 66,5% sin basura. 423/1263 33,5% con basura.
  17. Módulo de procesamiento de imágenes. ¿Qué? 288/423 68,0% encontró basura.

    135/423 31,91% no encontró basura. 66/238 27,73% encontró basura en muy útiles. +222 encontró basura en otros.
  18. Módulos independientes. GEO PI CL CR Probabilidad de encontrar Evento

    89,5% 27,73% 90,33% 84,03% Probabilidad de encontrar Falso Positivo 91% 2,8% 58,9% 18,90%
  19. “ Es posible construir mecanismos de sensado de redes sociales

    que actúen como nuevas interfaces entre ciudadanos y organizaciones para una ciudad inteligente.
  20. “ Se construyó un sistema basado en tecnologías libres y

    datos abiertos que demuestran la potencialidad para Montevideo de los tweets de los ciudadanos.
  21. Trabajo a futuro ▷ Eventos incompletos ▷ Asignación de eventos

    ▷ Campañas de denuncia ▷ Comunicación con otros sistemas ▷ Módulos