Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mujeres en tecnología - Una aproximación usando...

Quito Lambda
March 25, 2020
25

Mujeres en tecnología - Una aproximación usando Machine Learning

Women Lightning Tech Talks (virtual)

Quito Lambda

March 25, 2020
Tweet

More Decks by Quito Lambda

Transcript

  1. Agenda • Planteamiento del problema • Conjunto de Datos •

    Algoritmo de clasificación. SVM • Implementación • Resultados 2
  2. Predicción de género Dado el conjunto de datos con los

    usuarios en Github, se desea predecir el género de cada uno de ellos utilizando el algoritmo Support Vector Machine. 4 OR
  3. Usuarios de Github Los datos fueron obtenidos de un conjunto

    de datos de la Universidad de Harvard que cuenta con aproximadamente 400 mil usuarios de Github y de su API. Utiliza el formato JSON. Para el experimento, se utilizaron 73.349 usuarios • 2.330 para entrenamiento, clasificados manualmente. • 71.019 para predicción. 6 Fuente: Universidad de Harvard
  4. Estructura de los datos 7 Atributo Tipo de dato Login

    String Id Entero Avatar_url String Name String Company String Type String
  5. Estructura de los datos 8 Atributo Tipo de dato Location

    String Bio String Public_repos Entero Public_gists Entero Followers Entero Following Entero
  6. Support Vector Machine • Es un algoritmo de clasificación. •

    Separa las muestras con un hiperplano que tenga la mayor distancia posible con los puntos más cercanos a él. 10 Fuente: SVM
  7. Selección de características No todas las características son importantes, por

    eso eliminamos: • Login • id • Avatar_url • Bio 13
  8. Codificar - Ordinal 16 Name Company Location Repos Gists Followers

    Following Gender Stefani SB Ecuador 10 0 5 5 Female Stefani SB Ecuador 10 0 5 5 1 1
  9. Codificar - Target 17 Name Company Location Repos Gists Followers

    Following Gender Stefani SB Ecuador 10 0 5 5 1 Stefani 1 1 SB Ecuador 10 0 5 5 1
  10. Codificar - OneHot 18 Name Company Location Repos Gists Followers

    Following Gender 1 SB Ecuador 10 0 5 5 1 1 1 Ecuador 10 0 5 5 1 is_SB 1
  11. Codificar - OneHot 19 Name is_SB Location Repos Gists Followers

    Following Gender 1 SB Ecuador 10 0 5 5 1 1 1 1 10 0 5 5 1 is_Ecuador 1
  12. Codificar - Otro ejemplo 20 Name Company Location Repos Gists

    Followers Following Gender Pedro Google US 10 0 5 5 Male Name is_SB is_Google is_Ecuador is_US Repos Gists Followers Following Gender 1 0 1 0 1 10 0 5 5 2
  13. 25

  14. 26 Notas finales • Es necesario un conjunto de entrenamiento

    con más ejemplos para tener mejores resultados. • La característica de la biografía podría haber sido utilizada para mejorar la predicción. • Los problemas de Machine Learning requieren de mucha experimentación para encontrar los parámetros adecuados.