Upgrade to Pro — share decks privately, control downloads, hide ads and more …

machine-learning-iquiba-2017

 machine-learning-iquiba-2017

Roxana Noelia

October 18, 2017
Tweet

More Decks by Roxana Noelia

Other Decks in Education

Transcript

  1. ¿Qué es el aprendizaje automático?  Reconocimiento de patrones 

    Reconocimiento de anomalías  Predicciones Problemas
  2. Análisis Exploratorio (EDA)  Dimensiones del conjunto de datos. 

    Tipo de variables.  Resumir la distribución de variables en el set de datos.  Resumir los datos con estadística descriptiva.  Entender las relaciones entre variables.  Sesgo de las distribuciones.
  3.  Método exploratorio clásico.  Finalidad: Reducción de dimensiones. 

    Permite una visualización rápida .  Permite observar posibles correlaciones. Gráfico de scores Gráfico de loadings Gráfico de sedimentación Análisis de Componentes Principales (PCA)
  4.  Método no supervisado.  Método exploratorio de variables. 

    Permite la visualización mediante un dendrograma (árbol de dos dimensiones) q permite observar las uniones o divisiones que se van realizando en cada nivel. Análisis de Conglomerados (HCA)
  5. Radial Basis Kernel o RBF Kernel ( , ) =

    − − 22 Optimización de σ
  6. Métricas para evaluar un clasificador  Matriz de Confusión 

    Métodos Gráficos 1. Curvas ROC 2. Curvas PR
  7. TP TN FN FP SENSIBILIDAD ESPECIFICIDAD EXACTITUD = + =

    + + +++ PRECISIÓN + Matriz de Confusión
  8. 1. Andropogon lateralis  Datos de composición mineral:Al, B, Cd,

    Co, Cr, Cu, Li, Mo, Ni, Rb, Sb, Se, Sn, Sr, Ti, Tl, V y Zn  Matrices de datos dispuestas en filas y columnas Datos Concentración Elemental (variables) Criterio de clasificación: serie de suelo / origen geográfico A. lateralis : matriz de 43 x 18
  9. ANÁLISIS EXPLORATORIO DE DATOS Análisis de Componentes Principales Análisis de

    Conglomerados CLASIFICACIÓN Análisis discriminante lineal Support vector machines Random Forest
  10. Análisis de Conglomerados Ni Co V Sr Cd Sb Zn

    Rb B Cr Mo Tl Ti Li Sn Se Cu Al -62.48 -8.32 45.84 100.00 Variables
  11. Chavarría Pampín Chavarría 75% 25% Pampín 29% 71% Exactitud (accuracy):

    73% Especificidad (TNR): 71% Sensibilidad (TPR): 75% Precisión: 60% AUC: 82% Prueba: 25% (n=11) Entrenamiento: 75% (n=32) Predichos Reales Análisis discriminante lineal
  12. Chavarría Pampín Chavarría 83% 17% Pampín 20% 80% Exactitud (accuracy):

    82% Especificidad (TNR): 80% Sensibilidad (TPR): 83% Precisión: 83% AUC: 86.6% Prueba: 25% (n=11) Entrenamiento: 75% (n=32) Predichos Reales Support vector machines
  13. Chavarría Pampín Chavarría 80% 20% Pampín 0% 100% Exactitud (accuracy):

    91% Especificidad (TNR): 100% Sensibilidad (TPR): 80% Precisión: 100% AUC: 97% Prueba: 25% (n=11) Entrenamiento: 75% (n=32) Predichos Reales Random Forest
  14. Cursos online  Statistical Learning (Stanford Lagunita)  Data mining

    with WEKA (Univ. of Waikato)  More data mining with WEKA  Advanced data mining with WEKA  Machine Learning: Foundations (Univ. of Washington)  Machine Learning: Regression  Machine Learning: Classification  Python for Data Science and Machine Learning (Udemy)  Learning from data (CalTech)  Neural Networks and Machine Learning  Improving Deep Neural Networks  Structuring Machine Learning Projects  Deep Learning AZ: Hands-on ANNs (Udemy)