Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Machine learning y data science con scikit-learn y pyspark

Machine learning y data science con scikit-learn y pyspark

Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python

7c4b1ae16723b56facc7a8a8f95aa6ce?s=128

jmortegac

July 12, 2017
Tweet

More Decks by jmortegac

Other Decks in Programming

Transcript

  1. Machine learning y data science en python con scikit-learn y

    pyspark José Manuel Ortega
  2. Machine learning y data science con scikit-learn y pyspark https://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark

    Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python
  3. None
  4. None
  5. None
  6. None
  7. Introducción a la ciencia de datos y machine learning •

    Definición de ciencia de datos • Definición de machine learning • Introducción al aprendizaje automático • Tipos de aprendizaje automático • Aprendizaje supervisado vs no supervisado • Problema del sobreentrenamiento • Pasos para construir un modelo de machine learning
  8. None
  9. Librerías para tratamiento de datos con python • Librerías de

    Python para machine learning:Numpy, SciPy, Pandas • Instalación anaconda + jupyter notebook • Conjunto de datasets • Introducción a pandas • Librerías de visualización de datos con python • Ejemplos prácticos tratamiento de datos con pandas • Ejemplos prácticos visualización de datos • Otras librerías de machine learning con python
  10. None
  11. Scikit-learn como librería de machine learning • Introducción a scikit-learn

    • Instalación y módulos • LinearRegression como algoritmo de regresión lineal • LogisticRegression como algoritmo de regresión logística • DecissionTreeClassifier y RandomForestClassifier como algoritmos de árboles de decisión • SVM como algoritmo de máquinas de vectores de soporte
  12. Scikit-learn como librería de machine learning • Implementación del algoritmo

    SVM en scikit-learn • KNeighborsClassifier como algoritmo de clasificación supervisada vecinos más cercanos • Implementación de KNeighborsClassifier en scikit-learn • Clustering y aprendizaje no supervisado • K-means como algoritmo de clustering • Implementación de K-means en scikit-learn • Ejemplo con Iris / Titanic Dataset
  13. None
  14. None
  15. None
  16. None
  17. None
  18. Pyspark como librería de big data y data science •

    Introducción a Apache Spark • Módulos de Apache Spark • Spark para Científicos de Datos • Instalación de Apache Spark • Instalar y ejecutar Pyspark con docker • Introducción a Pyspark • Consola interactiva en pyspark • SparkContext y esqueleto de una aplicación con pyspark
  19. Pyspark como librería de big data y data science •

    Datasets y RDD con pyspark • Crear un RDD en python con pyspark • Operaciones sobre un RDD • Transformaciones sobre un RDD • SparkSubmit para la ejecución de scripts python • Map-reduce con pyspark • Contador de palabras con pyspark • Palabras más frecuentes de un texto con pyspark • Lectura ficheros csv,json con pyspark
  20. Pyspark como librería de big data y data science •

    Trabajando con Spark SQL y dataframes • MLlib como módulo de machine learning con pyspark • Clustering con pyspark.Algoritmo Kmeans • Ejemplo clasificación Spam con mLlib
  21. None
  22. None
  23. None
  24. Sistemas de recomendación basados en contenido • Definir sistema de

    recomendación • Tipos de sistemas de recomendación • Filtros basados en contenido (Content-Based Filtering) • Filtros colaborativos (Collaborative Filtering)