Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Machine learning y data science con scikit-learn y pyspark

Machine learning y data science con scikit-learn y pyspark

Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python

jmortegac

July 12, 2017
Tweet

More Decks by jmortegac

Other Decks in Programming

Transcript

  1. Machine learning y data science con scikit-learn y pyspark https://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark

    Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python
  2. Introducción a la ciencia de datos y machine learning •

    Definición de ciencia de datos • Definición de machine learning • Introducción al aprendizaje automático • Tipos de aprendizaje automático • Aprendizaje supervisado vs no supervisado • Problema del sobreentrenamiento • Pasos para construir un modelo de machine learning
  3. Librerías para tratamiento de datos con python • Librerías de

    Python para machine learning:Numpy, SciPy, Pandas • Instalación anaconda + jupyter notebook • Conjunto de datasets • Introducción a pandas • Librerías de visualización de datos con python • Ejemplos prácticos tratamiento de datos con pandas • Ejemplos prácticos visualización de datos • Otras librerías de machine learning con python
  4. Scikit-learn como librería de machine learning • Introducción a scikit-learn

    • Instalación y módulos • LinearRegression como algoritmo de regresión lineal • LogisticRegression como algoritmo de regresión logística • DecissionTreeClassifier y RandomForestClassifier como algoritmos de árboles de decisión • SVM como algoritmo de máquinas de vectores de soporte
  5. Scikit-learn como librería de machine learning • Implementación del algoritmo

    SVM en scikit-learn • KNeighborsClassifier como algoritmo de clasificación supervisada vecinos más cercanos • Implementación de KNeighborsClassifier en scikit-learn • Clustering y aprendizaje no supervisado • K-means como algoritmo de clustering • Implementación de K-means en scikit-learn • Ejemplo con Iris / Titanic Dataset
  6. Pyspark como librería de big data y data science •

    Introducción a Apache Spark • Módulos de Apache Spark • Spark para Científicos de Datos • Instalación de Apache Spark • Instalar y ejecutar Pyspark con docker • Introducción a Pyspark • Consola interactiva en pyspark • SparkContext y esqueleto de una aplicación con pyspark
  7. Pyspark como librería de big data y data science •

    Datasets y RDD con pyspark • Crear un RDD en python con pyspark • Operaciones sobre un RDD • Transformaciones sobre un RDD • SparkSubmit para la ejecución de scripts python • Map-reduce con pyspark • Contador de palabras con pyspark • Palabras más frecuentes de un texto con pyspark • Lectura ficheros csv,json con pyspark
  8. Pyspark como librería de big data y data science •

    Trabajando con Spark SQL y dataframes • MLlib como módulo de machine learning con pyspark • Clustering con pyspark.Algoritmo Kmeans • Ejemplo clasificación Spam con mLlib
  9. Sistemas de recomendación basados en contenido • Definir sistema de

    recomendación • Tipos de sistemas de recomendación • Filtros basados en contenido (Content-Based Filtering) • Filtros colaborativos (Collaborative Filtering)