Boletify

×

Boletify

APACHE SPARK PARA MACHINE LEARNING & DATA SCIENCE (GUADALAJARA, MX)

Comparte este evento

Comparte este evento

WeWork - The Landmark
Paseo de Los Virreyes 65

11/03/2019 al 13/03/2019

09:00 - 17:00

APACHE SPARK PARA MACHINE LEARNING & DATA SCIENCE (GUADALAJARA, MX)

SOBRE EL CURSO

Este curso cubre una descripción general de Apache Spark, mediante la experimentación con proyectos prácticos y el uso de operaciones
extract- transform-load (ETL), análisis exploratorio de datos (EDA), construcción de modelos de machine learning, así como la evaluación y la validación cruzada de los mismos.


Todos los experimentos prácticos se ejecutan en Databricks Community Edition, un entorno Spark gratuito basado en la nube. Esto permite a los participantes maximizar su tiempo utilizando Apache Spark de código abierto para resolver problemas reales, en lugar de lidiar con los complejos problemas de la configuración de las instalaciones de Spark cluster. Los laboratorios pueden exportarse fácilmente para ejecutarse en código abierto Apache Spark después de la clase.


PÚBLICO OBJETIVO

Científicos de datos con experiencia en machine learning y programación en Scala o Python que desean adaptar las tareas tradicionales de aprendizaje automático para ejecuciones a gran escala con Apache Spark.

OBJETIVOS DE APRENDIZAJE DEL CURSO


1. En Spark:

• Mejorar el rendimiento mediante el uso correcto del caching y la aplicación de las mejores prácticas.

• Solucionar problemas de ejecución lenta en consultas de DataFrame mediante explain-plan y la interfaz de usuario de Spark.

• Visualizar la división de los trabajos en etapas y tareas dentro de Spark.

• Solucionar problemas y errores de programa utilizando los registros de ejecución, las driver stack traces y los tiempos de ejecución en modo local.

• Resolver problemas de trabajo en Spark utilizando las interfaces de administración y los registros dentro de Databricks.

• Encontrar respuestas a preguntas comunes sobre Spark y Databricks utilizando la documentación y otros recursos.


2. En la extracción, procesamiento y análisis de datos:

• Extraer, transformar y cargar (ETL) datos de múltiples fuentes de datos federados (JSON, base de datos relacional, etc.) con DataFrames.

• Extraer datos estructurados de fuentes de datos no estructurados por medio del análisis con Datasets (cuando sea posible) o RDD (en caso de no ser posible con DataSets), con transformaciones y acciones (map, flatMap, filter, reduce, reduceByKey)

• Extender las capacidades de DataFrames usando funciones definidas por el usuario (UDF y UDAF) en Python y Scala.

• Resolver los campos faltantes en las filas de DataFrame utilizando filtering and imputation

• Aplicar las mejores prácticas para el análisis de datos utilizando Spark

• Realizar análisis exploratorio de datos (EDA) utilizando DataFrames y Datasets para:
    - Calcular estadísticas descriptivas.
    - Identificar problemas de calidad de los datos.
    - Entender mejor un conjunto de datos


3. Sobre la visualización de datos:

• Integrar visualizaciones en una aplicación Spark usando Databricks y bibliotecas de visualización populares (d3, ggplot, matplotlib)

• Desarrolle tableros para proporcionar resúmenes e informes "de un vistazo".


4. En Machine Learning:

• Aplicar varios modelos de regresión y clasificación, tanto supervisados como no supervisados.

• Formar modelos analíticos con estimadores Spark ML que incluyen: regresión lineal, árboles de decisión, regresión de logística y k-means.

• Utililizar los transformadores Spark ML para realizar el preprocesamiento en un conjunto de datos antes del entrenamiento, que incluye: estandarización, normalización, codificación instantánea y binarización

• Crear pipelines de Spark ML para crear una fuente de información de procesamiento que incluya transformaciones, estimaciones y evaluación de modelos analíticos.

• Evaluar la precisión del modelo dividiendo los datos en conjuntos de datos de prueba y entrenamiento con métricas utilizando evaluadores Spark ML.

• Ajustar los hiper-parámetros de entrenamiento integrando la validación cruzada en pipelines de Spark ML

• Calcular usando la funcionalidad de Spark MLlib (no presente en SparkML) al convertir DataFrames a RDD y aplicar transformaciones y acciones de RDD. (Módulo opcional)

• Solucionar problemas y ajustar los algoritmos de machine learning en Spark.

• Comprender y construir un pipeline general ML para Spark.

REQUISITOS

Todos los participantes necesitan una computadora portátil con versiones actualizadas de Chrome o Firefox (no se admiten Internet Explorer ni Safari y una conexión a Internet) Que puede admitir el uso de GoToTraining. GoToTraining será la plataforma en la que la clase Antes de la clase, cada registrante recibirá las instrucciones de inicio de sesión de GoToTraining.

Para obtener más información y confirmar que su computadora puede ejecutar GoToTraining, vaya a: https://support.logmeininc.com/gotomeeting/get-ready

COSTO: $ 46,400 por persona*