Enterprise Apache Spark I

Descrição do Curso Enterprise Apache Spark I

Este curso foi concebido como um ponto de entrada para desenvolvedores que precisam criar aplicativos para analisar grandes dados armazenados no Apache Hadoop usando o Spark. Os tópicos incluem: Uma visão geral da Hortonworks Data Platform (HDP), incluindo HDFS e YARN; usando as API Spark Core para exploração de dados interativa; Spark SQL e operações do DataFrame; Spark Streaming e DStreamoperations; visualização de dados, relatórios e colaboração; monitoramento e afinação de desempenho; construção e implantação de aplicativos Spark; e uma introdução à Spark Machine Learning Library.

Público-alvo
Engenheiros de software que procuram desenvolver aplicativos em memória para aplicações sensíveis ao tempo e altamente iterativas em um ambiente Enterprise HDP.
Requisitos
Estar familiarizado com os princípios de programação e ter experiência prévia no desenvolvimento de software utilizando Python ou Scala. A experiência com transmissão de dados, SQL.
Conteúdo Programático

Este é o conteúdo que será abordado durante o curso. [inglês]

1. AN INTRODUCTION TO ZEPPELIN AND RDDS

OBJECTIVES

  • HDP Overview for Developers
  • Overview ofApacheZeppelin and Spark
  • Working with RDDs
  • Pair RDDs

LABS

  • Using HDFS Commands
  • Introduction to Spark REPLs and Zeppelin
  • Create and Manipulate RDDs
  • Create and Manipulate Pair RDDs

2. SPARK STREAMING

OBJECTIVES

  • Spark Streaming
  • Spark SQL

LABS

  • Basic Spark Streaming
  • Basic Spark Streaming Transformations
  • Spark Streaming Windows Transformations
  • Create and Save DataFrames
  • Working with Tables and DataFrames

3. WORKING WITH DATA VISUALIZATION
OBJECTIVES

  • Data Visualization with Zeppelin
  • Job Monitoring

LABS

Data visualization Reporting and Collaboration Using Zepplein
Job Monitoring

4. AN INTRODUCTION TO MACHINE LEARNING WITH SPARK

OBJECTIVES

  • Performance Tuning
  • Building and Submitting Spark Applications
  • Introduction to Machine Learning with Spark

LABS

  • Performance Tuning
  • Build and Submit Applications to YARN
  • Machine Learning Walkthrough