Curso Hadoop Data Science

Big Data | Hadoop > HDP: Data Science INSCREVA-SEBAIXAR EMENTA

Hadoop Data Science

Nesse curso de Data Science, seguimos o curriculo oficial da Hortonworks, uma das maiores autoridades em hadoopbig data e data science do mundo, por isto as descrições ainda permanecem em inglês.

This course Provides instruction on the processes and practice of data science, including machine learning and natural language processing. Included are: tools and programming languages (Python, IPython, Mahout, Pig, NumPy, pandas, SciPy, Scikit-learn), the Natural Language Toolkit (NLTK), and Spark MLlib.

DURAÇÃO DO CURSO
24 horas – 03 Dias

h

CERTIFICADO
Cetax / HortonWorks

LOCAL DO CURSO
São Paulo – SP

PÚBLICO-ALVO

Arquitetos, desenvolvedores de software, analistas e cientistas de dados que precisam aplicar ciência de dados e aprendizado de máquinas em Hadoop.

PRÉ-REQUISITOS

Experiência com pelo menos uma linguagem de programação ou de script, conhecimento em estatística e / ou matemática, e uma compreensão básica de dados importantes e princípios Hadoop

CONTEÚDO PROGRAMÁTICO
Este é o conteúdo que será abordado durante o curso. [inglês]

1. AN INTRODUCTION TO HADOOP AND DATASCIENCE

OBJECTIVES

  • Using Hadoop for Data Science
  • O Sistema de Arquivos Distribuídos Hadoop
  • The MapReduce Framework
  • Hadoop 2 and YARN
  • Machine Learning from Data

LABS

  • Setting up the Lab Environment
  • Using HDFS Commands
  • Demonstration: Understanding MapReduce
  • Using Apache Mahout for Machine Learning
2. AN INTRODUCTION TO APACHE PIG AND PYTHON

OBJECTIVES

  • Introduction to Apache Pig
  • Python Programming
  • Analyzing Data with Python
  • Running Python on Hadoop
  • Machine Learning Algorithms

LABS

  • Getting Started with Apache Pig
  • Using the IPython Notebook
  • Demonstration: Understanding the NumPy Package
  • Demonstration: The Pandas Library
  • Performing Data Analysis with Python
  • Interpolating Data Points
  • Defining User Defined Functions in Python
  • Streaming Python with Apache Pig
  • Exploring Data with Apache Pig
  • Demonstration: Classification with Scikit-Learn
  • Computing K-Nearest Neighbor
  • Generating a K-Means Clustering
3. MACHINE LEARNING ALGORITHMS

OBJECTIVES

  • Machine Learning Algorithms Continued
  • Natural Language Processing
  • Apache SparkMLib
  • Talking Data Science to Production

LABS

  • Demonstration: POS Tagging Using a Decision Tree
  • Using the Python Natural Language Toolkit
  • Classifying Text Using Naïve Bayes
  • Using Spark Transformations andActions
  • Using Spark MLib
  • Creating a Spam Classifier Using Spark MLib

TRILHA DE APRENDIZAGEM
Nós preparamos você para ser um especialista com grandes habilidades em Hadoop.

DIFERENCIAL CETAX
Trabalhamos para que você tenha a melhor experiência durante os nossos cursos.

COFFEE-BREAK

Lanche durante o(s) intervalo(s) do curso.

AMBIENTE WIFI

Internet wireless banda larga gratuita.

KIT BOAS-VINDAS

Bloco de anotações; Caneta ou lapiseira.

MATERIAL DIDÁTICO

Apostila digital completa para estudo.

CERTIFICADO

Certificação de aluno da TutorPro/Cetax.

ACESSO A PLATAFORMA

3 meses de acesso à plataforma.

PARCEIROS