Apache Spark – o maior projeto de código aberto no processamento de dados.

Apache Spark é um poderoso mecanismo de processamento de código aberto construído em torno de velocidade, facilidade de utilização, e análises sofisticadas. Ela foi originalmente desenvolvida na Universidade de Berkeley em 2009.
Desde o seu lançamento, Spark tem visto uma rápida adoção por parte das empresas em uma ampla gama de indústrias. Potências da Internet como Netflix, Yahoo e eBay implantou Spark em escala maciça, processar coletivamente múltiplos petabytes de dados em clusters de mais de 8.000 nós. Ele rapidamente se tornou a maior comunidade open source em dados grandes, com mais de 1000 colaboradores de mais de 250 organizações.

 

A equipe que criou Spark fundada Databricks em 2013.

Spark é 100% open source, hospedado no Apache Software Foundation independente de fornecedor. No Databricks, estamos plenamente empenhados em manter este modelo de desenvolvimento aberto. Juntamente com a comunidade Spark. Databricks continua a contribuir fortemente para o projeto Spark Apache, tanto através do desenvolvimento e evangelismo comunidade.

“No Databricks, estamos trabalhando duro para fazer Spark mais fácil de usar e executar do que nunca, através de nossos esforços, tanto a base de código de ignição e materiais de apoio em torno dele. Todo o nosso trabalho em Spark é open source e vai diretamente para Apache “.

– Matei Zaharia, VP, Spark,
fundador e CTO, Databricks

Quais são os benefícios do Spark?

VELOCIDADE

Projetado a partir do bottom-up para o desempenho, o Spark pode ser 100x mais rápido do que o Hadoop para o processamento de dados em grande escala, explorando em computação memória e outras otimizações. O Spark também é rápida quando os dados são armazenados no disco, e atualmente detém o recorde mundial de grande escala de classificação no disco.

FÁCIL DE USAR

O Spark tem APIs fáceis de usar para operar em grandes conjuntos de dados. Isso inclui uma coleção de mais de 100 operadores para transformar APIs de dados e estrutura de dados familiar para manipulação de dados semi-estruturados.

AMPLA BIBLIOTECA 

O Spark vem embalado com bibliotecas de nível superior, incluindo suporte para consultas SQL, streaming de dados, aprendizado de máquina e processamento gráfico. Essas bibliotecas padrão aumentar a produtividade do desenvolvedor e pode ser perfeitamente combinados para criar fluxos de trabalho complexos.

Baixar materiais Spark

No link abaixo tem uma parte de um material sobre o Spark, baixem e usem gratuitamente

 

Baixe o Spark

O projeto Spark é Open Source, 100% gratuito. Você pode baixar através do site que também contém instruções de instalação, tutoriais em vídeo e documentação para você começar.