Apache Hadoop é uma plataforma de software de código aberto para o armazenamento distribuído e processamento distribuído de grandes conjuntos de dados em clusters de computadores construídos a partir de hardware commodity. serviços Hadoop fornecem para armazenamento de dados, processamento de dados, acesso a dados, governança de dados, segurança e operações.

HISTÓRIA

A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este trabalho deu origem a outro trabalho de pesquisa do Google – MapReduce: simplificado Processamento de Dados em grandes aglomerados. Desenvolvimento começou no projeto Apache Nutch, mas foi transferido para o novo subprojeto Hadoop em janeiro de 2006. A primeira committer adicionado ao projeto Hadoop foi Owen O’Malley em março de 2006. Hadoop 0.1.0 foi lançado em abril de 2006 e continua a ser evoluiu por muitos contribuintes para o projeto Apache Hadoop. Hadoop foi nomeado após um de elefante de brinquedo do fundador.

Em 2011, Rob Bearden firmou parceria com a Yahoo! para fundar a Hortonworks com 24 engenheiros da equipe original Hadoop, dentre eles os fundadores Alan Gates, Arun Murthy, Devaraj Das, Mahadev Konar, Owen O’Malley, Sanjay Radia e Suresh Srinivas.

BENEFÍCIOS

Algumas das organizações razões usar Hadoop é a sua “capacidade de armazenar, gerenciar e analisar grandes quantidades de dados estruturados e não estruturados de forma rápida, confiável, flexível e de baixo custo.

  • Escalabilidade e desempenho – distribuídos tratamento de dados local para cada nó em um cluster Hadoop permite armazenar, gerenciar, processar e analisar dados em escala petabyte.
  • Confiabilidade – clusters de computação de grande porte são propensos a falhas de nós individuais no cluster. Hadoop é fundamentalmente resistente – quando um nó falha de processamento é redirecionado para os nós restantes no cluster e os dados são automaticamente re-replicado em preparação para falhas de nó futuras.
  • Flexibilidade – ao contrário de sistemas de gerenciamento de banco de dados relacionais tradicionais, você não tem que esquemas estruturados criados antes de armazenar dados. Você pode armazenar dados em qualquer formato, incluindo formatos semi-estruturados ou não estruturados, e em seguida, analisar e aplicar esquema para os dados quando ler.
  • Baixo custo – ao contrário de software proprietário, o Hadoop é open source e é executado em hardware commodity de baixo custo.

 

CAPACIDADE DO HADOOP

ARMAZENAMENTO DE DADOS

data_storage-120x120_bbd2j0 Apache Hadoop - O que é?

O Hadoop Distributed File System ( HDFS ) fornece armazenamento escalável e tolerante a falhas, o custo-eficiente para o seu lago de dados grande. Ele foi projetado para abranger grandes clusters de servidores de commodities escalar até centenas de petabytes e milhares de servidores. Ao distribuir o armazenamento através de muitos servidores, o recurso de armazenamento combinada pode crescer linearmente com a demanda permanecendo econômica em cada quantidade de armazenamento.

 

PROCESSAMENTO DE DADOS

data_processing-120x120_bjyg1v Apache Hadoop - O que é?

MapReduce é o quadro original para escrever aplicações massivamente paralelas que processam grandes quantidades de dados estruturados e não estruturados armazenados no HDFS. MapReduce pode tirar vantagem da localidade de dados, processá-lo perto do lugar ele é armazenado em cada nó no cluster, a fim de reduzir a distância que deve ser transmitido.

Mais recentemente, Apache Hadoop FIO aberto Hadoop para outros motores de processamento de dados, que agora podem ser executados trabalhos de MapReduce ao lado existentes para processar dados de muitas maneiras diferentes ao mesmo tempo, tais como Apache faísca .FIO fornece a gestão de recursos centralizado que permite processar várias cargas de trabalho simultaneamente.FIO é a base da nova geração de Hadoop e está permitindo que as organizações em todos os lugares para realizar uma arquitetura de dados moderno.

Apache Tez é uma estrutura extensível para a construção de alta lote desempenho e aplicações de processamento de dados interativos, coordenado pela FIO no Apache Hadoop. Tez melhora o paradigma MapReduce, melhorando drasticamente a sua velocidade, mantendo ao mesmo tempo a capacidade do MapReduce para escalar para petabytes de dados.

ACESSO E ANÁLISE DE DADOS

data_analytics-120x120_bkktdf Apache Hadoop - O que é?
Os aplicativos podem interagir com os dados no Hadoop usando lote ou SQL interativa (Apache Hive ) ou o acesso de baixa latência com NoSQL ( HBase ). Hive permite que os usuários de negócios e analistas de dados para usar suas análises de negócios preferenciais, relatórios e ferramentas de visualização com Hadoop. Os dados armazenados no HDFS em Hadoop pode ser pesquisado usando Apache Solr .

 

GOVERNANÇA DE DADOS E SEGURANÇA

data_security-120x120_rqtbqu Apache Hadoop - O que é?O ecossistema Hadoop amplia o acesso e processamento de dados com ferramentas poderosas para a governança de dados e integração, incluindo a administração de segurança centralizada ( Apache guarda florestal ) e classificação de dados tagging (Apache Atlas ), que combinou permitir políticas de acesso a dados dinâmicos que evitam proativamente violações de acesso de dados ocorra. Hadoop perímetro de segurança também está disponível para integração com sistemas de segurança corporativa existentes e acesso de usuário de controle para Hadoop ( Apache Knox ).

 

DOWNLOAD APOSTILA HADOOP ESSENTIALS – AMOSTRA

download-bt_ikucv1 Apache Hadoop - O que é?

ESPECIALIZAÇÕES / CURSOS

A Cetax oferece diversos treinamentos na área de Business IntelligenceBI. Aqui em nosso site você pode conferir os cursos que ministramos, seu conteúdo programático e tirar dúvidas através do chat online. Abaixo estão os links dos cursos sobre os tópicos que abordamos aqui neste artigo.

  1. Apache Hadoop Essentials 
  2. Apache Hadoop Pig & Hive

 

Por enquanto é isso. Você também pode complementar nosso artigo com mais informações úteis. Mande-nos um e-mail com sugestões de melhorias e/ou novos artigos.

Até o próximo artigo.
Douglas Godoi