Apache Hadoop: O que é, conceito e definição

Hadoop é uma plataforma de software de código aberto para o armazenamento e processamento distribuído de grandes conjuntos de dados, utilizando clusters de computadores com hardware commodity. Os serviços do Hadoop fornecem armazenamento , processamento, acesso, governança, segurança e operações de Dados.

HISTÓRIA – APACHE HADOOP

A gênese do Hadoop veio do papel Google File System, que foi publicado em Outubro de 2003. Este trabalho deu origem a outro trabalho de pesquisa do Google – MapReduce: simplificado Processamento de Dados em grandes aglomerados.

Desenvolvimento começou no projeto Apache Nutch, mas foi transferido para o novo subprojeto Hadoop em janeiro de 2006. O primeiro committer adicionado ao projeto Hadoop foi Owen O’Malley em março de 2006. Hadoop 0.1.0 foi lançado em abril de 2006 e continua a ser evoluiu por muitos contribuintes para o projeto Apache Hadoop.

Hadoop foi nomeado após um de elefante de brinquedo do fundador, link video Hadoop Name – https://www.youtube.com/watch?v=irK7xHUmkUA

Em 2011, Rob Bearden firmou parceria com a Yahoo! para fundar a Hortonworks com 24 engenheiros da equipe original Hadoop, dentre eles os fundadores Alan Gates, Arun Murthy, Devaraj Das, Mahadev Konar, Owen O’Malley, Sanjay Radia e Suresh Srinivas.

Link Projeto Apache – http://hadoop.apache.org

BENEFÍCIOS DO APACHE HADOOP

Algumas das razões para se usar Hadoop é a sua “capacidade de armazenar, gerenciar e analisar grandes quantidades de dados estruturados e não estruturados de forma rápida, confiável, flexível e de baixo custo.

Escalabilidade e desempenho – distribuídos tratamento de dados local para cada nó em um cluster Hadoop permite armazenar, gerenciar, processar e analisar dados em escala petabyte.

Confiabilidade – clusters de computação de grande porte são propensos a falhas de nós individuais no cluster. Hadoop é fundamentalmente resistente – quando um nó falha de processamento é redirecionado para os nós restantes no cluster e os dados são automaticamente re-replicado em preparação para falhas de nó futuras.

Flexibilidade – ao contrário de sistemas de gerenciamento de banco de dados relacionais tradicionais, você não tem que esquemas estruturados criados antes de armazenar dados. Você pode armazenar dados em qualquer formato, incluindo formatos semi-estruturados ou não estruturados, e em seguida, analisar e aplicar esquema para os dados quando ler.

Baixo custo – ao contrário de software proprietário, o Hadoop é open source e é executado em hardware commodity de baixo custo.

CAPACIDADE DO HADOOP

ARMAZENAMENTO DE DADOS

O Hadoop Distributed File System (HDFS) fornece armazenamento escalável e tolerante a falhas, o custo-eficiente para o seu lago de dados grande. Ele foi projetado para abranger grandes clusters de servidores de commodities escalar até centenas de petabytes e milhares de servidores. Ao distribuir o armazenamento através de muitos servidores, o recurso de armazenamento combinada pode crescer linearmente com a demanda permanecendo econômica em cada quantidade de armazenamento.

PROCESSAMENTO DE DADOS

MapReduce é o quadro original para escrever aplicações massivamente paralelas que processam grandes quantidades de dados estruturados e não estruturados armazenados no HDFS. MapReduce pode tirar vantagem da localidade de dados, processá-lo perto do lugar ele é armazenado em cada nó no cluster, a fim de reduzir a distância que deve ser transmitido.

Mais recentemente, Apache Hadoop Yarn aberto Hadoop para outros motores de processamento de dados, que agora podem ser executados trabalhos de MapReduce ao lado existentes para processar dados de muitas maneiras diferentes ao mesmo tempo, tais como Apache Spark. Yarn fornece a gestão de recursos centralizado que permite processar várias cargas de trabalho simultaneamente. Yarn é a base da nova geração de Hadoop e está permitindo que as organizações em todos os lugares para realizar uma arquitetura de dados moderno.

Apache Tez é uma estrutura extensível para a construção de alta lote desempenho e aplicações de processamento de dados interativos, coordenado pela Yarn no Apache Hadoop. Tez melhora o paradigma MapReduce, melhorando drasticamente a sua velocidade, mantendo ao mesmo tempo a capacidade do MapReduce para escalar para petabytes de dados.

ACESSO E ANÁLISE DE DADOS

Os aplicativos podem interagir com os dados no Hadoop usando lote ou SQL interativa (Apache Hive) ou o acesso de baixa latência com NoSQL ( HBase). Hive permite que os usuários de negócios e analistas de dados para usar suas análises de negócios preferenciais, relatórios e ferramentas de visualização com Hadoop. Os dados armazenados no HDFS em Hadoop pode ser pesquisado usando Apache Solr .

GOVERNANÇA DE DADOS E SEGURANÇA

O ecossistema Hadoop amplia o acesso e processamento de dados com ferramentas poderosas para a governança de dados e integração, incluindo a administração de segurança centralizada ( Apache guarda florestal ) e classificação de dados tagging (Apache Atlas ), que combinou permitir políticas de acesso a dados dinâmicos que evitam proativamente violações de acesso de dados ocorra. Hadoop perímetro de segurança também está disponível para integração com sistemas de segurança corporativa existentes e acesso de usuário de controle para Hadoop ( Apache Knox ).

DOWNLOAD APOSTILA HADOOP ESSENTIALS – AMOSTRA

download apostila hadoop

[iframe src=”http://3.236.19.165/form/1″ width=”300″ height=”300″] shortcode

ESPECIALIZAÇÕES / CURSOS

A Cetax oferece diversos treinamentos na área de Business Intelligence – BI. Aqui em nosso site você pode conferir os cursos que ministramos, seu conteúdo programático e tirar dúvidas através do chat online. Abaixo estão os links dos cursos sobre os tópicos que abordamos aqui neste artigo.

Por enquanto é isso. Você também pode complementar nosso artigo com mais informações úteis. Mande-nos um e-mail com sugestões de melhorias e/ou novos artigos.

Até o próximo artigo.