Apache HBase: O que é, Conceitos e Definições

VISÃO GERAL DO APACHE HBASE

Um banco de dados não-relacional (NoSQL) que é executado em cima do HDFS

O Apache HBase é um banco de dados de código aberto NoSQL que fornece acesso de leitura/gravação em tempo real a esses grandes conjuntos de dados.

HBase escala linearmente para lidar com grandes conjuntos de dados com bilhões de linhas e milhões de colunas e combina facilmente fontes de dados que utilizam uma grande variedade de estruturas e esquemas diferentes.

O HBase está integrado nativamente com o Hadoop e funciona perfeitamente ao lado de outros motores de acesso a dados através do YARN.

O que HBASE FAZ

O Apache HBase fornece acesso aleatório e em tempo real aos seus dados no Hadoop. Foi criado para hospedar tabelas muito grandes, tornando-se uma ótima opção para armazenar dados multi-estruturados ou esparsos.

Os usuários podem consultar o HBase para um determinado ponto no tempo, possibilitando consultas de “flashback”.

Características do HBASE

Estas seguintes características tornam o HBase uma excelente alternativa para armazenar dados semi-estruturados, como dados de registro e, em seguida, fornecer esses dados de forma muito rápida para usuários ou aplicativos integrados.

Característica	Benefício
Tolerância a falhas	– Replicação em todo o centro de dados – Operações atômicas e fortemente consistentes a nível de linha – Alta disponibilidade através de failover automático – Balanços automáticos de corte e carga de tabelas
Rápido	– Pesquisas em tempo real – Armazenamento na memória por meio de filtros de bloqueio e bloqueio de blocos – Processamento do lado do servidor via filtros e co-processadores
Utilizável	– Modelo de dados acomoda ampla gama de casos de uso – Exportações de métricas através de plugins de arquivo e ganglia – Fácil Java API, bem como Thrift e REST gateway APIs

Exemplos de Usos para o HBASE

As empresas usam o armazenamento de baixa latência do Apache HBase para cenários que exigem análise em tempo real e dados tabulares para aplicativos de usuários finais.

Uma empresa que fornece serviços de segurança na web mantém um sistema que aceita bilhões de traços de eventos e registros de atividades dos desktops dos seus clientes todos os dias.

Os programadores da empresa podem integrar as suas soluções de segurança com HBase (para garantir que a proteção que eles fornecem acompanhe as mudanças em tempo real na paisagem da ameaça).

OUTRO EXEMPLO PARA O HBASE

Outra empresa fornece dados da planta ticker do mercado de ações que os seus usuários questionam mais de trinta mil vezes por segundo, com um SLA de apenas alguns milissegundos.

O Apache HBase fornece esse acesso de super baixa latência em um armazenamento de dados enorme e em rápida mudança.

VISÃO GERAL

Um banco de dados não-relacional (NoSQL) que é executado em cima do HDFS.
O Apache HBase é um banco de dados de código aberto NoSQL que fornece acesso de leitura/gravação em tempo real a esses grandes conjuntos de dados.

Escala linearmente para lidar com grandes conjuntos de dados com bilhões de linhas e milhões de colunas e combina facilmente fontes de dados que utilizam uma grande variedade de diferentes estruturas e esquemas.

O HBase é integrada nativamente com o Hadoop e funciona perfeitamente ao lado de outros motores de acesso a dados através do YARN.

COMO FUNCIONA

HBase escala linearmente, exigindo que todas as tabelas tenham uma chave primária. O espaço da chave está dividido em blocos sequenciais que são então atribuídos a uma região.

Os RegionServers possuem uma ou mais regiões, de modo que a carga está distribuída uniformemente em todo o cluster. Se as chaves dentro de uma região forem freqüentemente acessadas, o HBase pode subdividir a região dividindo-a automaticamente, de modo que o corte manual de dados não é necessário.

Os servidores do ZooKeeper e do HMaster disponibilizam informações sobre a topologia de cluster aos clientes. Os clientes se conectam a estes e baixam uma lista de RegionServers, as regiões contidas nesses RegionServers e os intervalos de chaves hospedados pelas regiões.

Os clientes sabem exatamente onde está qualquer informação no HBase e podem entrar em contato diretamente com o RegionServer sem necessidade de um coordenador central.

RegionServers inclui uma memstore para armazenar em cache as linhas freqüentemente acessadas na memória. Opcionalmente, os usuários podem armazenar linhas fora de pilha, armazenar em cache gigabytes de dados, minimizando pausas para a coleta de lixo.

Fornece alta disponibilidade de várias maneiras:

– Informações de topologia de cluster altamente disponíveis através de implantações de produção com múltiplas instâncias HMaster e ZooKeeper.
– A distribuição de dados em vários nós significa que a perda de um único nó afeta somente os dados armazenados nesse nó.
– HBase HA permite o armazenamento de dados, garantindo que a perda de um único nó não resulte na perda de disponibilidade de dados.
– O formato HFile armazena dados diretamente no HDFS. HFile pode ser lido ou escrito por Apache Hive, Apache Pig, MapReduce e Apache Tez, permitindo análises profundas no HBase sem movimento de dados.

HORTONWORKS SE FOCA PARA O HBASE

À medida que o banco evolui, a comunidade está a trabalhar em melhorias contínuas no seu desempenho, opções de integração e acessibilidade para desenvolvedores.

Foco	Melhorias planejadas
Desempenho	Aproveitando as tecnologias emergentes, como o armazenamento heterogêneo HDFS e o uso mais efetivo da RAM.
Integração	Suporte para tecnologias de transmissão incluindo o Apache Storm e Spark Streaming.
Acesso para desenvolvedores	A partir de uma variedade de ambientes de desenvolvimento, incluindo Java, .NET e Python.