O que é ETL – Extract Transform Load?

ETL – Extract Transform Load

ETL – Extract Transform Load ou ETT,  são as técnicas para Extrair – Transformar – Carregar dados, o processo de ETL normalmente baseado em softwares e programação.

Esses softwares, cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim a carga dos dados em um Data Mart ou um Data Warehouse.

Existem muitas ferramentas de ETL disponíveis no mercado como IBM Information Server (Data Stage), o Oracle Data Integrator (ODI), o Informatica Power Center, o Microsoft Integration Services (SSIS). Existe também um conjunto de Ferramentas de ETL Open Source como o PDI – Pentaho Data Integrator e Talend ETL.

A tecnologia, além de mudar os hábitos, influencia e transforma as pessoas em suas atividades profissionais. O BI – Business Intelligence veio para agregar agilidade à nova realidade das empresas, estreitando a relação entre gestão e técnica.

Quando se busca sucesso em qualquer ramo de negócio, é necessário que o banco de dados seja bem estruturado, ou seja, as informações devem ser consistentes e mapeadas, para em seguida serem aplicadas as transformações de limpeza e consolidação dos dados e finalmente o carregamento desses dados.

O processo de extração, transformação e carregamento (ETL) abrange alguns passos importantes. Como exemplo, podemos considerar um Banco de dados de Clientes Especiais com todas as informações essenciais.

No mapeamento, a extração de origem deve conter a especificação da identidade e seus atributos detalhados, tudo armazenado numa zona temporária. Quando forem efetuadas as análises e filtragens dos dados, a nova versão poderá ser comparada com a cópia da versão prévia.

A transformação inclui limpeza, racionalização e complementação dos registros. O processo de limpeza removerá erros e padronizará as informações. O processo de complementação implicará no acréscimo de dados.

Antes de empenhar esforços de transformação de dados é fundamental diagnosticar e compreender os problemas. Os mais comuns são dados incompletos, formatação errada. No sistema existem ferramentas disponíveis que corrigem inconsistências variadas.

Algumas vantagens das ferramentas de ETL na otimização e integração de dados

Garantia significativa da qualidade dos dados

A Ferramentas de ETL, através de sequências de operações e instruções tem condições de solucionar problemas de maior complexidade.

Funcionalidade de execução
Uma ferramenta de ETL já possui suas funções específicas, sendo necessária apenas a atenção no fluxo de dados.

 

Desenvolvimento das cargas
Mesmo que o usuário não seja técnico poderá desenvolver uma rotina de carga em uma ferramenta de ETL, devido a facilidade e rapidez para codificação.

 

Manutenção das cargas
As tarefas de manutenção de uma rotina de carga são mais simples de realizar em relação à manutenção de código.

 

Metainformação
Os metadados (informações úteis para identificar, localizar, entender e gerenciar os dados) são gerados e mantidos de forma automática com a ferramenta, evitando problemas de geração de informações incorretas na finalização do processo. A manutenção de metadados também evita ou avisa para disparidades que possam invalidar a carga. Os metadados associam um significado mais tangível à atividade de administração dos dados gerados.

 

Performance
Os métodos mais usados para trabalhar com grandes volumes conseguem extrair, transformar e carregar dados com maior velocidade e menos recursos, como gravações em bloco e operações não logadas.

 

Transferência
Ferramentas de ETL podem ser deslocadas de um servidor mais facilmente ou distribuídas entre vários servidores.

 

Conectividade
A conexão de uma ferramenta de ETL com múltiplas fontes de dados é transparente. Caso sejam precisas mais fontes como o SAP, VSAM, Mainframe ou qualquer outra, basta a aquisição do conector sem a necessidade de codificar um.

 

Reinicialização
Ferramentas de ETL possuem a capacidade de reiniciar a carga de onde pararam sem a necessidade de codificação.

 

Segurança e Estabilidade
É possível articular melhor a segurança tornado-a mais modular, dividindo as finalidades (criação de cargas, execução de cargas, agendamento, etc.)

ETL para Big Data

Hoje com o crescimento dos projetos de Big Data aumenta-se mais ainda a necessidade de fazer ETL entre plataformas heterogêneas, para isso, projetos como o Hadoop, possuem ferramentas próprias para carga de dados, como :

  • SQOOP – Ferramenta para movimentar dados dentre bancos de dados relacionais e o ambiente Hadoop.
  • HIVE – Ambiente de SQL sobre um cluster Hadoop.
  • PIG – Ferramenta de Script para transformação e processamento de dados.
  • SPARK – Framework de processamento em memoria.

Mesmo com todas as possibilidades acima, vemos as ferramentas de ETL se adaptando para BigData ou gerando códigos para serem rodados nessas ferramentas do Ecosistema Hadoop.

Sobre o autor

Cetax

Somos uma consultoria de Business Intelligence e Data Warehousing que atua desde 2000, guiando as empresas a transformar seus dados em valiosas informações que transformam os seus negócios.








por: Cetax

Posts recentes

Comentários

Arquivos

Categorias

Meta