Qualidade de Dados

Qualidade de Dados é um problema constante em projetos de informação, para resolver qualquer problema de forma sistemática e efetiva, você deve ser capaz de dividi-lo em partes. Afinal, entender o problema é o primeiro passo para encontrar a solução. A partir daí, você pode desenvolver um plano de batalha estratégico. Com a qualidade dos dados, o mesmo se aplica: cada iniciativa possui muitas etapas e muitos ângulos de ataque diferentes.

Ao iniciar um programa de melhoria da qualidade dos dados, não basta contar a quantidade de registros que estão incorretos ou duplicados no seu banco de dados. A quantidade só vai longe. Você também precisa saber que tipo de erros existem para aplicar o recurso correto.

Neste interessante blog de Jim Barker, os diferentes tipos de qualidade de dados são divididos em duas partes. Neste artigo, analisaremos de perto a definição desses “tipos”, e como podemos usar isso para nossa vantagem ao desenvolver um orçamento.

Tipos de Dados

Jim Barker – conhecido como ‘Dr Data’ para alguns – tomou emprestado um conceito médico simples para definir problemas de qualidade de dados. Seu blog explica exatamente como esses dois tipos se encaixam e serão de interesse para qualquer um que tenha tentado encontrar os gremlins da qualidade de dados na sua máquina.

Por um lado, há o problema de qualidade de dados Tipo I: coisas que podemos detectar usando ferramentas automatizadas. Por outro lado, o Tipo II é mais enigmático. Você sabe que o problema da qualidade dos dados existe, mas é mais difícil de detectar e lidar, porque precisa ser contextualizado para ser detectado.

As principais diferenças podem ser definidas de forma simples e rápida:

  •  Os problemas de qualidade de dados Tipo I exigem “saber o que” identificar: integridade, consistência, singularidade e validade. Esses atributos podem ser detetados usando software de qualidade de dados, ou mesmo manualmente. Você não precisa ter muito conhecimento de fundo, ou um histórico que trabalha com esses dados. Está lá, está errado e você pode rastreá-lo. Por exemplo, se inserimos um 3 em um campo de gênero, podemos ter certeza de que não é uma entrada válida.
  • Problemas de qualidade de dados de Tipo II exigem “saber como” para a detecção de atributos de pontualidade, congruência e precisão. Eles exigem pesquisa, visão e experiência e não são tão simples ou simples de detectar. Esses conjuntos de dados podem parecer livres de problemas, pelo menos na superfície. O mal está no detalhe, e leva tempo para corrigir. O exemplo de Jim é um registro de funcionários para alguém que se aposentou. Sem conhecer a data da aposentadoria, seus dados pareceriam estar corretos.
  • O principal argumento é que os problemas de qualidade de dados requerem uma abordagem complexa, estratégica que não é uniforme em um banco de dados. Uma vez que dividimos os dados, começamos a ver que exige uma intervenção humana e automática – um duplo ataque.

Custo para reparar a qualidade de dados

Então, como lidamos com os problemas de qualidade de dados Tipo I e Tipo II? Os custos são comparáveis, ou eles são coisas diferentes?

O importante a lembrar é que um problema de validação ou verificação de dados Tipo I pode ser logicamente definido e isso significa que podemos escrever software para encontrá-lo e exibi-lo. As correções automatizadas são rápidas, de baixo custo e podem ser completadas com apenas uma revisão manual ocasional. Pense nos problemas de qualidade de dados Tipo I como a validação de campo de formulário. Uma vez válido, o problema desaparece.

Podemos estimar que os dados de Tipo I apresentam um 80 por cento dos nossos problemas de qualidade de dados, mas consome 20 por cento do nosso orçamento.

Os dados de Tipo II precisam da entrada de várias partes para que possam ser descobertas, sinalizadas e erradicadas. Embora cada pessoa no nosso CRM possa ter uma data de compra, essa data de compra pode estar incorreta ou não contar com uma fatura ou manifesto de envio. Somente os especialistas poderão resolver problemas e melhorar manualmente o CRM, verificando cuidadosamente os seus conteúdos.

Muitas vezes, as empresas têm dificuldade em alocar o recurso necessário – especialmente se eles cresceram rapidamente, ou tiverem uma alta rotatividade de funcionários. Embora estes problemas de Tipo II sejam menores – talvez os 20% restantes do banco de dados – eles podem exigir 80% do orçamento de qualidade de dados ou mais. Se você perder continuamente o pessoal que possui esse conhecimento, e você não consegue reter isso ao longo do tempo, você encontrará os dados de Tipo II muito mais difíceis de lidar porque o elemento de detecção humano está perdido.

Melhorando a precisão dos seus dados

Para melhorar a precisão dos dados, devemos trabalhar nos dados Tipo I e Tipo II como problemas separados, mas unidos. Os problemas de fixação de qualidade de dados de Tipo I podem apresentar vitórias rápidas, mas o Tipo II apresenta um desafio que a experiência humana pode resolver.

Ao longo do tempo, um banco de dados sempre se desviará da data, e isso requer esforço contínuo e sustentado. Os dados podem ser limpos in situ ou validados no ponto de entrada, mas os erros de Tipo I ainda ocorrerão por vários motivos; importação/exportação, corrupção, edições manuais, erro humano. Os problemas de Tipo II ocorrerão naturalmente, por sua própria iniciativa; os dados que validados e que parecem corretos podem agora estar incorretos, simplesmente porque as circunstâncias de alguém mudaram.

Garantir a integridade dos dados com qualidade

Os dados informam as decisões de negócios e nos ajudam a obter uma imagem clara do mundo. Detectar os problemas de qualidade de dados Tipo I é simples, barato e rápido. Se o seu negócio ainda não adotou algum tipo de software de qualidade de dados, não há dúvida de que ele deve ser implementado para evitar desperdícios, danos à marca e imprecisões.

Quanto ao Tipo II, a chave é entender que existe e implementar novos processos para evitar que isso ocorra. As soluções alternativas e desvios de funcionários dos processos de negócios arrastam os dados para baixo. A falta de alocação de especialistas em assuntos pode aumentar a quantidade de Tipo II ao longo do tempo. E à medida que a proporção aumenta, o preço também é o de corrigi-lo, porque você precisa de olhos experientes nos dados para eliminá-lo. Veja o artigo Regra 1:10:100.

Detectar e erradicar ambos os tipos de problemas não é impossível. Um é mais fácil que o outro. Os fornecedores de qualidade de dados estão continuamente a procurar novas formas de conseguir tornar os dados de alta qualidade mais simples.

Originalmente apareceu no DqGlobal.