Padronização de dados: definir, testar e transformar
Enquanto as organizações mudam para estabelecer uma cultura de dados em toda a empresa, muitas ainda estão lutando para obter seus dados corretamente. Extrair dados de fontes diferentes e obter formatos e representações variados do que deveria ser a mesma informação – causa sérios obstáculos em sua jornada de dados.
As equipes sofrem atrasos e erros ao realizar suas operações de rotina ou extrair insights de conjuntos de dados. Tais problemas forçam as empresas a introduzir um mecanismo de padronização de dados – que garante que os dados estejam presentes em uma visão consistente e uniforme em toda a organização.
Vamos dar uma olhada mais profunda no processo de padronização de dados: o que significa, as etapas que ele envolve e como você pode obter uma visualização de dados padrão em sua empresa.
O que é padronização de dados?
Simplificando, a padronização de dados é o processo de transformar valores de dados de um formato incorreto para um correto. Para permitir uma visualização de dados padronizada, uniforme e consistente em toda a organização, os valores de dados devem estar em conformidade com o padrão exigido – no contexto dos campos de dados aos quais pertencem.
Exemplo de erros de padronização de dados
Por exemplo, o registro do mesmo cliente que reside em dois locais diferentes não deve conter discrepâncias em nome e sobrenome, endereço de e-mail, número de telefone e endereço residencial:
Nome | Telefone | Data de nascimento | Gênero | Endereço residencial | |
---|---|---|---|---|---|
John Oneel | john.neal@gmail.com | 5164659494 | 14/2/1987 | M | 11400 W Olímpico BL # 200 |
Nome | Sobrenome | Telefone | Data de nascimento | Gênero | Endereço residencial | |
---|---|---|---|---|---|---|
banheiro | O'neal | john.neal_gmail.com | + 1 516-465-9494 | 2/14/1987 | Masculino | 11400 W Olímpico 200 |
No exemplo acima, você pode ver os seguintes tipos de inconsistências:
- Estrutural: A primeira fonte cobre o Nome do Cliente como um único campo, enquanto a segunda o armazena como dois campos – Nome e Sobrenome.
- Padrão: A primeira fonte tem padrão de e-mail válido aplicado no campo de endereço de e-mail, enquanto o segundo está visivelmente sem o @ símbolo.
- Tipo de dados: A primeira fonte permite apenas dígitos no campo Phone Number, enquanto a segunda possui um campo do tipo string que contém símbolos e espaços também.
- Formato: A primeira fonte tem a data de nascimento no formato MM/DD/AAAA, enquanto a segunda tem no formato DD/MM/AAAA.
- Valor do domínio: A primeira fonte permite que o valor de Gênero seja armazenado como M ou F, enquanto a segunda fonte armazena o formulário completo – Masculino ou Feminino.
Essas inconsistências de dados levam você a cometer erros graves que podem fazer com que sua empresa perca muito tempo, custo e esforço. Por esta razão, a implementação de um mecanismo de ponta a ponta para a padronização de dados é crucial para manter a higiene dos seus dados.
Como padronizar dados?
A padronização de dados é um processo simples de quatro etapas. Mas dependendo da natureza das inconsistências presentes em seus dados e do que você está tentando alcançar, os métodos e técnicas usados para padronização podem variar. Aqui, apresentamos uma regra geral que qualquer organização pode usar para superar seus erros de padronização.
- Defina o que é o padrão
Para atingir qualquer estado, você deve primeiro definir o que o estado realmente é. Na primeira etapa de qualquer processo de padronização de dados é identificar o que é necessário para ser alcançado. A melhor maneira de saber o que você precisa é entender os requisitos de negócios. Você precisa verificar seus processos de negócios para ver quais dados são necessários e em qual formato. Isso ajudará você a definir uma linha de base para seus requisitos de dados.
Uma definição de padrão de dados ajuda a identificar:
- Os ativos de dados cruciais para o seu processo de negócios,
- Os campos de dados necessários desses ativos,
- O tipo de dados, formato e padrão de seus valores devem estar em conformidade,
- O intervalo de valores aceitáveis para esses campos e assim por diante.
- Testar conjuntos de dados em relação ao padrão definido
Depois de ter uma definição padrão, a próxima etapa é testar o desempenho de seus conjuntos de dados em relação a eles. Uma maneira de avaliar isso é usar perfil de dados ferramentas que geram relatórios abrangentes e encontram informações como a porcentagem de valores em conformidade com os requisitos do campo de dados, como:
- Os valores seguem o tipo e o formato de dados necessários?
- Os valores estão fora do intervalo aceitável?
- Os valores usam formas abreviadas, como abreviações e apelidos?
- São endereços padronizados conforme necessário – como Padronização USPS para endereços nos EUA?
- Transformar valores não conformes
Agora é finalmente hora de transformar os valores que não estão de acordo com o padrão definido. Vamos dar uma olhada nas técnicas comuns de transformação de dados usadas.
- Análise de dados – Alguns campos de dados devem ser analisados primeiro para obter os componentes de dados necessários. Por exemplo, analisando o campo de nome para separar o nome, nome do meio e sobrenome, bem como quaisquer prefixos ou sufixos presentes no valor.
- Tipo de dados e conversão de formato – Pode ser necessário remover caracteres não conformes durante a conversão, por exemplo, remover símbolos e alfabetos de um número de telefone somente de dígitos.
- Correspondência e validação de padrões – A conversão de padrão é feita configurando uma expressão regular para o padrão. Para valores de endereço de email que estão em conformidade com uma expressão regular, eles devem ser analisados e transformados no padrão definido. um endereço de e-mail pode ser validado usando o regex:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
- Expansão da abreviatura – Nomes de empresas, endereços e nomes de pessoas geralmente contêm formas abreviadas que podem levar seu conjunto de dados a conter representações variadas das mesmas informações. Por exemplo, talvez seja necessário expandir os estados do país, como converter NY para Nova York.
- Remoção de ruído e correção ortográfica – Certas palavras realmente não adicionam nenhum significado a um valor e, em vez disso, introduzem muito ruído em um conjunto de dados. Esses valores podem ser identificados em um conjunto de dados executando-o em um dicionário que contém essas palavras, sinalizando-as e decidindo quais remover permanentemente. O mesmo processo pode ser executado para encontrar erros ortográficos e de digitação.
- Teste novamente o conjunto de dados em relação ao padrão definido
Na etapa final, o conjunto de dados transformado é testado novamente em relação ao padrão definido para descobrir a porcentagem de erros de padronização de dados que foram corrigidos. Para os erros que ainda permanecem em seu conjunto de dados, você pode ajustar ou reconfigurar seus métodos e executar os dados pelo processo novamente.
Embrulhar
A quantidade de dados gerados hoje – e a variedade de ferramentas e tecnologias usadas para capturar esses dados – está levando as empresas a enfrentar a terrível confusão de dados. Eles têm tudo o que precisam, mas não sabem ao certo por que os dados não estão presentes em uma forma e forma aceitáveis e utilizáveis. A adoção de ferramentas de padronização de dados pode ajudar a corrigir essas inconsistências e possibilitar uma cultura de dados muito necessária em toda a sua organização.