Tortura da água - Uma analogia analítica vai longe demais

análise de gotejamento

Os dados, como a água, vêm em muitas formas. A mente humana evoluiu para filtrar a maioria dos dados que chegam até nós, porque eles são muito numerosos.

Quando você abre seus olhos e ouvidos, os dados estão em toda parte. A cor da parede, o som do ar condicionado e o cheiro do café do vizinho são tratados como umidade. A água está no ar o tempo todo, mas não adianta prestar muita atenção nela.

Quando a água se condensa em névoa, força você a vê-la e torna ainda mais difícil entender o mundo ao seu redor. Conjuntos de dados incompletos, dados corrompidos, ciência ruim, conclusões falsas e viés cognitivo fazem você se perder na névoa.

Os dados caem como chuva. Quando há pouco, é extremamente insatisfatório - apenas o suficiente para sujar seu carro e confundir a conversa. Você se pega limpando a mancha em seus óculos enquanto alguém despeja algum ponto de dados aleatório, recolhido de alguma fonte obscura.

  • Água parada em uma lagoa rasa é perigoso. Os dados coletados de um suprimento não confiável, nem limpos ou normalizados e deixados estagnados, podem facilmente levar a conclusões errôneas.
  • A gotejamento constante de água pode ser apenas o suficiente para encher uma cantina ou sustentar um ecossistema florestal. Apenas três pontos de dados (o número de emails enviados versus abertos versus clicados) podem sustentar um programa de marketing.
  • A fluxo mais saudável de dados na forma de um pequeno riacho podem ser usados ​​para o banho. Um fluxo de dados contínuo permite benchmarking e comparação histórica. A otimização da página de destino pode ser realizada com dados de conversão estáveis.
    A rio modesto pode alimentar um moinho para serrar madeira ou moer trigo. Um mecanismo de recomendação precisa apenas da contribuição confiável de um punhado de afluentes para fornecer um aumento no valor dos carrinhos de compras.
  • A cascata de pode impulsionar uma enorme roda d'água e um fluxo suficiente de informações pode conduzir um sistema de conteúdo dinâmico em tempo real.
  • A rio que seja amplo e profundo o suficiente para suportar toda uma indústria de transporte. Dados suficientes podem flutuar em barcaças e navios de carga na forma de uma coleção de cookies de redes de publicidade, agregadores de dados de programas de cartões de fidelidade e corretores de dados.

Quando os dados chegam em quantidades esperadas em momentos previstos, eles podem ser capturados, canalizados e colocados em uso. Os sistemas de irrigação, barragens e reservatórios proporcionam uma sensação de controle e permitem a construção de uma infraestrutura cada vez mais ampla com canais, eclusas e barragens. Os armazéns de dados foram construídos em fluxos menos confiáveis.

A limpeza está próxima da divindade

Água limpa é vital para o sucesso da vida, irrigação, funcionamento de usinas de energia, etc. A definição de 'limpo' pode mudar para esse propósito; está tudo bem se houver algas na água que resfria uma usina de energia e não é aceitável se houver mais de 10 partes por bilhão de arsênico na água potável.

Os dados são iguais. Em uma aplicação de mala direta, se você tem o título de uma pessoa (Sr., Sra., Sra.) É irrelevante ... a menos que você esteja enviando para médicos. Mas os dados sujos vão atrapalhar você sempre.

Como Cientista Chefe de Dados dos EUA, DJ Patil, coloque-o em um primeiro round de CTO Summit, “Se você não está pensando em como manter seus dados limpos desde o início, você está f ^ ¢ & ed. Eu garanto isso. Tentar limpá-lo após o fato levará pelo menos meses. ”

Se você aquecer água até o ponto de ebulição, ela pode impulsionar uma Revolução Industrial inteira. Data parece estar fazendo a mesma coisa. A partir do momento em que os computadores puderam armazenar e calcular, os dados foram coletados com a mesma rapidez com que o equipamento de armazenamento foi criado para isso.

O lago de dados

À medida que os dados desses afluentes passam pelos motores dos moinhos, tudo acaba no lago, atrás da barragem. Como os dados são liberados de maneira controlada, eles alimentam as turbinas da indústria de dados; aqueles motores gigantes de processamento de dados com nomes como Google e Facebook. Não haverá seca aqui.

E, finalmente, há um poço profundo de água, esperando o analista mergulhar. Com o equipamento de mergulho e a espingarda em punho, o analista investiga o fundo, mapeia novos terrenos e descobre novas espécies. É um momento muito emocionante para ser um explorador de dados.

É por isso que tantos deles têm aparecido para o Cúpula de eMetrics desde 2002. A próxima oportunidade é em Boston, de 27 de setembro a 1 de outubro de 2015.

Registro do eMetrics Summit

Uma Ponte Longe Demais

E o que dizer do poder dos dados para criar o próximo Grand Canyon? E quanto ao derretimento glacial de dados estruturados? Como tratamos as águas residuais em um mundo que se torna cada vez mais consciente da privacidade?

Essas são perguntas para outro tempo e água sob a ponte.

O que você acha?

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.