Fast data? Slow data? Small Data? Dark Data? Dirty Data? Veja o que cada um desses termos significa de fato.
A ansiedade das empresas de TI em se classificarem como líderes de mercado desencadeia uma proliferação de novos termos. Muitas dessas buzzwords, contudo, tem significados ainda não bem definidos. Falando especificamente no mundo do Big Data, o hype vem como um novo dialeto. Quer clareza com relação aos termos mais comuns nesse campo? A seguir, apresentamos um breve dicionário.
A estrela brilhante na constelação de termos é o “fast data”, que começam a aparecer com, cada vez mais, frequência. A expressão se refere a “dados que perderão valor ao longo do tempo”, explica Tony Baer, analista da Ovum, que afirma ter cunhado o termo em 2012.
Assemelha-se a registros de feeds do Twitter ou streaming, que precisam ser capturados e analisados em tempo real, permitindo respostas e decisões instantâneas.
“Fast data pode se referir a algumas coisas: ingestão, transmissão, preparação, análise, resposta, tudo em alta velocidade”, afirma Nik Rouda, analista do Enterprise Strategy Group.
Exatamente o oposto do termo acima. “Slow data” refere-se aos dados podem ser usados para rotinas de análises menos frequentes e aplicado para tomada de decisões que não necessitam de informações instantâneas. De forma geral, é aquele registro capturado em um data lake para processamento posterior.
O termo significa “tudo aquilo que cabe em um laptop”, classifica Gregory Piatetsky-Shapiro, presidente da consultoria KDnuggets. Essencialmente, a expressão reconhece o fato que “muitas análises continuarão sendo feitas com uma ou poucas fontes de dados, em apps – e as vezes até mesmo em planilhas do Excel”, adiciona Rouda.
De maneira simplista? Refere-se a algo não tão pequeno quanto o termo anterior. Para dar uma dimensão, quando você fala em muitos petabytes, isso pode ser chamado de Big Data, o que exigirá tecnologias como Hadoop e MapReduze para ser analisado. “Mas, muitos desafios analíticos não envolvem petabytes”, contrapõe Baer. Para um volume intermediário de informações, criou-se o termo “medium data”.
A expressão refere-se que estão subutilizados ou desconhecidos. “As pessoas, muitas vezes, nem sabem que esses dados existem, como acessá-los, não tem permissão para analisá-los ou os sistemas não foram ajustados para fazer isso”, lista Rouda, citando que eles ficam perdidos nos bancos e armazéns de dados. Em muitos casos, trazer luz para esses dados escuros é uma tarefa de algoritmos de machine learning.
Por fim, mas não menos importante, “dirty data” é algo tão divertido quanto o próprio nome sugere: aqueles registros que ainda não foram limpos. “A menos que você desempenhou alguma operação com ele, o dado não necessariamente precisa ser limpo”, afirma Baer, essa operação incluem preparação, enriquecimento e transformação. “Em outro caso, muitas respostas erradas são possíveis”, comenta Rouda.
Só mais uma coisa…
Usar dados para fazer sua empresa avançar é mais do que apenas aprender termos. “Há uma lacuna entre todos os dados disponíveis e nossa capacidade de usá-lo”, reforça Brian Hopkins, vice-presidente da Forrester.
Preencher essa lacuna pode pedir o uso de ferramentas robustas ou pode ser, apenas, uma questão de autoentendimento daqueles recursos. Seja qual for a situação, é preciso criar um elo para gerar ações significativas.
“Os fornecedores e analistas de consultorias são bons em criar novas buzzwords”, reconhece Hopkins. “Ao invés de se atolar em termos, o meu conselho para os CIOs é focar em resultados que irão transformar o seu negócio.”
Fonte: Computerworld
Big Data Dark Data Dirty Data Fast data Slow data Small Data Tecnologia TI