Vice-presidente da MapR cita abordagens que empresas podem adotar para reduzir custos e ampliar produtividade a partir de analytics.
Líderes de TI têm um desafio constante: fazerem sempre mais com menos. No mundo de soluções de Big Data, exige-se desses executivos que alcancem objetivos de grande magnitude em termos de redução de gastos e ganhos de produtividade.
“CIOs são cobrados para ‘fazer mais com menos’ tantas vezes que isso já se tornou parte de seu DNA, e não há muita margem para debate sobre isso”, enfatiza Jack Norris, vice-presidente da MapR Technologies.
O executivo citou oito formas para que empresas potencializem seus resultados a partir de projetos envolvendo o conceito de Big Data. Confira.
Recicle protocolos corporativos
Sim, novas técnicas e APIs, inevitavelmente, farão parte de seus planos, mas os líderes de TI e arquitetos empresariais devem ter certeza que procuram (e encontram) as correlações perfeitas entre novas abordagens e aquelas que já estão incorporadas nos padrões corporativos, como SQL, NFS, LDAP e POSIX.
“Você já pagou por esse conhecimento e recursos que estão aí por décadas”, afirma Norris, para acrescentar: “Não é o momento para jogar tudo isso no lixo para usar coisas novas de maneira cega. A melhor abordagem inicial é criar uma ponte entre esses dois mundos”.
Spark e Hadoop: Juntos, mas separados
Apache Hadoop ajudou a revolucionar o mundo moderno de análise de dados, enquanto Apache Spark chega com destaque nessa festa com uma abordagem de fortalecimento das aplicações baseadas em dados.
“Bem desenvolvido depois do Hadoop, Spark pode rodar no topo do Hadoop, que também pode rodar sozinho”, comenta o executivo. “Spark agora é a plataforma de desenvolvimento preferencial obre o modelo MapReduce, mas as capacidades de gerenciamento do Hadoop talvez te convençam a manter as duas tecnologias unidas. Seja qual for sua escolha, a proteção dos dados é uma meta. Aplicações podem ser reinicializadas, mas um dado perdido ou corrompido não tem volta”.
Evite clusters espalhados
Computação em cluster não é uma função estranha à tecnologia, mas, atualmente, o ambiente computacional pode ser facilmente levado de um desses agrupamentos a outros. Spark e Hadoop podem, frequentemente, operar clusters separados.
“Agrupamento em escala é, sem dúvida, um dos pilares do big data”, reforça Norris. “Mas cada cluster pode ter seu próprio modelo de segurança, interface administrativa, formato de dados, regras de persistência, e sim, hardware separado! Isto pode rapidamente levá-lo de volta aos silos de tecnologia que você está tentando evitar. Olhe para implementações que permitam consolidar ou convergir esses clusters em uma única plataforma, ou pelo menos o número mínimo de plataformas”.
Um lago de dados
Apesar de alguns sugerirem o contrário, o armazém de dados não está morto. Contudo, é inegável que data lakes surgem como uma alternativa atraente – muitas vezes a primeira escolha, dependendo dos objetivos da organização a partir do big data.
“Um dos primeiros benefícios que os clientes percebem desses lagos de dados é simplesmente melhor visibilidade sobre o que a empresa ‘sabe’”, diz o executivo, sinalizando que isso permite uma em uma noção mais completa das informações. “Isso muitas vezes se traduz em um marketing melhor, mais informações e melhores resultados”.
Considere HTAP
Hybrid Transaction/Analytical Processing (HTAP) é um termo cunhado pelo Gartner para classificar a nova geração de plataformas de dados capazes de lidar tanto com processamento online de rotinas transacionais (OLTP) quanto analíticos (OLAP) sem a necessidade de duplicação dos dados.
“Algumas organizações encontraram o caminho do HTAP usando tecnologias de bancos de dados de documentos, habilitando operações OLTP e OLAP sem o custo da fase de transformação dos dados. Não abandone o Oracle por enquanto, mas saiba que esses dois mundos cada vez se aproximam mais de se tornarem uma opção bastante viável”.
Transmissão de eventos como um sistema de gravação
Com a demanda crescente de dados em movimento, organizações ampliam seu foco em stream de eventos. “Muitas das conversas atualmente orbitam em torno de streaming analytics, disparando alertas e processando atividades”, avalia Norris.
“Mas algumas empresas estão começando a olhar para os fluxos como uma maneira de capturar um registro com data e hora de interações de dados entre sistemas e empresas. No entanto, para os temas menos sexy de proveniência de dados, linhagem, persistência e ciclo de vida, criando um registro de interações que pode ser valioso”.
Cloud híbrida
Nuvens híbridas aparecem com frequência nas discussões corporativas e tendem a ganhar ainda mais relevância com o advento do Big Data. “Um dos princípios básicos do Hadoop e da computação distribuída é a noção de mover o processamento dos dados”, lembra Norris. “Com um maior volume de dados sendo recolhidos, mais fontes coletando essas informações exige uma arquitetura robusta para dar conta desse cenário. Extrair valor dos registros pede uma abordagem que considere processamento tanto em ambientes privados quanto públicos”.
Analise no lugar
Transformação e movimentação de dados é uma postura que muitas vezes requer uma quantidade enorme de tempo e esforço. Há situações, comenta Norris, onde você pode cortar esse tempo e custo. “Spark, Apache Drill ou outras tecnologias de processamento em memória fornecem uma oportunidade para evitar a movimentação de dados, operações de ETL e outras transformações de dados”.
Fonte: Computerworld