Data Lake, ou lago de dados, nada mais é o que o nome implica. É um repositório responsável por armazenar uma enorme quantidade de dados dos mais variados.
Imagine o Data Lake como a sua coleção de games dos mais diferentes gêneros e plataformas. Você pode optar por organizá-los da forma que você desejar – você quer deixar tudo jogado de qualquer jeito? Você Pode. Quer organizar por data de lançamento? Você pode. Quer organizar por padrão de cores da boxart? Você pode. Quer organizar por gênero e ou plataforma? Você pode – neste exemplo da coleção de games, você não sabe bem ainda o escopo final da sua coleção (afinal, a ideia é que você compre, e até mesmo venda, mais jogos), mas ter um espaço para armazenar todos os títulos que você possui em um único lugar é uma mão na roda quando bate aquela vontade de jogar alguma coisa.
Isso que foi descrito acima pode ser equiparado a um Data Lake, com a diferença que, ao invés de games, armazena-se dados dos mais diversos, armazena-se informações das mais diversas, para serem acessados sempre que você necessitar durante um projeto.
Para Business Intelligence, principalmente para os que estão iniciando na área, manter um Data Lake é essencial por ser relativamente mais simples que um Data Warehouse e ser mais abrangente que um Data Mart.
O ecossistema de dados atualmente é um onde se zela muito pela preparação dos mesmos. Seja por Inteligência Artificial, seja por ferramentas incríveis de B.I., etc, para criar esses centros de armazenamento de dados extremamente sofisticados. A proposta de se criar um Data Lake vai de encontro a esta noção, exigindo menos do hardware utilizado e possibilitando que se gaste menos tempo preparando estes dados para pôr a mão na massa, dedicando mais tempo a análise dos dados inseridos no Data Lake.
Mas agora vamos ao que interessa, o que exatamente devemos armazenar em um Data Lake?
Ora, todo dado relevante para a sua empresa e para seus projetos futuros!
Portanto, é um trabalho em conjunto mantê-lo organizado e alimentado com dados relevantes e sim, a crítica ao Data Lake de “mas então significa que teremos armazenados dados de qualidades distintas e sem polimento nenhum?” que deve estar passando pela sua cabeça agora é válida. De fato isso ocorre, e é o trabalho do cientista de dados analisar e identificar qual tipo de dado é relevante para cada projeto e analisá-lo criteriosamente antes de tratá-lo.
“Mas nossa, deve ser uma bagunça ter tanto dado diferente em um lugar só, né não???”
Calma, jovem padawan, a pergunta é pertinente, mas tá pensando que ser mestre Pokémon do B.I. é fácil? A gente tem que estar sempre preparado!
Uma dica que ofereço é usar e abusar de metadados. Não precisa ser nenhum mestre dos B.I. para fazer um Data Lake ficar organizadinho, mas é preciso ter o cuidado de taggear. Use tags para tudo o que você for armazenar.
É importante frisar que Data Lake não é um software ou uma tecnologia em si. Pelo contrário, é um conceito que engloba muitos softwares, um dos mais importantes dele sendo o Hadoop, que é um dos softwares mais usados para processamento de dados em um Data Lake. Outro software gratuito para você brincar na organização de dados é o Open Refine, que facilita E MUITO o tratamento dos dados que você coletou em seu projeto.
Outra sabedoria que vos deixo é a seguinte: seja SEMPRE cuidadoso e organizado. Trabalhar com B.I. não é só ficar fazendo relatórios, gráficos e planilhas maravilhosas, a sua responsabilidade é ENORME, visto que são as informações e recomendações fruto do seu trabalho que nortearão a tomada de decisão das pessoas. Um erro por descuido, ou porque você guardou algo no seu Data Lake que acabou se perdendo, ou seja lá o que for, pode trazer prejuízos ao cliente e o pior, à credibilidade do seu trabalho como B.I.! Então seja MUITO criterioso na hora de criar o seu Data Lake. Cuide bem dele e ele cuidará bem de você no futuro.
“Ah, Quinho, mas então é só ir jogando qualquer dado lá e deixar organizadinho que dá bom!”
Peraí, né. Falando muito sério agora, construir um Data Lake é coisa séria. Não basta só criar um repositório e ir alimentando ele com o que vier na cabeça, Data Lakes devem seguir processos rigorosos para garantir a segurança de dados necessária para que você não acabe utilizando dados inverídicos no seu trabalho. Então tenha muito cuidado com o que você irá incluir.
Apesar de ser maravilhoso, o Data Lake ainda é muito mais hypado do que ele realmente é. Lembre-se que ele não é a solução final para os seus problemas de armazenamento de dados e que ele exige MUITO trabalho para funcionar da maneira esperada. Vá com calma e não dê um passo maior que a perna, respeite o seu tempo. Assim, quem sabe, você consiga entrar neste lago sem se afogar.
Em comparação direta a um Data Warehouse, por exemplo, os Data Lakes possuem algumas vantagens nítidas, principalmente no que diz respeito ao volume de dados acumulados, já que são dados brutos, ao invés de tratados como em DW, investimento necessário menor e, claro, a flexibilidade, já que o Data Lake não utiliza um modelo pré-estabelecido, como os Data Warehouse.
Um exemplo para deixar claro de vez a diferença entre Data Warehouse e Data Lake é o clássico exemplo de tendências em Game Design:
O seu jogo será de qual gênero? Quais são os gêneros que geraram mais receita nos últimos 10 anos?
Para responder esta questão consultando a um Data Lake, você encontrará dados em quantidades absurdas sobre tudo o que diz respeito a gêneros de jogos em forma bruta, desde o que era trending a 10 anos atrás até precificação de jogos por gênero ou benchmark de principais competidores por gênero (em questão de performance, duração do jogo, estilo gráfico, entre outros) e, com o auxílio de softwares (como os já citados Hadoop e Open Refine) de análise destes dados é possível extrair a resposta para a sua pergunta e incluir dados tangenciais, que provavelmente serão relevantes mais adiante no seu projeto, como, por exemplo, qual estilo de música possui sinergia em cada gênero, etc… Já com um Data Warehouse, monta-se parâmetros para que esta resposta já venha com dados alimentados de maneira mais criteriosa pelo software que estiver armazenando-os, digamos que um Data Warehouse é mais caro, mais engessado e capaz de trazer respostas mais complexas e profundas do que um Data Lake.
Em suma, Data Lake é essencial em qualquer projeto de B I, já que ele é um repositório de tudo o que você vai colher durante o seu data scrapping e outras técnicas de colheita de dados. Ele é essencial no sentido de atuar como um facilitador para todas as suas pesquisas presentes e futuras, porém precisa de muito trabalho para ser mantido, já que o data lake por si só não conseguirá atingir o objetivo de auxiliar na pesquisa.
Quer saber mais sobre Business Intelligence, análise de mercado, marketing voltado para games e muito mais? Segue o #GamePlanCompass aqui e entre em contato com a gente! A GamePlan está sempre aberta a apontar os mais diversos caminhos para as mais diferentes necessidades!
Imagem de Wilfried Pohnke por Pixabay