1 Introdução

Bancos de dados NoSQL se tornaram muito populares nos últimos anos. Grandes empresas dependem deles para guardar centenas de petabytes de memória e rodar milhões de queries por segundo. Mas o que é um banco de dados NoSQL? Como ele funciona e como ele “escala” tão melhor que um banco de dados relacional tradicional?

Para responder essa pergunta, vamos começar explicando rapidamente o problema com bancos de dados relacionais como MySQL, MariaDB, SQL Server e outros.

Esses são construídos para guardar dados relacionais o mais eficiente possível.

Você pode ter uma tabela para clientes, para pedidos, para produtos e ligar eles logicamente: clientes fazem pedidos e pedidos contém produtos. Essa forma enxuta é ótima para manusear seus dados, porém tem um grande custo: bancos de dados relacionais tem problemas com grandes volumes de dados. Eles precisam manter essas relações, e isto é um processo intenso, requerendo muita memória e poder computacional.

Por um período, você consegue atualizar o servidor de seu banco de dados, porém em algum momento, ele não vai ser capaz de aguentar a demanda. Em termos técnicos, dizemos que bancos de dados relacionais “escalam” verticalmente, mas não horizontalmente, onde banco de dados NoSQL podem “escalar” tanto verticalmente quanto horizontalmente.

Você pode comparar isso a um prédio: “escala” vertical signigica adicionar mais andares a um prédio existente, enquanto “escala” horizontal significa adicionar mais prédios. Intutitivamente, é compreensível que “escalagem” vertical é possível até certo ponto, enquanto “escalagem” horizontal é muito mais poderosa.

Mas, por que NoSQL “escalam” tão bem?

2 Entendendo NoSQL

Em primeiro lugar, eles lidam melhor com essas relações onerosas. Em NoSQL, cada item do banco de dados está por si próprio. Esta modificação simples significa que eles são basicamente itens chaves-valor e cada item no banco de dados possui apenas dois campos: uma chave e um valor.

Por exemplo: quando você quer guardar a informação de um produto, você pode usar o códico de barra do produto como a chave e o nome do produto como valor.

Isso parece restritivo, mas um valor pode ser algo como um documento JSON contendo mais dados, como preço e descrição. Esse design mais simples é a razão pela qual bancos de dados NoSQL “escalam” melhor. Se um único servidor de banco de dados não é suficiente para guardar todos seus dados ou rodar todas as queries, você pode dividir a demanda entre dois ou mais servidores. Cada servidor então será responsável por apenas uma parte do seu banco de dados. Um exemplo, a Apple roda um banco de dados NoSQL que consiste em 75000 servidores.

Em termos NoSQL, essas partes do teu banco de dados são chamados de partições, e isso nos trás uma questão: se teu banco de dados está divido em potencialmente milhares de partições, como você sabe onde um item está salvo?

Nesse momento que a chave primária entra em ação.

Lembre-se, bancos de dados NoSQL são itens chave-valor, e a chave determina em qual partição um item estará salvo.

Atrás das cortinas, bancos de dados NoSQL usam “hash function” para converter a chave primária de cada item em um número que fica fixo numa série, por exemplo, entre 0 e 100. Esse “hash value” e a série são usados para determinar onde salvar um item. Se teu banco de daods é pequeno ou não têm muitas requisições, você pode colocar tudo num único servidor. Ele sozinho será responsável por toda a série.

Se esse servidor ficar sobrecarregado, você pode adicionar um segundo servidor, o que significa que a série será dividida pela metade. O servidor 1 será responsável pelos itens com uma “hash” entre 0 e 50, enquanto o servidor 2 salvará tudo entre 50 e 100. Teoricamente, você dobrou a capacidade do teu banco de dados: tanto em termos de capacidade quanto em quantidade de queries que você pode executar.

Essa série também é chamada de “keyspace”.

É um sistema simples que resolve dois problemas: onde gravar itens novos e onde encontrar os existentes. Nesse novo exemplo, a série de 0 a 100 é um pouco pequena. Isso permitiria que você dividisse seu banco de dados em no máximo 100 partições. Dessa forma, bancos de dados NoSQL reais tem “keyspaces” muito maiores, permitindo o “escalonamento” quase que sem restrições.

Além de grande “escalabilidade”, NoSQL não possuem esquemas, o que significa que itens no banco de dados não precisam ter a mesma estrutura. Cada um pode ser completamente diferente. Num banco de dados relacional, você tem que definir a estrutura de sua tabela, e cada item deve respeitar essa estrutura. Mudar essa estrutura não é fácil e pode levar à perda de dados. Não ter um esquema pré-determinado pode ser uma grande vantagem se a tua aplicação e estrutura de dados está constantemente evoluindo. Neste ponto, é claro que bancos de dados NoSQL tem certas vantagens em relacão à bancos de dados relacionais.

Mas isso não quer dizer que bancos de dados relacionais são obsoletos, longe disso. NoSQL é mais limitado na forma como você recupera seus dados, apenas permitindo que você pesquise por itens através de sua chave primária. Achar pedidos através de sua ID não é problema, porém achar todos os pedidos acima de certa quantidade pode ser ineficiente. Bancos de dados relacionais, por outro lado, tem pouco problema com isto. Existem formas de burlar este problema, porém apenas se você sabe como acessar seus dados e isso pode não ser sempre o caso.

Outro ponto negativo é que bancos de dados NoSQL possuem consistência eventual. Quando você escreve um novo item no banco de dados e tenta lê-lo diretamente, ele pode não retornar. Como explicado anteriormente, NoSQL divide o seu banco de dados em partições, porém cada partição é espelhada através de diversos servidores. Dessa forma, um servidor pode cair sem muito impacto. Quando você escreve um novo item no seu banco de dados, uma dessas cópias vai salvar o novo item e copiar à outras partições em segundo plano e esse processo leva certo tempo. Então quando você requisitar um item, o banco de dados NoSQL pode tentar ler de uma cópia que ainda não salvou este item nela. Na prática este não é um problema grande pois dados são replicados em apenas alguns milisegundos e se vocês busca consistência, a maioria dos bancos de dados NoSQL possuem essa opção.

Assim, em resumo, tanto bancos de dados NoSQL e bancos de dados relacionais estarão presentes no mercado por um bom tempo. Cada um tem seus pontos fortes e pontos fracos.

Agora sabemos como funciona NoSQL, vamos olhar alguns exemplos.

3 Exemplos

3.1 Cloud Services

Servidores em nuvem promovem de forma pesada o uso de NoSQL porque eles podem “escalar” mais facilmente. A Amazon possui o DynamoDB, o Google Cloud possui o BigTable e o Microsoft Azure possui o CosmosDB. Para dar um exemplo de “escalabilidade”: durante o Amazon Prime Day de 2019, o banco de dados NoSQL da Amazon chegou suportar 45 milhões de pedidos por segundo!

3.1.1 DynamoDB

Serviço oferecido pela Amazon.com como parte do portfólio da Amazon Web Services. DynamoDB usa replicação síncrona através de diversos data centers para ter alta durabilidade e disponibilidade.

Para mais informações:

3.1.2 BigTable:

Sistema de armazenamento de dados de alta performance do Google que começou a ser desenvolvido em 2004 e hoje é utilizado em inúmeras aplicações da empresa como indexador online, Google Maps, Google Earth, Youtube, Gmail entre outros serviçoes oferecidos.

Para mais informações:

3.1.3 CosmosDB:

De propriedade da Microsoft e distribuído globalmente, este serviço de database multi-model “para gerenciamento de dados em escala planetária” foi lançado em 2017. Ele é esquema-agnóstico, com escalamento horizontal e classificado como um banco de dados NoSQL.

Para mais informações:

3.2 Self Hosted

Porém você também pode rodar bancos de dados NoSQL no seu próprio computador com softwares como Cassandra (desenvolvido pelo Facebook), Scylla, CouchDB, MongoDB, entre outros.

3.2.1 Cassandra:

Criado por Avinash Lakshman, um dos criadores do Dynamo da Amazon e Prashant Malik foi inicialmente desenvolvido dentro do Facebook como ferramenta para o auxílio da ferramenta de pesquisa do site. Após, foi liberado como um projeto de código aberto e desde 2009 faz parte do projeto Apache Incubator. Cassandra é um sistema de manuseio de banco de dados NoSQL, livre e de código aberto projetado para suportar grandes quantidades de dados através de diversos servidores, fornecendo alta disponibilidade e sem falhas.

Para mais informações:

3.2.2 Scylla:

É um sistema de código livre desenhado para ser compatível com o Apache Cassandra, mesmo tendo desempenho mais robusto. Ele roda os mesmos protocolos que o Cassandra e do DynamoDB, entretanto sua implementação foi feita usando C++20 ao invés de Java do Cassandra. Scylla foi projetado para utilizar escalonamento horizontal em cada nó, de forma que cada núcleo de CPU é responsável por diferentes subconjuntos de dados. Esses núcleos não compartilham os mesmos dados, porém se comunicam entre si explicitamente apenas quando é necessário. Os autores do sistema afirmam que esse design diferente permite ao Scylla ser 10 vezes mais veloz que o Cassandra.

Para mais informações:

3.2.3 CouchDB:

É um sistema de código aberto implementado na linguagem de programação Erlang, utiliza JSON para guardar os dados e queries de JavaScript para o manuseio dos mesmos. Foi lançado em 2005 e hoje também faz parte do projeto Apache.

Para mais informações:

3.2.4 MongoDB:

Imagina se um bolsista já fez um markdown sobre esse assunto?

( ͡° ͜ʖ ͡°)

4 Considerações finais

Antes de terminar este texto, vamos falar rapidamente do nome “NoSQL”. Isso é um pouco confuso e pode ser interpretado de duas formas. Primeiro, “NoSQL” pode significar “not only SQL” (não apenas SQL), direcionado ao fato que alguns bancos de dados NoSQL entendem parcialmente as queries de linguagem SQL, além de suas próprias capacidades. Em segundo lugar, é chamado de “NoSQL” no sentido de “non-relational” (não relacional) porque ele não pode salvar dados relacionais facilmente.

Eras isso!

Texto traduzido de: How do NoSQL databases work? Simply Explained!

