Guia de boas práticas para nomear e organizar datasets e tabelas no Data Lake, promovendo padronização, clareza e fácil identificação das informações.
Arquitetura Medalhão
. Este padrão consiste em organizar logicamente os dados em um Data Lake, com o objetivo de melhorar incremental e progressivamente a estrutura e qualidade dos dados à medida que eles fluem por cada camada da arquitetura (isto é, entre as tabelas da camada Bronze ⇒ Prata ⇒ Ouro):
Bronze ou Dados Brutos
: É onde depositamos todos os dados dos sistemas de origem externos. As estruturas de tabela nesta camada correspondem às estruturas de tabela do sistema de origem “como estão”, juntamente com quaisquer colunas de metadados adicionais que capturem a data/hora de carga, o ID do processo, etc.Prata ou Dados Mestres
: Nesta camada os dados da camada Bronze são correspondidos, unificados, padronizados e limpos (“o suficiente”) para que a camada Prata possa fornecer uma “visão Institucional” de todas as suas principais entidades, conceitos e transações. Ela serve como uma fonte para os desenvolvedores criarem projetos e análises adicionais para resolver problemas de suas áreas.Ouro ou Casos de Uso
: Os dados na camada Ouro geralmente são organizados em bancos de dados “específicos do projeto”, prontos para o consumo. A camada Ouro é para relatórios ou dashboards, e utiliza modelos de dados mais desnormalizados (tabelões) e otimizados para leitura, com menos junções (joins).Camada | Nomenclatura | Comentário |
---|---|---|
Bronze ou Raw Staging | brutos_<data_source>_staging | |
Bronze ou Raw | brutos_<data_source> | |
Prata ou Core | iplan_dados_mestres iplan_<tema> | Reservado para dimensões tranversais à Prefeitura |
Ouro ou Marts | app_<tema> gerenciamento_<tema> projeto_<tema> | Reservado para execução e controle de processos e aplicações internas Reservado para integrações com aplicações Reservado para uso em BI e Data Science |
app_<tema>
tema
deve indicar claramente a aplicação ou o domínio de uso dos dados, facilitando a identificação do proposito do dataset.
gerenciamento
. Nesta camada os datasets deve ser nomeados seguindo um dos padrões abaixo
gerenciamento_<ferramenta>
gerenciamento_<finalidade>
gerenciamento_<ferramenta>_<finalidade>
projeto_<tema>
tema
deve ser substituido pelo assunto principal do projeto, de forma clara e objetiva.
episodio_assistencial_diagnostico
, farmacia_estoque
.farmacia_estoque
, e não farmacia_estoque_diario
.chamado
, e não chamados
.saude_estoque.movimentacao
_serie_historica
é reservado para as tabelas que contenham a série histórica. Nos casos das tabelas onde essa característica não é explicitada no nome, o entendimento é que a tabela representa a situação atual.saude_estoque.posicao
deve ser usado, e não saude_estoque.estoque_posicao
)saude_dados_mestres
, caso a tabela em questão seja uma dimensão referência para diversos temas no Data Lake.