Guia de boas práticas para nomear, ordenar e padronizar colunas de tabelas no Data Lake, promovendo clareza, consistência e facilidade de uso.
[id_][<entidade>_]<dimensão>[_<unidade>]
id_
(Prefixo opcional):
id_cnes
, id_material
, id_municipio
.
cpf
ou cns
, o prefixo pode ser omitido para melhor legibilidade. <entidade>_
(Prefixo opcional):
corridas
do Taxi Rio, o nome do motorista seria motorista_nome
. Em uma tabela de motoristas
do Taxi Rio, seria apenas nome
.
<dimensão>
(Obrigatório):
nome
, nascimento
, atendimento
, logradouro
._<unidade>
(Sufixo opcional):
_nome
: nomes ou descrições_data
: datas_datahora
: timestamps/datetime_valor
: valores monetários ou numéricos gerais_quantidade
: contagens ou quantidades_particao
: reservado para campos que particionam a tabela._proporcao
: porcentagens (0-100)_taxa
: taxas_razao
: razões_indicador
: booleanos (True/False, 0/1)_tipo
: tipos ou classificações_sigla
: siglas ou códigos
_km
ou _metro
podem aparecer em contextos específicos, mas priorize os sufixos semânticos acima. id_estabelecimento
: chave primária de estabelecimentoestabelecimento_nome
: nome do estabelecimentoatendimento_data
: data do atendimentoano
: ano (dimensão apenas, sem sufixo)id_municipio
: chave estrangeira para municípioatendimento_quantidade
: quantidade de atendimentoscorrida_valor
: valor total pagoativo_indicador
: flag de ativoendereco_logradouro_tipo
: sigla do tipo de logradouro_
.de
, da
, dos
, e
, a
, em
, etc.id_atendimento
data_atendimento
, tipo_atendimento
, descricao_ocorrencia
id_...
) com seus atributos descritivos correspondentes.
id_paciente
, paciente_nome
, paciente_data_nascimento
data_carga
, id_processamento_lote
, fonte_dados_origem
, data_atualizacao_origem
, data_criacao_origem
ano_particao
, mes_particao
, data_particao
.
(ponto) ao invés de ,
(vírgula).YYYY-MM-DD
HH:MM:SS
YYYY-MM-DDTHH:MM:SS.sssZ
""
(csv), NULL
(Python), NA
(R), .
ou ""
(Stata)normalizadas
, e temos regras para quais variáveis incluirmos em produção. Elas são:
ano
e data
se a tabela é particionada nessas duas dimensões.id_municipio
) e (2) retirar chaves estrangeiras irrelevantes (e.g. regiao
).