Visão Geral
Os pipelines de transformação de dados são responsáveis por transitar os dados para além da camada bronze (etapa staging):
Conhecimentos Necessários
Para desenvolver um pipeline de transformação de dados, é necessário os seguintes conhecimentos:- Linguagem SQL para transformar os dados nos formatos das camadas seguintes.
- Versionamento de código em Git.
- Ferramenta dbt para realizar a materialização das tabelas dentro do BigQuery.
Onde Aprender
SQL
Como em qualquer SGBD, a sintaxe SQL utilizada no BigQuery possui suas particularidades e funções específicas. Para conhecer mais, recomendamos utilizar a documentação oficial do GoogleSQL.💡 O BigQuery também permite treino e escoragem de modelos de Machine
Learning a partir de instruções SQL! Essa é uma excelente alternativa ao uso
de Spark devido à alta capacidade computacional do BigQuery e à facilidade
da linguagem SQL. Para aprender sobre como implementar seus modelos a partir
do BigQuery, consultar a documentação oficial do BigQuery ML.
dbt
Para aprender a trabalhar com o dbt, indicamos consumir os treinamentos oficiais da empresa que desenvolve a solução: Para aqueles usuários que querem se aprofundar na ferramenta, indicamos fortemente outros dois módulos:Escrevendo SQL modular - dbt Learn
Curso sobre boas práticas de escrita de SQL, com foco em modularização e reutilização de código.
Métodos avançados para testar seus pipelines - dbt Learn
Curso sobre boas práticas de testes em pipelines, com foco em testes automatizados e explicandos os diferentes testes no DBT.