Visão Geral

Os pipelines de transformação de dados são responsáveis por transitar os dados para além da camada bronze (etapa staging): Transformação Os nossos modelos de dados são públicos e estão disponíveis no seguinte repositório:

Conhecimentos Necessários

Para desenvolver um pipeline de transformação de dados, é necessário os seguintes conhecimentos:
  • Linguagem SQL para transformar os dados nos formatos das camadas seguintes.
  • Versionamento de código em Git.
  • Ferramenta dbt para realizar a materialização das tabelas dentro do BigQuery.

Onde Aprender

SQL

Como em qualquer SGBD, a sintaxe SQL utilizada no BigQuery possui suas particularidades e funções específicas. Para conhecer mais, recomendamos utilizar a documentação oficial do GoogleSQL.
💡 O BigQuery também permite treino e escoragem de modelos de Machine Learning a partir de instruções SQL! Essa é uma excelente alternativa ao uso de Spark devido à alta capacidade computacional do BigQuery e à facilidade da linguagem SQL. Para aprender sobre como implementar seus modelos a partir do BigQuery, consultar a documentação oficial do BigQuery ML.

dbt

Para aprender a trabalhar com o dbt, indicamos consumir os treinamentos oficiais da empresa que desenvolve a solução:
Para aqueles usuários que querem se aprofundar na ferramenta, indicamos fortemente outros dois módulos: