Skip to main content

Visão Geral

Os pipelines de transformação de dados são responsáveis por transitar os dados para além da camada bronze (etapa staging): Transformação Os nossos modelos de dados são públicos e estão disponíveis no seguinte repositório:

Modelos de Dados - IplanRio

Repositório com os modelos de dados desenvolvidos pela IplanRio.

Conhecimentos Necessários

Para desenvolver um pipeline de transformação de dados, é necessário os seguintes conhecimentos:
  • Linguagem SQL para transformar os dados nos formatos das camadas seguintes.
  • Versionamento de código em Git.
  • Ferramenta dbt para realizar a materialização das tabelas dentro do BigQuery.

Onde Aprender

SQL

Como em qualquer SGBD, a sintaxe SQL utilizada no BigQuery possui suas particularidades e funções específicas. Para conhecer mais, recomendamos utilizar a documentação oficial do GoogleSQL.
💡 O BigQuery também permite treino e escoragem de modelos de Machine Learning a partir de instruções SQL! Essa é uma excelente alternativa ao uso de Spark devido à alta capacidade computacional do BigQuery e à facilidade da linguagem SQL. Para aprender sobre como implementar seus modelos a partir do BigQuery, consultar a documentação oficial do BigQuery ML.

dbt

Para aprender a trabalhar com o dbt, indicamos consumir os treinamentos oficiais da empresa que desenvolve a solução:

Curso introdutório - dbt Learn

Curso introdutório ao dbt, com foco em modelagem de dados e boas práticas.
Para aqueles usuários que querem se aprofundar na ferramenta, indicamos fortemente outros dois módulos:

Escrevendo SQL modular - dbt Learn

Curso sobre boas práticas de escrita de SQL, com foco em modularização e reutilização de código.

Métodos avançados para testar seus pipelines - dbt Learn

Curso sobre boas práticas de testes em pipelines, com foco em testes automatizados e explicandos os diferentes testes no DBT.