Engenharia de Dados (Híbrido/SP) - 132192
Engenharia de Dados (Híbrido/SP) - 132192
Alphaville - Barueri, BR, 06.454-000
O que buscamos
Profissional de nível SR que atue como (engenharia de dados). Vaga Híbrida 3x na semana no Vila Nova Conceição/SP
Responsabilidades
- Projetar e implementar pipelines de dados end-to-end (batch, streaming e micro-batch);
- Definir e evoluir a modelagem de dados analíticos (dimensional, One Big Table);
- Implementar estratégias de Slowly Changing Dimensions (SCD) tipos 1, 2 e 3 conforme necessidade de negócio;
- Definir estratégias de particionamento, bucketing e compactação para otimização de armazenamento e consulta;
- Implementar frameworks de data quality com validações no pipe (schema validation, freshness, completeness, uniqueness, referential integrity);
- Garantir observabilidade dos pipelines com métricas, alertas e rastreabilidade de linhagem de dados;
- Projetar contratos de dados entre produtores e consumidores, garantindo estabilidade nas interfaces. Aplicar técnicas de deduplicação, reconciliação e tratamento de late-arriving data;
- Colaborar com times de analytics e plataforma na definição de padrões de consumo e disponibilização de dados.
Requisitos:
- Experiência sólida com construção de pipelines de dados em ambientes cloud (preferencialmente AWS);
- Domínio de técnicas de modelagem dimensional (star schema, snowflake schema, bridge tables, factless facts);
- Experiência com Slowly Changing Dimensions e estratégias de historização de dados;
- Conhecimento em estratégias de particionamento e seus impactos em performance de leitura;
- Experiência com frameworks de data quality (Great Expectations, Soda ou PyDeequ);
- Conhecimento em formatos colunares e suas características de compressão e evolução de schema;
- Experiência com orquestração de pipelines e tratamento de dependências, retries e idempotência;
- Ferramentas e Tecnologias Processamento de Dados Apache Spark Apache Flink DuckDB Polars Modelagem e Transformação Clickhouse (diferencial) Lakehouse Data Quality Great Expectations Soda Core PyDeequ Formatos e Table Formats Apache Parquet Apache Iceberg Orquestração Apache Airflow ou equivalente Linguagens Python SQL Java (desejável)
- Inglês avançado.
Diferenciais
- Experiência com Data Mesh e conceitos de domínios de dados descentralizados;
- Conhecimento em data lineage e catalogação (OpenMetadata, DataHub, Amundsen);
- Experiência com testes para pipelines (unit tests, integration tests, data contract tests);
- Familiaridade com técnicas de otimização de custos em ambientes de data lake (compactação, z-ordering, partição adaptativa);
- Contribuição em definição de padrões e documentação técnica para times de dados.
Descrição comportamental:
Procuramos uma pessoa que:
- Goste de trabalhar em equipe e seja colaborativa em suas atribuições;
- Tenha coragem para se desafiar e ir além, abraçando novas oportunidades de crescimento;
- Transforme ideias em soluções criativas e busque qualidade em toda sua rotina;
- Tenha habilidades de resolução de problemas;
- Possua habilidade e se sinta confortável para trabalhar de forma independente e gerenciar o próprio tempo;
- Tenha interesse em lidar com situações adversas e inovadoras no âmbito tecnológico.
Big enough to deliver – small enough to care.
#VempraGFT
#VamosVoarJuntos
#ProudToBeGFT