Engenharia de Dados Especialista - 132193
Engenharia de Dados Especialista - 132193
Alphaville - Barueri, BR, 06.454-000
O que buscamos:
Estamos em busca de um(a) Senior Data Engineer para fortalecer nosso time de dados. Procuramos alguém que goste de construir pipelines robustos, confiáveis e preparados para produção, com foco em qualidade dos dados de ponta a ponta, da origem ao consumo e maturidade para tomar decisões técnicas com autonomia. Você atuará diretamente na modelagem de dados analíticos, na definição de estratégias de garantia de qualidade em escala e na evolução contínua dos pipelines que sustentam a operação da plataforma. Este é um papel ideal para quem gosta de resolver problemas reais e complexos de negócio por meio de engenharia de dados bem feita.
Responsabilidades:
- Projetar e implementar pipelines de dados end-to-end (batch, streaming e micro-batch).
- Definir e evoluir a modelagem de dados analíticos (dimensional e One Big Table).
- Implementar estratégias de Slowly Changing Dimensions (SCD) tipos 1, 2 e 3, conforme as necessidades do negócio.
- Definir estratégias de particionamento, bucketing e compactação, visando otimização de armazenamento e performance de consulta.
- Implementar frameworks de qualidade de dados, com validações no pipeline (schema validation, freshness, completeness, uniqueness, integridade referencial).
- Garantir Observabilidade dos pipelines, incluindo métricas, alertas, monitoramento e rastreabilidade da linhagem de dados.
- Projetar e manter contratos de dados entre produtores e consumidores, garantindo estabilidade e previsibilidade das interfaces.
- Aplicar técnicas de deduplicação, reconciliação e tratamento de dados tardios (late-arriving data).
- Colaborar com times de Analytics e Plataforma na definição de padrões de consumo e disponibilização de dados.
Requisitos Obrigatórios:
- Experiência sólida na construção de pipelines de dados em ambientes cloud (preferencialmente AWS).
- Domínio de modelagem dimensional (star schema, snowflake schema, bridge tables, factless facts).
- Experiência comprovada com Slowly Changing Dimensions e estratégias de historização de dados.
- Conhecimento em estratégias de particionamento e seus impactos em performance de leitura e custo.
- Vivência com frameworks de Data Quality (Great Expectations, Soda ou PyDeequ).
- Conhecimento de formatos colunares e suas características de compressão e evolução de schema.
- Experiência com orquestração de pipelines, incluindo gestão de dependências, retries e idempotência;
- Experiência com Idioma Inglês em nível Intermediário ou Avançado.
- Processamento de Dados: Apache Spark, Apache Flink, DuckDB, Polars;
- Modelagem e Transformação: ClickHouse (diferencial), Arquitetura Lakehouse;
- Data Quality: Great Expectations, Soda Core, PyDeequ;
- Formatos e Table Formats: Apache Parquet, Apache Iceberg;
- Orquestração: Apache Airflow ou equivalente;
- Linguagens: Python, SQL e Java (desejável).
Requisitos Diferenciais:
- Experiência com Data Mesh e domínios de dados descentralizados.
- Conhecimento em Data Lineage e catalogação (OpenMetadata, DataHub, Amundsen).
- Experiência com testes para pipelines de dados (unit tests, integration tests, data contract tests).
- Familiaridade com otimização de custos em data lakes (compactação, z-ordering, particionamento adaptativo).
- Contribuição ativa na definição de padrões e documentação técnica para times de dados.
Descrição comportamental:
Procuramos uma pessoa que:
- Goste de trabalhar em equipe e seja colaborativa em suas atribuições;
- Tenha coragem para se desafiar e ir além, abraçando novas oportunidades de crescimento;
- Transforme ideias em soluções criativas e busque qualidade em toda sua rotina;
- Tenha habilidades de resolução de problemas;
- Possua habilidade e se sinta confortável para trabalhar de forma independente e gerenciar o próprio tempo;
- Tenha interesse em lidar com situações adversas e inovadoras no âmbito tecnológico.
Big enough to deliver – small enough to care.
#VempraGFT
#VamosVoarJuntos
#ProudToBeGFT