
Dados, IA & Machine Learning
Eixo estrategico do meu projeto profissional. Workflows LLM ACCENSEO, plataforma ML AdsPower, pipeline ETL Ligneurs, SaaS para contadores e corretores. Crescer em engenharia de dados e IA aplicada a sistemas em produção.
Cada segmento é um período (trajetória ou realização) onde a competência foi aplicada. A cor e o tamanho do ponto final refletem o nível atingido nesse período.
Minha definição
Dados, IA e ML, para mim, e a competencia que transforma eventos e textos em decisões. Cobre as bases relacionais e NoSQL, a engenharia de dados, os fundamentos do machine learning e os workflows LLM aplicados (RAG, agentic, avaliacao). E o eixo estrategico explicito do meu projeto 2026-2028: integrar a IA generativa em workflows conformes e operar os dados na escala de um SaaS B2B vertical regulado.
Trabalho em 3 camadas que sustento em paralelo. Armazenamento e modelagem: SQL avancado, modelagem Prisma (~91 modelos no SaaS contabil, 98 no SaaS corretores), MongoDB e PostgreSQL em produção em varias centenas de GB de RAM na ACCENSEO. Pipelines: ETL custom (Akeneo Ligneurs), pipelines ML Azure ML Studio (AdsPower 2016-2018), enriquecimento multi-fornecedor (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). IA aplicada: RAG hands-on no pipeline ACCENSEO, classificacao, geracao 3D, tradução multilingue, extracao de atributos a partir de visuais. Competencia em ascensao ativa para Senior no triptico data engineering + ML aplicado + LLM-Ops.
Em 2026, o moat competitivo de um SaaS B2B vertical não está mais no LLM escolhido mas no contexto que você da a ele - dados proprietarios permissionados, execucao real das tarefas com guardrails e distribuicao embarcada. E a tese desenvolvida pela Microsoft Azure em 10 RAG Shifts Redefining Production AI in 2026: o agentic RAG virou o padrao default para responder perguntas complexas e executar ações, e o RAG hibrido e a baseline de produção. O CTO que sabe projetar um pipeline RAG industrializado (eval + drift detection + cost per feature) em dominio regulado vira procurado.
Minhas evidências
Anedota 1 : Co-fundar a AdsPower em torno de pipelines ML AdTech
Em janeiro de 2016, co-fundei a AdsPower como CTO e Technical Project Manager de uma startup early-stage sem investidor externo. A aposta: competir com Optmyzr (US) e Dolead (FR) com uma abordagem ML-first para otimizar automaticamente os lances no Google AdWords, Bing Ads e Facebook Ads. O mercado era dominado por motores de recomendacao heuristicos, e o Azure ML Studio acabava de sair do preview público - havia uma janela, mas também um desafio: escassez de competencias ML em Bordeaux em 2017 e runway limitado.
Montei um pipeline ML completo: um Data Collection Service plugado nas APIs Google AdWords + Bing Ads + Facebook Ads, um SERP Scraper custom (Goutte + CasperJS) cobrindo 6 motores (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo) e absorvendo mais de 10 milhoes de requisicoes por mes via cache Memcached + queue Redis, e um sidecar Python Flask rodando NLTK + TF-IDF para o NLP multilingue. Em modelos, treinei no Azure ML Studio classificacoes supervisionadas para a predicao de bid, clusters k-means para a deteccao de palavras-chave negativas, e a Google Prediction API para a segmentacao de audiencia. A stack aplicacional: Symfony 3.2 + Angular com builds Electron desktop (Mac/Windows/Linux) e Cordova mobile (iOS/Android). Para encontrar freelancers ML, fiz buscas GitHub geolocalizadas nas tags machine-learning.
3 iteracoes de produto majores entregues em menos de um ano com uma equipe de 4 freelancers que conduzi como Technical Project Manager, plataforma cobrindo 3 redes publicitarias (Google, Bing, Facebook) com recomendacoes em menos de 500 ms, e 3 beta-testadores ativos na v1 de novembro de 2016.
Essa aventura me ensinou na pele que classificacao + bid optimization podem ser produtizadas - não apenas demonstradas em notebook. Os reflexos que forjei la (latencia sub-segundo, fallback heuristico em caso de incerteza do modelo, monitoramento do quality score) são exatamente os que rejogo hoje nos workflows LLM da ACCENSEO. A AdsPower não encontrou seu PMF antes do esgotamento do runway, mas foi minha primeira escola de ML em produção.
Anedota 2 : Industrializar o enriquecimento LLM multi-fornecedor na ACCENSEO
Na ACCENSEO, um dos chantiers recorrentes com meus clientes e-commerce e PIM e o enriquecimento massivo de fichas de produto por IA: dezenas de milhares de fichas a otimizar - taxonomia automatica, rewriting SEO de descricoes, melhoria de fotos (recorte, fundos, watermark), geracao de modelos 3D, tradução multilingue, extracao de atributos a partir dos visuais. A armadilha: se você se prender a um único fornecedor LLM, herda suas quedas, seus precos e seus limites de taxa.
Construi um pipeline multi-fornecedor por padrao. No texto, integrei OpenAI GPT, Anthropic Claude e Google Gemini com um roteador que escolhe o modelo conforme a tarefa (Claude para precisao, GPT para criatividade, Gemini para multimodal leve). Em 3D, conectei TRELLIS, TripoSR e Shap-E para gerar modelos 3D a partir das fotos de produto. Em imagem, tratamento automatico de fundo, recorte e watermark. A orquestracao passa por n8n e Make.com para os workflows automatizados, Power Automate para os gatilhos Microsoft, e tudo roda em servidores OVH dedicados dos clientes para preservar a confidencialidade do catalogo.
Enriquecimento desdobrado em escala nas plataformas e-commerce de varios clientes (imobiliario, moda, viticultura, automotivo, cozinha planejada), lift de qualidade catalogo mensuravel sem custo linear em humanos - e um produto interno Addly derivado dessa expertise para Confluence/Atlassian Forge.
Nesse trabalho entendi que a IA generativa em produção se ganha na disciplina de observabilidade (token cost, latencia, taxa de alucinacao detectada) e na estratégia multi-fornecedor, não na sofisticacao do prompt. E o angulo que quero empurrar no próximo papel CTO scale-up: transformar a IA em moat, não em truque de demo.
Anedota 3 : Pipeline ETL Akeneo para os portais imobiliarios (Ligneurs)
Durante 4 anos no Pichet (2019-2023), fui o único responsavel tecnico do pipeline de export Ligneurs - o motor de sindicacao automatizada dos anuncios imobiliarios do grupo para uma vintena de portais parceiros (SeLoger, LeBonCoin, BienIci, LogicImmo...). O sistema alimentava um volume estimado em um lead a cada 2 segundos no conjunto dos portais. Toda interrupcao se traduzia diretamente em leads perdidos e em receita perdida.
Concebi uma arquitetura modular por parceiro em vez de um motor generico: um container Docker isolado por portal, orquestrado por Kubernetes em AWS EKS, com GitLab CI para deploys direcionados sem impactar os outros fluxos. No ETL, o pipeline extrai via API REST PIM Akeneo v2, transforma no formato especifico de cada portal (XML, CSV, JSON), pre-renderiza as imagens em multi-formato centralizado (4/3, 16/9, panoramico, quadrado) para evitar reprocessamento por parceiro, e entrega via FTP/SFTP automatizado. Adicionei padroes defensivos sobre fontes heterogeneas: circuit breaker na API PIM, lógica de retry nos uploads FTP, algoritmo de matching SKU entre os programas manuais e os programas do ERP. A migracao v1.4 → v2 foi feita portal por portal com validacao de negocio em cada etapa, nunca em big-bang.
Migracao zero-downtime em todos os portais parceiros, monitoramento centralizado com alertas email automatizados, e o pipeline rodou em operação continua durante 4 anos sem perda significativa de anuncio - nenhum equivalente rodava no departamento com esse nível de confiabilidade.
Esse projeto elevou o padrao de engenharia de dados que carrego em cada missao ACCENSEO: isolamento por parceiro, processamento batch quando o streaming em tempo real não traz nada, observabilidade por fluxo desde a concepcao. E também nesse projeto que entendi de forma duradoura a divida arquitetural de dados: um modulo único generico parece simples a escrita mas se torna ingerenciavel na decima integração parceira.
Minha autocrítica
Nível Confirmado em ascensao ativa para Senior. Fundacoes solidas: SQL avancado, modelagem Prisma (~91 modelos SaaS contabil, 98 SaaS corretores), MongoDB e PostgreSQL em produção em centenas de GB na ACCENSEO, pipelines ML Azure ML Studio (AdsPower) e workflows LLM aplicados multi-fornecedor (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). O que falta fortalecer: RAG industrializado com eval e guardrails, MLOps grade produção (versionamento, drift detection) e data engineering em larga escala (>TB).
Eixo estrategico explicito do meu projeto 2026-2027. Articula tres camadas: fundacoes data (leitura rápida de schema, auditoria de pipeline), ML aplicado (classificacao, scoring, recomendacao) e IA generativa em produção (RAG, agentes, eval). Para um papel CTO scale-up SaaS B2B vertical, e o que transforma a IA em *moat* em vez de gadget de demo.
Subida deliberada Confirmado → Senior disparada no fim de 2024 e ainda em curso: RAG hands-on plugado no pipeline ACCENSEO, multi-fornecedor (Claude + GPT + Gemini), enriquecimento IA de dezenas de milhares de fichas de produto. A cadencia e mensuravel trimestre a trimestre.
Para mim mesmo: entregar um pequeno projeto RAG ou agentic por trimestre, com eval explicito, para não deixar a competencia se degradar, e manter um diario de prompts que funcionam e que não funcionam. Aos outros: *não confundir demo IA com produção IA* - investir desde o inicio em observabilidade do pipeline (token cost, latencia, taxa de alucinacao detectada) e em guardrails (sanitizacao, rate limit, fallback humano). Escolher uma stack data-first antes da stack modelo.
Minha evolução nesta competência
O eixo estrategico 2026-2028
Data e IA são o eixo que distingue o meu perfil CTO em 2026. No plano de 24 meses, eles me permitem cadrar um produto SaaS B2B vertical IA-aumentado, recrutar uma equipe data + ML / LLM coerente e defender uma trajetoria produto IA diante de um board distinguindo o que e *moat* do que e *commodity*. Sem esse eixo, o papel CTO 2026-2028 reduz-se a um papel de operador de stack moderna.
Até o fim de 2027, o objetivo observavel e operar uma plataforma data + IA grade produção com pipeline RAG industrializado (eval + drift detection), custo explicito por feature IA e revisao trimestral de qualidade. O deslizamento Confirmado -> Senior se mede sobre o triplo dominio data engineering + ML aplicado + LLM-Ops, não sobre uma nota abstrata.
RAG hands-on integrado ao pipeline ACCENSEO (Claude + GPT + Gemini multi-fornecedores, TRELLIS / TripoSR / Shap-E para geracao 3D), intake semanal das releases LLM (Anthropic, OpenAI, Mistral, DeepSeek). Master Expert em Engenharia de Software ativo até 2026.
Programas DeepLearning.AI Specialization e Coursera MLOps previstos 2026-2027. Cohort Maven *Applied LLM* (Hamel Husain por exemplo) visada 2026. Certificacao GCP Professional Data Engineer considerada conforme contexto alvo.
Leituras pilares: *Designing Machine Learning Systems* (Chip Huyen), *Building LLM Powered Applications* (Valentina Alto), papers selecionados no arXiv. Acompanhamento continuo de Latent Space, Eugene Yan, Simon Willison. Rotina mensal: um novo modelo avaliado num caso real.