---
title: "Dados, IA & Machine Learning - José DA COSTA"
description: "Dados, IA e ML, para mim, e a competencia que **transforma eventos e textos em decisões**. Cobre as bases relacionais e NoSQL, a engenharia de dados, os fundamentos do machine learning e os workflows "
locale: "pt"
canonical: "https://portfolio.josedacosta.info/pt/habilidades/dados-ia-machine-learning"
source: "https://portfolio.josedacosta.info/pt/habilidades/dados-ia-machine-learning.md"
html_source: "https://portfolio.josedacosta.info/pt/habilidades/dados-ia-machine-learning"
author: "José DA COSTA"
type: "skill"
slug: "data-ai-machine-learning"
generated_at: "2026-04-26T21:14:56.296Z"
---

# Dados, IA & Machine Learning

Ícone: 🤖

## Minha definição

Dados, IA e ML, para mim, e a competencia que **transforma eventos e textos em decisões**. Cobre as bases relacionais e NoSQL, a engenharia de dados, os fundamentos do machine learning e os workflows **LLM aplicados** (RAG, agentic, avaliacao). E o eixo estrategico explicito do meu projeto 2026-2028: **integrar a IA generativa em workflows conformes** e operar os dados na escala de um SaaS B2B vertical regulado.

### Contexto

Trabalho em **3 camadas** que sustento em paralelo. **Armazenamento e modelagem**: SQL avancado, modelagem Prisma (~91 modelos no SaaS contabil, 98 no SaaS corretores), MongoDB e PostgreSQL em produção em **varias centenas de GB de RAM** na ACCENSEO. **Pipelines**: ETL custom (Akeneo Ligneurs), pipelines ML Azure ML Studio (AdsPower 2016-2018), enriquecimento multi-fornecedor (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). **IA aplicada**: RAG hands-on no pipeline ACCENSEO, classificacao, geracao 3D, tradução multilingue, extracao de atributos a partir de visuais. Competencia **em ascensao ativa para Senior** no triptico data engineering + ML aplicado + LLM-Ops.

### Relevância

Em 2026, o moat competitivo de um SaaS B2B vertical **não está mais no LLM escolhido** mas no **contexto que você da a ele** - dados proprietarios permissionados, execucao real das tarefas com guardrails e distribuicao embarcada. E a tese desenvolvida pela Microsoft Azure em [10 RAG Shifts Redefining Production AI in 2026](https://medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c): o **agentic RAG** virou o padrao default para responder perguntas complexas e executar ações, e o **RAG hibrido** e a baseline de produção. O CTO que sabe projetar um pipeline RAG industrializado (eval + drift detection + cost per feature) em dominio regulado vira procurado.

## Minhas evidências

### Co-fundar a AdsPower em torno de pipelines ML AdTech

**Contexto:** Em janeiro de 2016, co-fundei a **AdsPower** como **CTO e Technical Project Manager** de uma **startup early-stage sem investidor externo**. A aposta: competir com Optmyzr (US) e Dolead (FR) com uma abordagem **ML-first** para otimizar automaticamente os lances no Google AdWords, Bing Ads e Facebook Ads. O mercado era dominado por motores de recomendacao heuristicos, e o **Azure ML Studio** acabava de sair do preview público - havia uma janela, mas também um desafio: **escassez de competencias ML em Bordeaux em 2017** e **runway limitado**.

**Ação:** Montei um pipeline ML completo: um **Data Collection Service** plugado nas APIs Google AdWords + Bing Ads + Facebook Ads, um **SERP Scraper** custom (Goutte + CasperJS) cobrindo **6 motores** (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo) e absorvendo **mais de 10 milhoes de requisicoes por mes** via cache Memcached + queue Redis, e um **sidecar Python Flask** rodando **NLTK + TF-IDF** para o NLP multilingue. Em modelos, treinei no **Azure ML Studio** classificacoes supervisionadas para a **predicao de bid**, clusters **k-means** para a deteccao de palavras-chave negativas, e a **Google Prediction API** para a segmentacao de audiencia. A stack aplicacional: **Symfony 3.2 + Angular** com builds **Electron** desktop (Mac/Windows/Linux) e **Cordova** mobile (iOS/Android). Para encontrar freelancers ML, fiz buscas **GitHub geolocalizadas** nas tags machine-learning.

**Resultado:** **3 iteracoes de produto majores** entregues em menos de um ano com uma **equipe de 4 freelancers** que conduzi como Technical Project Manager, plataforma cobrindo **3 redes publicitarias** (Google, Bing, Facebook) com recomendacoes em menos de 500 ms, e **3 beta-testadores ativos** na v1 de novembro de 2016.

**Valor agregado:** Essa aventura me ensinou na pele que **classificacao + bid optimization podem ser produtizadas** - não apenas demonstradas em notebook. Os reflexos que forjei la (latencia sub-segundo, fallback heuristico em caso de incerteza do modelo, monitoramento do quality score) são exatamente os que rejogo hoje nos workflows LLM da ACCENSEO. A AdsPower não encontrou seu PMF antes do esgotamento do runway, mas foi minha primeira escola de **ML em produção**.

### Industrializar o enriquecimento LLM multi-fornecedor na ACCENSEO

**Contexto:** Na ACCENSEO, um dos chantiers recorrentes com meus clientes e-commerce e PIM e o **enriquecimento massivo de fichas de produto por IA**: **dezenas de milhares de fichas** a otimizar - taxonomia automatica, rewriting SEO de descricoes, melhoria de fotos (recorte, fundos, watermark), geracao de **modelos 3D**, tradução multilingue, extracao de atributos a partir dos visuais. A armadilha: se você se prender a um único fornecedor LLM, herda suas quedas, seus precos e seus limites de taxa.

**Ação:** Construi um pipeline **multi-fornecedor** por padrao. No texto, integrei **OpenAI GPT, Anthropic Claude e Google Gemini** com um roteador que escolhe o modelo conforme a tarefa (Claude para precisao, GPT para criatividade, Gemini para multimodal leve). Em 3D, conectei **TRELLIS**, **TripoSR** e **Shap-E** para gerar modelos 3D a partir das fotos de produto. Em imagem, tratamento automatico de fundo, recorte e watermark. A orquestracao passa por **n8n** e **Make.com** para os workflows automatizados, **Power Automate** para os gatilhos Microsoft, e tudo roda em **servidores OVH dedicados** dos clientes para preservar a confidencialidade do catalogo.

**Resultado:** Enriquecimento desdobrado em escala nas plataformas e-commerce de varios clientes (imobiliario, moda, viticultura, automotivo, cozinha planejada), **lift de qualidade catalogo** mensuravel sem custo linear em humanos - e um produto interno **Addly** derivado dessa expertise para Confluence/Atlassian Forge.

**Valor agregado:** Nesse trabalho entendi que a IA generativa em produção se ganha na **disciplina de observabilidade** (token cost, latencia, taxa de alucinacao detectada) e na **estratégia multi-fornecedor**, não na sofisticacao do prompt. E o angulo que quero empurrar no próximo papel CTO scale-up: **transformar a IA em moat**, não em truque de demo.

### Pipeline ETL Akeneo para os portais imobiliarios (Ligneurs)

**Contexto:** Durante **4 anos** no Pichet (2019-2023), fui o **único responsavel tecnico** do pipeline de export Ligneurs - o motor de **sindicacao automatizada** dos anuncios imobiliarios do grupo para uma vintena de portais parceiros (SeLoger, LeBonCoin, BienIci, LogicImmo...). O sistema alimentava um volume estimado em **um lead a cada 2 segundos** no conjunto dos portais. Toda interrupcao se traduzia diretamente em **leads perdidos** e em receita perdida.

**Ação:** Concebi uma **arquitetura modular por parceiro** em vez de um motor generico: um **container Docker isolado por portal**, orquestrado por **Kubernetes em AWS EKS**, com **GitLab CI** para deploys direcionados sem impactar os outros fluxos. No ETL, o pipeline extrai via **API REST PIM Akeneo v2**, transforma no formato especifico de cada portal (XML, CSV, JSON), pre-renderiza as **imagens em multi-formato centralizado** (4/3, 16/9, panoramico, quadrado) para evitar reprocessamento por parceiro, e entrega via **FTP/SFTP** automatizado. Adicionei **padroes defensivos** sobre fontes heterogeneas: **circuit breaker** na API PIM, **lógica de retry** nos uploads FTP, **algoritmo de matching SKU** entre os programas manuais e os programas do ERP. A **migracao v1.4 → v2** foi feita **portal por portal** com validacao de negocio em cada etapa, nunca em big-bang.

**Resultado:** **Migracao zero-downtime** em todos os portais parceiros, monitoramento centralizado com alertas email automatizados, e o pipeline rodou em **operação continua durante 4 anos** sem perda significativa de anuncio - nenhum equivalente rodava no departamento com esse nível de confiabilidade.

**Valor agregado:** Esse projeto elevou o **padrao de engenharia de dados** que carrego em cada missao ACCENSEO: isolamento por parceiro, processamento batch quando o streaming em tempo real não traz nada, observabilidade por fluxo desde a concepcao. E também nesse projeto que entendi de forma duradoura a **divida arquitetural de dados**: um modulo único generico parece simples a escrita mas se torna ingerenciavel na decima integração parceira.

## Minha autocrítica

### Grau de domínio

Nível **Confirmado em ascensao ativa para Senior**. Fundacoes solidas: SQL avancado, modelagem Prisma (~91 modelos SaaS contabil, 98 SaaS corretores), MongoDB e PostgreSQL em produção em centenas de GB na [ACCENSEO](/pt/trajetoria/cto-founder-directeur-technique-accenseo), pipelines ML Azure ML Studio (AdsPower) e workflows LLM aplicados multi-fornecedor (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). O que falta fortalecer: **RAG industrializado** com eval e guardrails, MLOps grade produção (versionamento, drift detection) e data engineering em larga escala (>TB).

### Importância no meu perfil

**Eixo estrategico explicito** do meu projeto 2026-2027. Articula tres camadas: fundacoes data (leitura rápida de schema, auditoria de pipeline), ML aplicado (classificacao, scoring, recomendacao) e IA generativa em produção (RAG, agentes, eval). Para um papel CTO scale-up SaaS B2B vertical, e o que transforma a IA em *moat* em vez de gadget de demo.

### Velocidade de aquisição

Subida deliberada **Confirmado → Senior** disparada no fim de 2024 e ainda em curso: RAG hands-on plugado no pipeline ACCENSEO, **multi-fornecedor** (Claude + GPT + Gemini), enriquecimento IA de dezenas de milhares de fichas de produto. A cadencia e mensuravel trimestre a trimestre.

### Conselhos (para mim e para os outros)

Para mim mesmo: entregar **um pequeno projeto RAG ou agentic por trimestre**, com eval explicito, para não deixar a competencia se degradar, e manter um diario de prompts que funcionam e que não funcionam. Aos outros: *não confundir demo IA com produção IA* - investir desde o inicio em observabilidade do pipeline (token cost, latencia, taxa de alucinacao detectada) e em guardrails (sanitizacao, rate limit, fallback humano). Escolher uma stack data-first antes da stack modelo.

## Minha evolução nesta competência

### Papel no meu projeto profissional

### O eixo estrategico 2026-2028

Data e IA são **o eixo que distingue o meu perfil CTO em 2026**. No plano de 24 meses, eles me permitem cadrar um produto SaaS B2B vertical IA-aumentado, recrutar uma equipe data + ML / LLM coerente e defender uma trajetoria produto IA diante de um board distinguindo o que e *moat* do que e *commodity*. Sem esse eixo, o papel CTO 2026-2028 reduz-se a um papel de operador de stack moderna.

### Nível almejado a médio prazo

Até o fim de 2027, o objetivo observavel e **operar uma plataforma data + IA grade produção** com pipeline RAG industrializado (eval + drift detection), custo explicito por feature IA e revisao trimestral de qualidade. O deslizamento Confirmado -> Senior se mede sobre o triplo dominio data engineering + ML aplicado + LLM-Ops, não sobre uma nota abstrata.

### Formações em andamento

RAG hands-on integrado ao pipeline ACCENSEO (Claude + GPT + Gemini multi-fornecedores, TRELLIS / TripoSR / Shap-E para geracao 3D), intake semanal das releases LLM (Anthropic, OpenAI, Mistral, DeepSeek). Master Expert em Engenharia de Software ativo até 2026.

### Formações futuras

Programas [DeepLearning.AI](https://www.deeplearning.ai/) Specialization e Coursera MLOps previstos 2026-2027. Cohort Maven *Applied LLM* (Hamel Husain por exemplo) visada 2026. Certificacao GCP Professional Data Engineer considerada conforme contexto alvo.

## Progressão ao longo da trajetória

Está competência foi desenvolvida em 12 trajetórias diferentes.

- **1999** - [CTO · Founder · diretor técnico](https://portfolio.josedacosta.info/pt/trajetoria/celiane-founder.md) (entrepreneurship) - Confidence: 2/5
- **2001** - [BTS IG (Gestão de TI)](https://portfolio.josedacosta.info/pt/trajetoria/bts-computer-science.md) (education) - Confidence: 2/5
- **2008** - [Junior Software Engineer · webmaster desenvolvedor PHP Joomla](https://portfolio.josedacosta.info/pt/trajetoria/ministere-sante-webmaster.md) (experience) - Confidence: 2/5
- **2009** - [Software Engineer · desenvolvedor PHP Zend Framework](https://portfolio.josedacosta.info/pt/trajetoria/european-sourcing-engineer.md) (experience) - Confidence: 5/5
- **2013** - [Senior Software Engineer · Lead desenvolvedor PHP Symfony](https://portfolio.josedacosta.info/pt/trajetoria/medialeads-senior-engineer.md) (experience) - Confidence: 4/5
- **2016** - [Technical Project Manager · Co-founder · Early-Stage Startup](https://portfolio.josedacosta.info/pt/trajetoria/adspower-cofounder.md) (entrepreneurship) - Confidence: 5/5
- **2017** - [Senior Software Engineer · Lead desenvolvedor PHP Magento](https://portfolio.josedacosta.info/pt/trajetoria/smile-senior-engineer.md) (experience) - Confidence: 4/5
- **2019** - [Engineering Manager · Project Manager / Product Owner · Technical Lead](https://portfolio.josedacosta.info/pt/trajetoria/pichet-group.md) (experience) - Confidence: 5/5
- **2019** - [Technical Lead · Fluxos e Produtos: conteúdos e integração empresarial](https://portfolio.josedacosta.info/pt/trajetoria/pichet-technical-lead.md) (experience) - Confidence: 4/5
- **2020** - [Empreendedor · diversos domínios de atividade](https://portfolio.josedacosta.info/pt/trajetoria/auto-entrepreneur-jdc.md) (entrepreneurship) - Confidence: 4/5
- **2023** - [Mestrado em Engenharia de Software](https://portfolio.josedacosta.info/pt/trajetoria/master-software-engineering.md) (education) - Confidence: 4/5
- **2024** - [CTO · Founder · diretor técnico](https://portfolio.josedacosta.info/pt/trajetoria/accenseo-founder.md) (entrepreneurship) - Confidence: 5/5

## Realizações relacionadas

- [Multi-Supplier Product Data Import System](https://portfolio.josedacosta.info/pt/realizacoes/import-european-sourcing.md) - Designed and operated multi-format ETL system (CSV/XML/FTP) with denormalization for search performance. Managed MySQL front/back architecture with ProxySQL, replication, and multilingual denormalized tables
- [Intelligent Accounting SaaS Platform](https://portfolio.josedacosta.info/pt/realizacoes/plateforme-comptabilite-saas.md) - 91 Prisma models with complex relational schema: chart of accounts, journals, entries, bank reconciliation, FEC
- [European B2B Search Engine for Promotional Products (European Sourcing)](https://portfolio.josedacosta.info/pt/realizacoes/moteur-de-recherche-europeen-b2b-objets-publicitaires.md) - Designed and optimized a 97-table MySQL schema with master-slave replication - SQL normal forms (1NF/2NF/3NF/BCNF), advanced indexing (B-tree, composite, covering), constant EXPLAIN plan analysis and progression to PostgreSQL full-text (tsvector/GIN) then Elasticsearch
- [EuropeanTool - B2B Promotional Product Platform](https://portfolio.josedacosta.info/pt/realizacoes/europeantool-plateforme-b2b.md) - Managed 15 GB MySQL database with 50+ tables, complex product catalog schemas, and export optimization
- [B2B Product Data Export Platform](https://portfolio.josedacosta.info/pt/realizacoes/export-donnees-produits-b2b.md) - Designed MySQL schema for export management with deadlock prevention, concurrent access control, and complex multi-table queries
- [Food Truck & Mobile Concept Platform - French manufacturer (alias MCR)](https://portfolio.josedacosta.info/pt/realizacoes/plateforme-food-truck-concepts-mobiles.md) - Shaped a 133-table PostgreSQL schema through Payload CMS collections and Drizzle ORM, including 46 versioning tables
- [Centralized Multilingual Translation Management Platform](https://portfolio.josedacosta.info/pt/realizacoes/plateforme-gestion-traductions-multilingues.md) - Queried 7 MySQL translation tables via Doctrine DBAL with search, pagination and validation tracking
- [E-Commerce Platform Redesign Magento Enterprise Edition (alias Fleurance Nature)](https://portfolio.josedacosta.info/pt/realizacoes/refonte-ecommerce-magento-fleurancenature.md) - Magento EAV schema (6+ tables per product), MySQL, 4 customer groups x 3 websites pricing matrix (12 combinations with catalog + cart rules)
- [ETL Pipeline for Real Estate Listing Syndication (alias Ligneurs)](https://portfolio.josedacosta.info/pt/realizacoes/pipeline-etl-syndication-immobiliere.md) - End-to-end ETL pipeline from PIM Akeneo to several dozen portals: extraction, multi-format transformation (XML/CSV/JSON), FTP/SFTP delivery, monitoring
- [PIM Extranet for B2B Promotional Products Search Engine (European Sourcing)](https://portfolio.josedacosta.info/pt/realizacoes/extranet-pim-b2b-objets-publicitaires.md) - MySQL then PostgreSQL with Doctrine, 6-step CSV import pipeline, 37 supplier connectors via FTP/HTTP/REST
- [E-Commerce Site Generator with Customization CMS (alias MyEasyWeb)](https://portfolio.josedacosta.info/pt/realizacoes/generateur-sites-ecommerce-avec-cms.md) - Managed 67 database entities with MySQL and Doctrine ORM across multi-tenant architecture

Versão interativa com navegação: https://portfolio.josedacosta.info/pt/habilidades/dados-ia-machine-learning
