---
title: "Données, IA & Machine Learning - José DA COSTA"
description: "Les données, l'IA et le ML, c'est pour moi la compétence qui **transforme événements et textes en décisions**. Ça couvre les bases relationnelles et NoSQL, l'ingénierie des données, les fondamentaux d"
locale: "fr"
canonical: "https://portfolio.josedacosta.info/fr/competences/donnees-ia-machine-learning"
source: "https://portfolio.josedacosta.info/fr/competences/donnees-ia-machine-learning.md"
html_source: "https://portfolio.josedacosta.info/fr/competences/donnees-ia-machine-learning"
author: "José DA COSTA"
type: "skill"
slug: "data-ai-machine-learning"
generated_at: "2026-04-26T21:13:24.734Z"
---

# Données, IA & Machine Learning

Icône: 🤖

## Ma définition

Les données, l'IA et le ML, c'est pour moi la compétence qui **transforme événements et textes en décisions**. Ça couvre les bases relationnelles et NoSQL, l'ingénierie des données, les fondamentaux du machine learning et les workflows **LLM appliqués** (RAG, agentic, évaluation). C'est l'axe stratégique explicite de mon projet 2026-2028 : **intégrer l'IA générative dans des workflows conformes** et opérer la donnée à l'échelle d'un SaaS B2B vertical régulé.

### Contexte

Je travaille sur **3 couches** que je tiens en parallèle. **Stockage et modélisation** : SQL avancé, modélisation Prisma (~91 modèles SaaS comptable, 98 SaaS courtiers), MongoDB et PostgreSQL en production sur **plusieurs centaines de Go de RAM** chez ACCENSEO. **Pipelines** : ETL custom (Akeneo Ligneurs), ML pipelines Azure ML Studio (AdsPower 2016-2018), enrichissement multi-fournisseurs (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). **IA appliquée** : RAG hands-on dans le pipeline ACCENSEO, classification, génération 3D, traduction multilingue, extraction d'attributs depuis visuels. Compétence en **montée active vers Senior** sur le triptyque data engineering + ML appliqué + LLM-Ops.

### Pertinence

En 2026, le moat compétitif d'un SaaS B2B vertical n'est **plus dans le LLM choisi** mais dans le **contexte qu'on lui donne**, données propriétaires permissionnées, exécution réelle des tâches avec garde-fous, et distribution embarquée. C'est la thèse que développe Microsoft Azure dans [10 RAG Shifts Redefining Production AI in 2026](https://medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c) : **l'agentic RAG** est devenu le pattern par défaut pour répondre à des questions complexes et exécuter des actions, et le **RAG hybride** est la baseline production. Le CTO qui sait concevoir un pipeline RAG industrialisé (eval + drift detection + cost per feature) sur un domaine régulé devient recherché. ToHero développe la même thèse côté francophone dans [Agentique en 2026 : agentic RAG, gouvernance IA et AI Act pour le développement logiciel](https://www.tohero.fr/agentique-rag-gouvernance-ia/), avec une lecture explicite des contraintes AI Act sur les pipelines.

## Mes éléments de preuve

### Co-fonder AdsPower autour des pipelines ML AdTech

**Contexte:** En janvier 2016, j'ai co-fondé **AdsPower** comme **CTO et Chef de projet technique** d'une **startup early-stage** sans investisseur externe. Le pari : concurrencer Optmyzr (US) et Dolead (FR) avec une approche **ML-first** pour optimiser automatiquement les enchères Google AdWords, Bing Ads et Facebook Ads. Le marché était dominé par des moteurs de recommandations heuristiques, et **Azure ML Studio** venait juste de sortir de preview - on avait une fenêtre, mais aussi un défi : la **rareté des compétences ML à Bordeaux en 2017** et un **runway limité**.

**Mise en œuvre:** J'ai monté un pipeline ML complet : un **Data Collection Service** branché sur les API Google AdWords + Bing Ads + Facebook Ads SDK, un **SERP Scraper** custom (Goutte + CasperJS) couvrant **6 moteurs** (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo) et absorbant **plus de 10 millions de requêtes par mois** via cache Memcached + queue Redis, et un **sidecar Python Flask** intégrant **NLTK + TF-IDF** pour le NLP multilingue. Côté modèles, j'ai entraîné sur **Azure ML Studio** des classifications supervisées pour la **prédiction de bid**, des clusters **k-means** pour la détection de mots-clés négatifs, et la **Google Prediction API** pour la segmentation d'audience. La stack applicative : **Symfony 3.2 + Angular** avec builds **Electron** desktop (Mac/Windows/Linux) et **Cordova** mobile (iOS/Android). Pour sourcer les freelances ML, j'ai fait des recherches **GitHub géolocalisées** sur les tags machine-learning.

**Résultat:** **3 itérations produit majeures** livrées en moins d'un an avec une **équipe de 4 freelances** que j'ai pilotée comme Technical Project Manager, plateforme couvrant **3 régies publicitaires** (Google, Bing, Facebook) avec recommandations en moins de 500 ms, et **3 bêta-testeurs actifs** sur la v1 de novembre 2016.

**Valeur ajoutée:** Cette aventure m'a appris dans la chair que **classification + bid optimisation peuvent être productisées** - pas juste démontrées en notebook. Les réflexes que j'y ai forgés (latence sub-seconde, fallback heuristique en cas d'incertitude modèle, monitoring du quality score) sont exactement ceux que je rejoue aujourd'hui sur les workflows LLM ACCENSEO. AdsPower n'a pas trouvé son PMF avant l'épuisement du runway, mais il a été ma première école **production ML**.

### Industrialiser l'enrichissement LLM multi-fournisseurs chez ACCENSEO

**Contexte:** Chez ACCENSEO, l'un des chantiers récurrents avec mes clients e-commerce et PIM, c'est l'**enrichissement massif de fiches produits par IA** : des **dizaines de milliers de fiches** à optimiser - taxonomie automatique, rewriting SEO de descriptions, amélioration photo (détourage, fonds, watermark), génération de **modèles 3D**, traduction multilingue, extraction d'attributs depuis les visuels. Le piège : si on s'enferme sur un seul fournisseur LLM, on subit ses pannes, ses prix et ses limites de débit.

**Mise en œuvre:** J'ai bâti un pipeline **multi-fournisseur** par défaut. Côté texte, j'ai intégré **OpenAI GPT, Anthropic Claude et Google Gemini** avec un routeur qui choisit le modèle selon la tâche (Claude pour la précision, GPT pour la créativité, Gemini pour le multimodal léger). Côté 3D, j'ai branché **TRELLIS**, **TripoSR** et **Shap-E** pour générer des modèles 3D à partir des photos produits. Côté image, traitement automatique du fond, détourage et watermark. L'orchestration passe par **n8n** et **Make.com** pour les workflows automatisés, **Power Automate** pour les déclencheurs Microsoft, et le tout tourne sur des **serveurs OVH dédiés** clients pour préserver la confidentialité catalogue.

**Résultat:** Enrichissement déployé à l'échelle sur les plateformes e-commerce de plusieurs clients (immobilier, mode, viticulture, automobile, cuisine équipée), **lift qualité catalogue** mesurable sans coût linéaire en humains - et un produit interne **Addly** dérivé de cette expertise pour Confluence/Atlassian Forge.

**Valeur ajoutée:** Sur ce chantier j'ai compris que l'IA générative en production se gagne sur la **discipline d'observabilité** (token cost, latence, taux d'hallucination détectés) et sur la **stratégie multi-fournisseur**, pas sur la sophistication du prompt. C'est l'angle que je veux pousser sur le prochain rôle CTO scale-up : **transformer l'IA en moat**, pas en gadget de démo.

### Pipeline ETL Akeneo vers les portails immobiliers (Ligneurs)

**Contexte:** Pendant **4 ans** chez Pichet (2019-2023), j'ai été **seul responsable technique** du pipeline d'export Ligneurs - le moteur de **diffusion automatisée** des annonces immobilières du groupe vers une vingtaine de portails partenaires (SeLoger, LeBonCoin, BienIci, LogicImmo...). Le système alimentait un volume estimé à **un lead toutes les 2 secondes** sur l'ensemble des portails. Toute interruption se traduisait directement en **leads perdus** et en chiffre d'affaires manqué.

**Mise en œuvre:** J'ai conçu une **architecture modulaire par partenaire** plutôt qu'un moteur générique : un **conteneur Docker isolé par portail**, orchestré par **Kubernetes sur AWS EKS**, avec **GitLab CI** pour des déploiements ciblés sans impacter les autres flux. Côté ETL, le pipeline extrait via **API REST PIM Akeneo v2**, transforme au format spécifique de chaque portail (XML, CSV, JSON), pré-rend les **images en multi-format centralisé** (4/3, 16/9, panoramique, carré) pour éviter le retraitement par partenaire, et livre par **FTP/SFTP** automatisé. J'ai ajouté des **patterns défensifs** sur les sources hétérogènes : **circuit breaker** sur l'API PIM, **logique de retry** sur les uploads FTP, **algorithme de matching SKU** entre les programmes manuels et les programmes ERP. La **migration v1.4 → v2** a été faite **portail par portail** avec validation métier à chaque étape, jamais en big-bang.

**Résultat:** **Migration zéro-downtime** sur tous les portails partenaires, monitoring centralisé avec alertes email automatisées, et le pipeline a tourné en **exploitation continue pendant 4 ans** sans perte d'annonce majeure - aucun équivalent ne tournait dans le département avec ce niveau de fiabilité.

**Valeur ajoutée:** Ce projet a élevé le **standard data engineering** que je porte sur chaque mission ACCENSEO : isolation par partenaire, traitement batch quand le streaming temps réel n'apporte rien, observabilité par flux dès la conception. C'est aussi sur ce projet que j'ai durablement compris la **dette d'architecture data** : un module unique générique semble simple à l'écriture mais devient ingérable à la dixième intégration partenaire.

## Mon autocritique

### Degré de maîtrise

Niveau **Confirmé en montée active vers Senior**. Les fondations sont solides : SQL avancé, modélisation Prisma (~91 modèles SaaS comptable, 98 SaaS courtiers), MongoDB et PostgreSQL en production sur centaines de Go côté [ACCENSEO](/fr/parcours/cto-founder-directeur-technique-accenseo), pipelines ML Azure ML Studio (AdsPower) et workflows LLM appliqués multi-fournisseurs (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). Ce qui reste à muscler : **RAG industrialisé** avec eval et garde-fous, MLOps grade production (versioning, drift detection), et data engineering à très grande échelle (>TB).

### Importance dans mon profil

**Axe stratégique explicite** de mon projet 2026-2027. Dans mon profil, elle articule 3 étages : fondations data (lecture rapide d'un schéma, audit de pipeline), ML appliqué (classification, scoring, recommandation) et IA générative en production (RAG, agents, eval). Pour un rôle CTO scale-up SaaS B2B vertical, c'est ce qui transforme l'IA en *moat* plutôt qu'en gadget de démo.

### Vitesse d'acquisition

Montée volontaire **Confirmé → Senior** déclenchée fin 2024 et toujours en cours : RAG hands-on intégré au pipeline ACCENSEO, **multi-fournisseurs** (Claude + GPT + Gemini), enrichissement IA de dizaines de milliers de fiches produit. La cadence d'apprentissage est mesurable trimestre par trimestre.

### Conseils (pour moi-même et pour les autres)

À moi-même : livrer **un petit projet RAG ou agentic par trimestre**, avec eval explicite, pour ne pas laisser la compétence se dégrader, et tenir un journal de prompts qui marchent et qui ne marchent pas. Aux autres : *ne pas confondre démo IA et production IA*, investir dès le départ dans l'observabilité du pipeline (token cost, latence, hallucination détectée) et dans les garde-fous (sanitization, rate limit, fallback humain). Choisir une stack data-first avant la stack modèle.

## Mon évolution dans cette compétence

### Rôle dans mon projet professionnel

### L'axe stratégique 2026-2028

La data et l'IA sont **l'axe qui distingue mon profil CTO en 2026**. Dans le projet à 24 mois, ils me permettent de cadrer un produit SaaS B2B vertical IA-augmenté, de sourcer un team data + ML / LLM cohérent et de défendre une trajectoire produit IA devant un board en distinguant ce qui est *moat* de ce qui est *commodity*. Sans cet axe, le rôle CTO 2026-2028 se réduit à un rôle d'opérateur stack moderne.

### Niveau souhaité à moyen terme

D'ici fin 2027, l'objectif observable est d'**opérer une plateforme data + IA grade production** avec pipeline RAG industrialisé (eval + drift detection), un coût explicite par feature IA et une revue trimestrielle de la qualité. Le glissement Confirmé → Senior se mesure sur la triple maîtrise data engineering + ML appliqué + LLM-Ops, pas sur un score abstrait.

### Formations en cours

RAG hands-on intégré au pipeline ACCENSEO (Claude + GPT + Gemini multi-fournisseurs, TRELLIS / TripoSR / Shap-E pour la génération 3D), intake hebdomadaire des releases LLM (Anthropic, OpenAI, Mistral, DeepSeek). Master Expert en Ingénierie du Logiciel actif jusqu'en 2026.

### Formations à venir

Programmes [DeepLearning.AI Specialization](https://www.deeplearning.ai/) et Coursera MLOps prévus 2026-2027. Cohorte Maven *Applied LLM* (Hamel Husain par exemple) visée 2026. Certification GCP Professional Data Engineer envisagée selon le contexte cible.

## Progression à travers les parcours

Cette compétence a été développée dans 12 parcours différents.

- **1999** - [CTO · Founder · directeur technique](https://portfolio.josedacosta.info/fr/parcours/celiane-founder.md) (entrepreneurship) - Confidence: 2/5
- **2001** - [BTS IG (Informatique de Gestion)](https://portfolio.josedacosta.info/fr/parcours/bts-computer-science.md) (education) - Confidence: 2/5
- **2008** - [Junior Software Engineer · webmaster développeur PHP Joomla](https://portfolio.josedacosta.info/fr/parcours/ministere-sante-webmaster.md) (experience) - Confidence: 2/5
- **2009** - [Software Engineer · développeur PHP Zend Framework](https://portfolio.josedacosta.info/fr/parcours/european-sourcing-engineer.md) (experience) - Confidence: 5/5
- **2013** - [Senior Software Engineer · lead développeur PHP Symfony](https://portfolio.josedacosta.info/fr/parcours/medialeads-senior-engineer.md) (experience) - Confidence: 4/5
- **2016** - [Technical Project Manager · Co-founder · Early-Stage Startup](https://portfolio.josedacosta.info/fr/parcours/adspower-cofounder.md) (entrepreneurship) - Confidence: 5/5
- **2017** - [Senior Software Engineer · lead développeur PHP Magento](https://portfolio.josedacosta.info/fr/parcours/smile-senior-engineer.md) (experience) - Confidence: 4/5
- **2019** - [Engineering Manager · Project Manager / Product Owner · Technical Lead](https://portfolio.josedacosta.info/fr/parcours/pichet-group.md) (experience) - Confidence: 5/5
- **2019** - [Technical Lead · Flux et Produits : contenus et intégration d'entreprise](https://portfolio.josedacosta.info/fr/parcours/pichet-technical-lead.md) (experience) - Confidence: 4/5
- **2020** - [Entrepreneur · divers domaines d'activités](https://portfolio.josedacosta.info/fr/parcours/auto-entrepreneur-jdc.md) (entrepreneurship) - Confidence: 4/5
- **2023** - [Master Expert en Ingénierie du Logiciel](https://portfolio.josedacosta.info/fr/parcours/master-software-engineering.md) (education) - Confidence: 4/5
- **2024** - [CTO · Founder · directeur technique](https://portfolio.josedacosta.info/fr/parcours/accenseo-founder.md) (entrepreneurship) - Confidence: 5/5

## Réalisations associées

- [Multi-Supplier Product Data Import System](https://portfolio.josedacosta.info/fr/realisations/import-european-sourcing.md) - Designed and operated multi-format ETL system (CSV/XML/FTP) with denormalization for search performance. Managed MySQL front/back architecture with ProxySQL, replication, and multilingual denormalized tables
- [Intelligent Accounting SaaS Platform](https://portfolio.josedacosta.info/fr/realisations/plateforme-comptabilite-saas.md) - 91 Prisma models with complex relational schema: chart of accounts, journals, entries, bank reconciliation, FEC
- [European B2B Search Engine for Promotional Products (European Sourcing)](https://portfolio.josedacosta.info/fr/realisations/moteur-de-recherche-europeen-b2b-objets-publicitaires.md) - Designed and optimized a 97-table MySQL schema with master-slave replication - SQL normal forms (1NF/2NF/3NF/BCNF), advanced indexing (B-tree, composite, covering), constant EXPLAIN plan analysis and progression to PostgreSQL full-text (tsvector/GIN) then Elasticsearch
- [EuropeanTool - B2B Promotional Product Platform](https://portfolio.josedacosta.info/fr/realisations/europeantool-plateforme-b2b.md) - Managed 15 GB MySQL database with 50+ tables, complex product catalog schemas, and export optimization
- [B2B Product Data Export Platform](https://portfolio.josedacosta.info/fr/realisations/export-donnees-produits-b2b.md) - Designed MySQL schema for export management with deadlock prevention, concurrent access control, and complex multi-table queries
- [Food Truck & Mobile Concept Platform - French manufacturer (alias MCR)](https://portfolio.josedacosta.info/fr/realisations/plateforme-food-truck-concepts-mobiles.md) - Shaped a 133-table PostgreSQL schema through Payload CMS collections and Drizzle ORM, including 46 versioning tables
- [Centralized Multilingual Translation Management Platform](https://portfolio.josedacosta.info/fr/realisations/plateforme-gestion-traductions-multilingues.md) - Queried 7 MySQL translation tables via Doctrine DBAL with search, pagination and validation tracking
- [E-Commerce Platform Redesign Magento Enterprise Edition (alias Fleurance Nature)](https://portfolio.josedacosta.info/fr/realisations/refonte-ecommerce-magento-fleurancenature.md) - Magento EAV schema (6+ tables per product), MySQL, 4 customer groups x 3 websites pricing matrix (12 combinations with catalog + cart rules)
- [ETL Pipeline for Real Estate Listing Syndication (alias Ligneurs)](https://portfolio.josedacosta.info/fr/realisations/pipeline-etl-syndication-immobiliere.md) - End-to-end ETL pipeline from PIM Akeneo to several dozen portals: extraction, multi-format transformation (XML/CSV/JSON), FTP/SFTP delivery, monitoring
- [PIM Extranet for B2B Promotional Products Search Engine (European Sourcing)](https://portfolio.josedacosta.info/fr/realisations/extranet-pim-b2b-objets-publicitaires.md) - MySQL then PostgreSQL with Doctrine, 6-step CSV import pipeline, 37 supplier connectors via FTP/HTTP/REST
- [E-Commerce Site Generator with Customization CMS (alias MyEasyWeb)](https://portfolio.josedacosta.info/fr/realisations/generateur-sites-ecommerce-avec-cms.md) - Managed 67 database entities with MySQL and Doctrine ORM across multi-tenant architecture

Version interactive avec navigation : https://portfolio.josedacosta.info/fr/competences/donnees-ia-machine-learning
