Contact
Illustration de la compétence Données, IA & Machine Learning - Jose DA COSTA
Compétence techniqueDonnées & IA

Données, IA & Machine Learning

Axe stratégique de mon projet professionnel. Workflows LLM ACCENSEO, plateforme ML AdsPower, pipeline ETL Ligneurs, SaaS comptables et courtiers. Monter en puissance sur l'ingénierie de données et l'IA appliquée à des systèmes en production.

Confiance personnelle
Expert5/5
FondamentalEn développementOpérationnelAvancéExpert
Évolution de cette compétence dans le temps

Chaque segment représente une période (parcours ou réalisation) où la compétence a été mobilisée. La couleur et la taille du point final reflètent le niveau atteint sur cette période.

Ma définition

Les données, l'IA et le ML, c'est pour moi la compétence qui transforme événements et textes en décisions. Ça couvre les bases relationnelles et NoSQL, l'ingénierie des données, les fondamentaux du machine learning et les workflows LLM appliqués (RAG, agentic, évaluation). C'est l'axe stratégique explicite de mon projet 2026-2028 : intégrer l'IA générative dans des workflows conformes et opérer la donnée à l'échelle d'un SaaS B2B vertical régulé.

Je travaille sur 3 couches que je tiens en parallèle. Stockage et modélisation : SQL avancé, modélisation Prisma (~91 modèles SaaS comptable, 98 SaaS courtiers), MongoDB et PostgreSQL en production sur plusieurs centaines de Go de RAM chez ACCENSEO. Pipelines : ETL custom (Akeneo Ligneurs), ML pipelines Azure ML Studio (AdsPower 2016-2018), enrichissement multi-fournisseurs (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). IA appliquée : RAG hands-on dans le pipeline ACCENSEO, classification, génération 3D, traduction multilingue, extraction d'attributs depuis visuels. Compétence en montée active vers Senior sur le triptyque data engineering + ML appliqué + LLM-Ops.

En 2026, le moat compétitif d'un SaaS B2B vertical n'est plus dans le LLM choisi mais dans le contexte qu'on lui donne, données propriétaires permissionnées, exécution réelle des tâches avec garde-fous, et distribution embarquée. C'est la thèse que développe Microsoft Azure dans 10 RAG Shifts Redefining Production AI in 2026 : l'agentic RAG est devenu le pattern par défaut pour répondre à des questions complexes et exécuter des actions, et le RAG hybride est la baseline production. Le CTO qui sait concevoir un pipeline RAG industrialisé (eval + drift detection + cost per feature) sur un domaine régulé devient recherché. ToHero développe la même thèse côté francophone dans Agentique en 2026 : agentic RAG, gouvernance IA et AI Act pour le développement logiciel, avec une lecture explicite des contraintes AI Act sur les pipelines.

Mes éléments de preuve

Réalisation

Anecdote 1 : Co-fonder AdsPower autour des pipelines ML AdTech

En janvier 2016, j'ai co-fondé AdsPower comme CTO et Chef de projet technique d'une startup early-stage sans investisseur externe. Le pari : concurrencer Optmyzr (US) et Dolead (FR) avec une approche ML-first pour optimiser automatiquement les enchères Google AdWords, Bing Ads et Facebook Ads. Le marché était dominé par des moteurs de recommandations heuristiques, et Azure ML Studio venait juste de sortir de preview - on avait une fenêtre, mais aussi un défi : la rareté des compétences ML à Bordeaux en 2017 et un runway limité.

J'ai monté un pipeline ML complet : un Data Collection Service branché sur les API Google AdWords + Bing Ads + Facebook Ads SDK, un SERP Scraper custom (Goutte + CasperJS) couvrant 6 moteurs (Google, Bing, Yahoo, Yandex, Baidu, DuckDuckGo) et absorbant plus de 10 millions de requêtes par mois via cache Memcached + queue Redis, et un sidecar Python Flask intégrant NLTK + TF-IDF pour le NLP multilingue. Côté modèles, j'ai entraîné sur Azure ML Studio des classifications supervisées pour la prédiction de bid, des clusters k-means pour la détection de mots-clés négatifs, et la Google Prediction API pour la segmentation d'audience. La stack applicative : Symfony 3.2 + Angular avec builds Electron desktop (Mac/Windows/Linux) et Cordova mobile (iOS/Android). Pour sourcer les freelances ML, j'ai fait des recherches GitHub géolocalisées sur les tags machine-learning.

3 itérations produit majeures livrées en moins d'un an avec une équipe de 4 freelances que j'ai pilotée comme Technical Project Manager, plateforme couvrant 3 régies publicitaires (Google, Bing, Facebook) avec recommandations en moins de 500 ms, et 3 bêta-testeurs actifs sur la v1 de novembre 2016.

Cette aventure m'a appris dans la chair que classification + bid optimisation peuvent être productisées - pas juste démontrées en notebook. Les réflexes que j'y ai forgés (latence sub-seconde, fallback heuristique en cas d'incertitude modèle, monitoring du quality score) sont exactement ceux que je rejoue aujourd'hui sur les workflows LLM ACCENSEO. AdsPower n'a pas trouvé son PMF avant l'épuisement du runway, mais il a été ma première école production ML.

Réalisation

Anecdote 2 : Industrialiser l'enrichissement LLM multi-fournisseurs chez ACCENSEO

Chez ACCENSEO, l'un des chantiers récurrents avec mes clients e-commerce et PIM, c'est l'enrichissement massif de fiches produits par IA : des dizaines de milliers de fiches à optimiser - taxonomie automatique, rewriting SEO de descriptions, amélioration photo (détourage, fonds, watermark), génération de modèles 3D, traduction multilingue, extraction d'attributs depuis les visuels. Le piège : si on s'enferme sur un seul fournisseur LLM, on subit ses pannes, ses prix et ses limites de débit.

J'ai bâti un pipeline multi-fournisseur par défaut. Côté texte, j'ai intégré OpenAI GPT, Anthropic Claude et Google Gemini avec un routeur qui choisit le modèle selon la tâche (Claude pour la précision, GPT pour la créativité, Gemini pour le multimodal léger). Côté 3D, j'ai branché TRELLIS, TripoSR et Shap-E pour générer des modèles 3D à partir des photos produits. Côté image, traitement automatique du fond, détourage et watermark. L'orchestration passe par n8n et Make.com pour les workflows automatisés, Power Automate pour les déclencheurs Microsoft, et le tout tourne sur des serveurs OVH dédiés clients pour préserver la confidentialité catalogue.

Enrichissement déployé à l'échelle sur les plateformes e-commerce de plusieurs clients (immobilier, mode, viticulture, automobile, cuisine équipée), lift qualité catalogue mesurable sans coût linéaire en humains - et un produit interne Addly dérivé de cette expertise pour Confluence/Atlassian Forge.

Sur ce chantier j'ai compris que l'IA générative en production se gagne sur la discipline d'observabilité (token cost, latence, taux d'hallucination détectés) et sur la stratégie multi-fournisseur, pas sur la sophistication du prompt. C'est l'angle que je veux pousser sur le prochain rôle CTO scale-up : transformer l'IA en moat, pas en gadget de démo.

Réalisation

Anecdote 3 : Pipeline ETL Akeneo vers les portails immobiliers (Ligneurs)

Pendant 4 ans chez Pichet (2019-2023), j'ai été seul responsable technique du pipeline d'export Ligneurs - le moteur de diffusion automatisée des annonces immobilières du groupe vers une vingtaine de portails partenaires (SeLoger, LeBonCoin, BienIci, LogicImmo...). Le système alimentait un volume estimé à un lead toutes les 2 secondes sur l'ensemble des portails. Toute interruption se traduisait directement en leads perdus et en chiffre d'affaires manqué.

J'ai conçu une architecture modulaire par partenaire plutôt qu'un moteur générique : un conteneur Docker isolé par portail, orchestré par Kubernetes sur AWS EKS, avec GitLab CI pour des déploiements ciblés sans impacter les autres flux. Côté ETL, le pipeline extrait via API REST PIM Akeneo v2, transforme au format spécifique de chaque portail (XML, CSV, JSON), pré-rend les images en multi-format centralisé (4/3, 16/9, panoramique, carré) pour éviter le retraitement par partenaire, et livre par FTP/SFTP automatisé. J'ai ajouté des patterns défensifs sur les sources hétérogènes : circuit breaker sur l'API PIM, logique de retry sur les uploads FTP, algorithme de matching SKU entre les programmes manuels et les programmes ERP. La migration v1.4 → v2 a été faite portail par portail avec validation métier à chaque étape, jamais en big-bang.

Migration zéro-downtime sur tous les portails partenaires, monitoring centralisé avec alertes email automatisées, et le pipeline a tourné en exploitation continue pendant 4 ans sans perte d'annonce majeure - aucun équivalent ne tournait dans le département avec ce niveau de fiabilité.

Ce projet a élevé le standard data engineering que je porte sur chaque mission ACCENSEO : isolation par partenaire, traitement batch quand le streaming temps réel n'apporte rien, observabilité par flux dès la conception. C'est aussi sur ce projet que j'ai durablement compris la dette d'architecture data : un module unique générique semble simple à l'écriture mais devient ingérable à la dixième intégration partenaire.

Mon autocritique

Niveau Confirmé en montée active vers Senior. Les fondations sont solides : SQL avancé, modélisation Prisma (~91 modèles SaaS comptable, 98 SaaS courtiers), MongoDB et PostgreSQL en production sur centaines de Go côté ACCENSEO, pipelines ML Azure ML Studio (AdsPower) et workflows LLM appliqués multi-fournisseurs (Claude, GPT, Gemini, TRELLIS, TripoSR, Shap-E). Ce qui reste à muscler : RAG industrialisé avec eval et garde-fous, MLOps grade production (versioning, drift detection), et data engineering à très grande échelle (>TB).

Axe stratégique explicite de mon projet 2026-2027. Dans mon profil, elle articule 3 étages : fondations data (lecture rapide d'un schéma, audit de pipeline), ML appliqué (classification, scoring, recommandation) et IA générative en production (RAG, agents, eval). Pour un rôle CTO scale-up SaaS B2B vertical, c'est ce qui transforme l'IA en *moat* plutôt qu'en gadget de démo.

Montée volontaire Confirmé → Senior déclenchée fin 2024 et toujours en cours : RAG hands-on intégré au pipeline ACCENSEO, multi-fournisseurs (Claude + GPT + Gemini), enrichissement IA de dizaines de milliers de fiches produit. La cadence d'apprentissage est mesurable trimestre par trimestre.

À moi-même : livrer un petit projet RAG ou agentic par trimestre, avec eval explicite, pour ne pas laisser la compétence se dégrader, et tenir un journal de prompts qui marchent et qui ne marchent pas. Aux autres : *ne pas confondre démo IA et production IA*, investir dès le départ dans l'observabilité du pipeline (token cost, latence, hallucination détectée) et dans les garde-fous (sanitization, rate limit, fallback humain). Choisir une stack data-first avant la stack modèle.

Mon évolution dans cette compétence

L'axe stratégique 2026-2028

La data et l'IA sont l'axe qui distingue mon profil CTO en 2026. Dans le projet à 24 mois, ils me permettent de cadrer un produit SaaS B2B vertical IA-augmenté, de sourcer un team data + ML / LLM cohérent et de défendre une trajectoire produit IA devant un board en distinguant ce qui est *moat* de ce qui est *commodity*. Sans cet axe, le rôle CTO 2026-2028 se réduit à un rôle d'opérateur stack moderne.

D'ici fin 2027, l'objectif observable est d'opérer une plateforme data + IA grade production avec pipeline RAG industrialisé (eval + drift detection), un coût explicite par feature IA et une revue trimestrielle de la qualité. Le glissement Confirmé → Senior se mesure sur la triple maîtrise data engineering + ML appliqué + LLM-Ops, pas sur un score abstrait.

RAG hands-on intégré au pipeline ACCENSEO (Claude + GPT + Gemini multi-fournisseurs, TRELLIS / TripoSR / Shap-E pour la génération 3D), intake hebdomadaire des releases LLM (Anthropic, OpenAI, Mistral, DeepSeek). Master Expert en Ingénierie du Logiciel actif jusqu'en 2026.

Programmes DeepLearning.AI Specialization et Coursera MLOps prévus 2026-2027. Cohorte Maven *Applied LLM* (Hamel Husain par exemple) visée 2026. Certification GCP Professional Data Engineer envisagée selon le contexte cible.

Lectures piliers : *Designing Machine Learning Systems* (Chip Huyen), *Building LLM Powered Applications* (Valentina Alto), papers sélectionnés sur arXiv. Suivi continu de Latent Space, Eugene Yan, Simon Willison. Routine mensuelle : un nouveau modèle évalué sur un cas réel.

Navigation circulaire