Plateforme Cloud-Native Kubernetes

Infrastructure Kubernetes de niveau entreprise hébergeant plus de 10 applications critiques pour un grand groupe immobilier - des clusters on-premise à AWS EKS, couvrant 5 ans d'opérations continues, de gestion d'incidents et de migration cloud.

2019 - 2024

~5 ans

Technical Lead puis Engineering Manager - Cloud Infrastructure

KubernetesAWS EKSDockerHelmGitLab CINginx IngressVarnishMemcachedTyk API GatewayCert-ManagerLet's EncryptCentreonNew RelicMySQLPostgreSQLMongoDBAWS S3AWS NLBBashLinux

Plateforme Cloud-Native Kubernetes

2019 - 2024

~5 ans

Technical Lead puis Engineering Manager - Cloud Infrastructure

KubernetesAWS EKSDockerHelmGitLab CINginx IngressVarnishMemcachedTyk API GatewayCert-ManagerLet's EncryptCentreonNew RelicMySQLPostgreSQLMongoDBAWS S3AWS NLBBashLinux

Applications hébergées

10+

Sites web, PIM, API, jobs batch, gateways

Incidents gérés

40+

INC/SRQ/ISS suivis et résolus

Générations de clusters

K8s on-premise puis AWS EKS

Cycle de vie

Jan 2019 a Mar 2024

Presentation

Une plateforme Kubernetes d'entreprise pour la transformation digitale de l'immobilier

L'infrastructure Kubernetes d'un grand groupe immobilier français hébergeait l'ensemble du portefeuille d'applications digitales : le PIM Akeneo pour la gestion des données produits, le pipeline de traitement batch Export Ligneurs, l'ensemble des sites web corporate (identifiés sous le nom PWR - Pichet Web Resources), l'Intranet du groupe, l'API partenaires leads PSR, la Tyk API Gateway, et divers microservices dont une plateforme IoT de logement connecté. Le projet a couvert deux phases majeures : des clusters Kubernetes on-premise gérés par Claranet (ex-Oxalide) de 2019 a 2021, suivis d'une migration complète vers AWS EKS (Elastic Kubernetes Service) sur la région eu-west-3 de 2022 a 2024.

Nature du projet

Infrastructure Kubernetes multi-applications - plus de 10 applications conteneurisées déployées sur 2 générations de clusters (on-premise puis AWS EKS), avec des pipelines CI/CD industrialisés, un monitoring proactif et un hébergement géré par Claranet.

Domaine métier

Immobilier - les sites web du Groupe Pichet (pichet.fr, pichet-immobilier.fr, stock-invest.pichet.com, monespace.pichet.com) sont les vitrines commerciales du groupe. Toute indisponibilité impacte directement le chiffre d'affaires et la réputation de la marque.

Architecture de la plateforme

10+ applications orchestrees sur AWS EKS avec routage Nginx Ingress

Applications hébergées (par criticite)

Objectifs, Contexte, Enjeux et Risques

Comprendre la vision stratégique derrière l'infrastructure

Objectifs

Assurer la haute disponibilité de toutes les applications critiques (sites web, PIM, API) avec zero indisponibilité non planifiée en heures ouvrables
Industrialiser les déploiements via GitLab CI + Helm, réduisant le temps de déploiement de heures a minutes
Migrer vers AWS EKS pour une meilleure scalabilité, résilience et les bénéfices du Kubernetes géré
Superviser proactivement les ressources (CPU, mémoire, disque, certificats SSL) pour prévenir les incidents
Gérer les accès sécurisés via bastions SSH, tunnels VPN et gestion de certificats

Contexte et Enjeux

L'ensemble de la présence digitale de l'organisation dépendait de cette infrastructure. Avec plus de 5 sites commerciaux servant des milliers de visiteurs quotidiens, un système PIM alimentant les données produits sur tous les canaux et des traitements batch synchronisant les données avec les partenaires externes, les enjeux étaient considérables. L'équipe infrastructure opérait en modèle d'hébergement géré avec Claranet, nécessitant une coordination étroite entre les équipes de développement internes et les ingénieurs d'exploitation externes.

Risques identifiés

Perte de données lors de la migration

Le passage de l'on-premise vers AWS EKS a nécessité des stratégies de migration de données soignées, notamment pour les volumes persistants et les connexions aux bases de données.

Interruptions de service prolongées

Les sites web commerciaux étaient des actifs business critiques. Toute indisponibilité prolongée impacterait directement les ventes et la confiance des clients.

Expiration de certificats et mauvaise configuration SSL

Plusieurs incidents (INC2009171, SRQ0409264) ont montré que le SSL était une zone de risque récurrente, avec des certificats mal configurés provoquant des défaillances HTTPS.

Épuisement des ressources sur les noeuds du cluster

Des alertes critiques récurrentes pour la mémoire des noeuds, la charge CPU, le swap et l'épuisement des inodes menacaient la stabilité du cluster (crise Jul-Oct 2019).

Comparaison On-premise vs AWS EKS

Les Étapes - Ce que j'ai fait

Un parcours concret, phase par phase, du cycle de vie de l'infrastructure

Phase 1

Mise en place et exploitation K8s on-premise

2019 - 2021

Obtention de l'accès Maintainer sur les repositories Docker/Nginx GitLab et configuration des pipelines CI pour les builds conteneurisés
Résolution des premiers incidents majeurs : crashes Varnish PWR (INC2009335), défaillances Memcached, problèmes de volumes rsync sur l'Intranet (SRQ0345307)
Debug d'une erreur critique CI déployant la config de prod en preprod (SRQ0389097) - mise en place de garde-fous d'environnement
Configuration de la Tyk API Gateway sur Kubernetes : setup des bases MongoDB (SRQ0506433), routage API pour le PIM (PIMUP23-168)
Gestion de la crise de ressources nodes Jul-Oct 2019 : alertes critiques mémoire, charge CPU, swap et inodes sur k8s.prod.kariba.fr
Création du bucket S3 "kariba-assets" avec utilisateur IAM read-only pour le stockage d'assets et les backups (Novembre 2019)
Optimisation de la configuration OPcache de l'image Docker PHP-FPM pour les performances du PIM Akeneo

Phase 2

Migration et stabilisation AWS EKS

2022 - 2024

Demande et gestion du provisionnement des bastions SSH pour les environnements AWS PROD et PREPROD (ISS-423267)
Resolution des premiers incidents EKS : alertes CRIT heartbeat node-exporter (ISS-316691) indiquant des lacunes de monitoring sur la nouvelle plateforme
Gestion des incidents récurrents de la plateforme EKS pendant la période de stabilisation (ISS-329644, ISS-346412, ISS-346473)
Correction des défaillances de pipeline CI/CD pour l'Intranet et PSR sur EKS preprod (ISS-392190) - adaptation des Helm charts pour la compatibilité EKS
Traitement des avertissements de version AMI EKS et coordination des mises à jour de groupes de noeuds avec Claranet
Intégration avec l'organisation Azure DevOps "groupepichet" pour la collaboration multiplateforme

Pipeline de déploiement CI/CD

GitLab CI + Helm Charts - du merge request a la production avec validation manuelle

Chronologie du cycle de vie infrastructure

Cycle de vie infrastructure de 5 ans, du K8s on-premise a AWS EKS

Progression de la migration dans le temps

Les Acteurs - Les Interactions

Un écosystème complexe d'équipes internes et de prestataires externes

La gestion de l'infrastructure nécessitait une coordination constante entre l'équipe de développement interne du Groupe Pichet et l'équipe d'hébergement géré chez Claranet (ex-Oxalide). En tant que consommateur principal de la plateforme Kubernetes (PIM, Export Ligneurs) et superviseur des déploiements, je servais de pont entre les besoins du développement et les opérations d'infrastructure, recevant toutes les alertes de monitoring et participant directement à la résolution des incidents.

Franck C.

N+1, Référent SI WEB

Coordination infra, validation des déploiements, stratégie d'industrialisation CI/CD. Citation clé : "Nous avons industrialisé le déploiement comme les autres projets K8S (GitLab CI et Helm)."

Antoine D.

Claranet/Oxalide

Résolution d'incidents monitoring, mise en place de health pages, troubleshooting infrastructure pendant la phase on-premise.

Kevin W.

Claranet/Oxalide

Incidents Tyk Gateway, résolution d'alertes infrastructure, coordination de la maintenance plateforme.

Rémi P.

Chef de Projet SI Marketing

Demandes Tyk/MongoDB, coordination infrastructure pour les besoins de la plateforme marketing.

Thomas R.

Développeur Kariba

Contributions PIM, vérification des jobs K8s, debug collaboratif des problèmes de déploiement.

Sébastien B.

Équipe Kariba

Verification des jobs Export Ligneurs sur K8s prod/preprod, validation du traitement batch.

Les Résultats

Impact mesurable pour l'organisation et croissance personnelle

Croissance personnelle

Expertise approfondie des opérations Kubernetes : gestion du cycle de vie des pods, limites de ressources, horizontal pod autoscaling, persistent volume claims et ingress controllers
Compétences pratiques AWS : gestion de clusters EKS, configuration S3, politiques IAM, NLB load balancers et architecture de bastions
Maturité en gestion d'incidents : développement d'approches systématiques pour le tri, l'escalade et la résolution d'incidents d'infrastructure sous pression
Conception de pipelines CI/CD : automatisation des déploiements GitLab CI + Helm Charts, configurations spécifiques par environnement et garde-fous de déploiement
Évolution de développeur vers superviseur d'infrastructure : ce projet a fondamentalement changé ma compréhension du cycle de vie complet de livraison logicielle

Impact business

Disponibilité continue

Plus de 10 applications critiques maintenues en haute disponibilité sur 5 ans

Résolution d'incidents

Plus de 40 incidents documentes (INC/SRQ/ISS) suivis et résolus, reduisant le temps moyen de retablissement

Migration cloud

Transition réussie de K8s on-premise vers AWS EKS avec perturbation minimale du business

Industrialisation des déploiements

Pipeline CI/CD entièrement automatisé via GitLab CI + Helm, permettant des déploiements reproductibles et consistants

Efficience des coûts

Allocation des ressources optimisée par le monitoring, réduisant les dépenses d'infrastructure inutiles

Répartition des incidents par categorie

Radar des metriques infrastructure

Les Lendemains du projet

Au-dela de la migration - l'évolution à long terme de la plateforme

Futur immédiat

Après la stabilisation complète de la migration AWS EKS, l'infrastructure est entrée dans une phase opérationnelle mature. Le setup de monitoring avec Centreon et New Relic fournissait des alertes proactives, et le pipeline de déploiement basé sur Helm permettait aux équipes de déployer avec confiance. La gestion des accès bastions, bien qu'initialement difficile (ISS-423267 est resté ouvert pendant des mois), a finalement fourni un chemin d'accès sécurisé et auditable aux systèmes de production.

Évolution a long terme

La plateforme Kubernetes a continué de fonctionner après mon départ du groupe en mars 2024. Les décisions architecturales prises lors de la mise en place initiale - Helm charts standardisés, cert-manager automatisé pour SSL/TLS, séparation claire des namespaces entre environnements - se sont révélées durables et ont permis à l'infrastructure de monter en charge avec les besoins digitaux croissants de l'organisation. La migration de l'on-premise vers AWS EKS a validé la stratégie cloud-first et posé les bases pour de futures initiatives cloud-native.

Aujourd'hui

Aujourd'hui, les principes d'infrastructure établis pendant ce projet - conteneurisation, orchestration, déploiements automatisés, monitoring proactif - sont des standards de l'industrie. L'expérience de gestion d'un cycle de vie d'infrastructure sur 5 ans, de la mise en place initiale jusqu'à une migration cloud majeure, apporte une perspective unique sur les implications à long terme des décisions d'infrastructure. Les leçons apprises nourrissent directement mon approche actuelle de l'infrastructure-as-code et de l'architecture cloud.

Mon Regard Critique

Rétrospective honnête sur 5 ans de gestion d'infrastructure

Ce qui a bien fonctionne

L'industrialisation GitLab CI + Helm a été un franc succès. Les pipelines de déploiement standardisés sur toutes les applications ont apporté consistance et fiabilité, réduisant drastiquement les incidents liés aux déploiements après la période de mise en place initiale.
La stratégie de double cluster (preprod + prod) avec séparation claire des environnements a prévenu de nombreux problèmes potentiels en production. L'incident où la config de prod a été déployée en preprod (SRQ0389097) a en fait renforcé l'importance des garde-fous d'environnement.
Le monitoring proactif avec Centreon + New Relic a détecté de nombreux problèmes avant qu'ils n'impactent les utilisateurs finaux, transformant la gestion d'infrastructure d'une lutte réactive contre les incendies en prévention proactive.

Points d'amélioration

La planification des ressources pendant la Phase 1 était insuffisante. La crise de Jul-Oct 2019 avec des alertes récurrentes de mémoire/charge/swap des noeuds aurait pu être évitée avec une meilleure planification de capacité et des requests/limits de ressources sur les pods.
La gestion des accès bastions (ISS-423267) a traine trop longtemps. Un processus de gestion des accès plus structuré avec des clés SSH pré-provisionnées et une rotation automatisée aurait épargné un overhead de coordination significatif.
La documentation des décisions d'infrastructure et des runbooks était inconsistante. Créer des runbooks exhaustifs pour les patterns d'incidents courants plus tôt aurait accéléré l'onboarding et réduit les temps de résolution.

Ce que j'aurais fait differemment

Avec le recul, j'aurais poussé pour la migration AWS EKS plus tôt. La phase on-premise, bien qu'educative, a consommé un effort opérationnel significatif que le Kubernetes géré aurait éliminé. J'aurais aussi mis en place des pratiques GitOps (ArgoCD ou Flux) dès le départ, et établi l'infrastructure-as-code avec Terraform pour toutes les ressources cloud plutôt que de dépendre de demandes manuelles à Claranet. Enfin, j'aurais investi davantage dans les tests automatisés des Helm charts et manifestes Kubernetes avant le déploiement, détectant les erreurs de configuration en CI plutôt qu'en production.

Lecons apprises

L'infrastructure n'est jamais "terminée" - elle nécessite une attention continue, du monitoring et de l'évolution. Le cycle de vie de 5 ans m'a appris que les décisions architecturales initiales ont des effets composés au fil du temps.
Le modèle d'hébergement géré (Claranet) a des avantages (expertise, support 24/7) et des limites (dépendance, itération plus lente). Comprendre où tracer la ligne entre géré et autogéré est une compétence critique.
La gestion d'incidents est une compétence qui ne se développe qu'avec la pratique réelle. La pression des incidents en production avec impact business m'a appris la composure, la pensée systématique et la communication claire sous stress.