Plataforma Cloud-Native Kubernetes

Infraestrutura Kubernetes de nivel empresarial hospedando mais de 10 aplicações críticas para um grande grupo imobiliario - de clusters on-premise ao AWS EKS, abrangendo 5 anos de operações contínuas, gestão de incidentes e migração para a nuvem.

2019 - 2024

~5 anos

Technical Lead e depois Engineering Manager - Cloud Infrastructure

KubernetesAWS EKSDockerHelmGitLab CINginx IngressVarnishMemcachedTyk API GatewayCert-ManagerLet's EncryptCentreonNew RelicMySQLPostgreSQLMongoDBAWS S3AWS NLBBashLinux

Plataforma Cloud-Native Kubernetes

2019 - 2024

~5 anos

Technical Lead e depois Engineering Manager - Cloud Infrastructure

KubernetesAWS EKSDockerHelmGitLab CINginx IngressVarnishMemcachedTyk API GatewayCert-ManagerLet's EncryptCentreonNew RelicMySQLPostgreSQLMongoDBAWS S3AWS NLBBashLinux

Aplicações Hospedadas

10+

Sites, PIM, APIs, jobs batch, gateways

Incidentes Gerenciados

40+

INC/SRQ/ISS rastreados e resolvidos

Gerações de Clusters

K8s on-premise depois AWS EKS

Ciclo de Vida

Jan 2019 a Mar 2024

Apresentação

Uma plataforma Kubernetes empresarial para a transformação digital do setor imobiliário

A infraestrutura Kubernetes de um grande grupo imobiliário francês hospedava todo o portfólio de aplicações digitais: PIM Akeneo para gestão de dados de produtos, o pipeline de processamento batch Export Ligneurs, todos os sites corporativos (identificados como PWR - Pichet Web Resources), a Intranet da empresa, a API de leads de parceiros PSR, o Tyk API Gateway e vários microsserviços, incluindo uma plataforma IoT de moradia conectada. O projeto abrangeu duas fases principais: clusters Kubernetes on-premise gerenciados pela Claranet (antiga Oxalide) de 2019 a 2021, seguido de uma migração completa para AWS EKS (Elastic Kubernetes Service) na região eu-west-3 de 2022 a 2024.

Natureza do Projeto

Infraestrutura Kubernetes multi-aplicação - mais de 10 aplicações containerizadas implantadas em 2 gerações de clusters (on-premise depois AWS EKS), com pipelines CI/CD industrializados, monitoramento proativo e hospedagem gerenciada pela Claranet.

Domínio de Negócios

Imobiliario - os sites do Groupe Pichet (pichet.fr, pichet-immobilier.fr, stock-invest.pichet.com, monespace.pichet.com) sao as vitrines comerciais do grupo. Qualquer indisponibilidade impacta diretamente a receita e a reputação da marca.

Arquitetura da Plataforma

10+ aplicacoes orquestradas no AWS EKS com roteamento Nginx Ingress

Aplicações Hospedadas (por criticidade)

Objetivos, Contexto, Desafios e Riscos

Compreendendo a visão estratégica por trás da infraestrutura

Objetivos

Garantir alta disponibilidade de todas as aplicações críticas (sites, PIM, APIs) com zero tempo de inatividade não planejado durante o horário comercial
Industrializar implantações via GitLab CI + Helm, reduzindo o tempo de implantação de horas para minutos
Migrar para AWS EKS para melhor escalabilidade, resiliência e benefícios do Kubernetes gerenciado
Monitorar proativamente os recursos (CPU, memória, disco, certificados SSL) para prevenir incidentes
Gerenciar acesso seguro por bastions SSH, túneis VPN e gestão de certificados

Contexto e Desafios

Toda a presença digital da organização dependia dessa infraestrutura. Com mais de 5 sites comerciais servindo milhares de visitantes diários, um sistema PIM alimentando dados de produtos para todos os canais e processos batch sincronizando dados com parceiros externos, os desafios eram consideráveis. A equipe de infraestrutura operava em um modelo de hospedagem gerenciada com a Claranet, exigindo coordenação próxima entre equipes de desenvolvimento internas e engenheiros de operações externos.

Riscos Identificados

Perda de dados durante a migração

A migração de on-premise para AWS EKS exigiu estratégias cuidadosas de migração de dados, especialmente para volumes persistentes e conexões de banco de dados.

Interrupções prolongadas de serviço

Os sites comerciais eram ativos críticos do negócio. Qualquer inatividade prolongada impactaria diretamente as vendas e a confiança dos clientes.

Expiração de certificados e má configuração SSL

Multiplos incidentes (INC2009171, SRQ0409264) mostraram que SSL era uma área de risco recorrente, com certificados mal configurados causando falhas HTTPS.

Exaustão de recursos nos nodes do cluster

Alertas criticos recorrentes para memoria de nodes, carga de CPU, swap e exaustao de inodes ameaçavam a estabilidade do cluster (crise Jul-Out 2019).

Comparacao On-premise vs AWS EKS

As Etapas - O que Fiz

Uma jornada concreta, fase por fase, do ciclo de vida da infraestrutura

Fase 1

Configuração e Operações K8s On-Premise

2019 - 2021

Obtive acesso Maintainer nos repositórios Docker/Nginx do GitLab e configurei pipelines CI para builds containerizados
Resolvi primeiros incidentes importantes: crashes Varnish PWR (INC2009335), falhas Memcached, problemas de volumes rsync na Intranet (SRQ0345307)
Depurei erro crítico de CI implantando config de produção em pré-produção (SRQ0389097) - implementei proteções de ambiente
Configurei Tyk API Gateway no Kubernetes: setup de bancos MongoDB (SRQ0506433), roteamento API para PIM (PIMUP23-168)
Gerenciei a crise de recursos dos nodes de Jul-Out 2019: alertas críticos de memória, carga CPU, swap e inodes no k8s.prod.kariba.fr
Criei bucket S3 "kariba-assets" com usuário IAM somente leitura para armazenamento de ativos e backup (Novembro 2019)
Otimizei a configuração OPcache da imagem Docker PHP-FPM para performance do PIM Akeneo

Fase 2

Migração e Estabilização AWS EKS

2022 - 2024

Solicitei e gerenciei o provisionamento de bastions SSH para ambientes AWS PROD e PREPROD (ISS-423267)
Resolvi primeiros incidentes EKS: alertas CRIT de heartbeat do node-exporter (ISS-316691) indicando lacunas de monitoramento na nova plataforma
Gerenciei incidentes recorrentes da plataforma EKS durante o período de estabilização (ISS-329644, ISS-346412, ISS-346473)
Corrigi falhas de pipeline CI/CD para Intranet e PSR no EKS preprod (ISS-392190) - adaptei Helm charts para compatibilidade EKS
Resolvi alertas de versao AMI do EKS e coordenei atualizações de grupos de nodes com a Claranet
Integrei com a organização Azure DevOps "groupepichet" para colaboração multiplataforma

Pipeline de Implantacao CI/CD

GitLab CI + Helm Charts - do merge request a producao com portao de validacao manual

Cronograma do Ciclo de Vida da Infraestrutura

Ciclo de vida de 5 anos da infraestrutura, do K8s on-premise ao AWS EKS

Progresso da Migracao ao Longo do Tempo

Os Atores - Interações

Um ecossistema complexo de equipes internas e provedores externos

A gestão da infraestrutura exigia coordenação constante entre a equipe de desenvolvimento interna do Groupe Pichet e a equipe de hospedagem gerenciada na Claranet (antiga Oxalide). Como principal consumidor da plataforma Kubernetes (PIM, Export Ligneurs) e supervisor de implantações, servi como ponte entre as necessidades de desenvolvimento e as operacoes de infraestrutura, recebendo todos os alertas de monitoramento e participando diretamente na resolução de incidentes.

Franck C.

N+1, Lead SI Web

Coordenação de infraestrutura, validação de implantações, estratégia de industrialização CI/CD. Citação chave: "Industrializamos o deploy como os outros projetos K8S (GitLab CI e Helm)."

Antoine D.

Claranet/Oxalide

Resolução de incidentes de monitoramento, implementação de health pages, solução de problemas de infraestrutura durante a fase on-premise.

Kevin W.

Claranet/Oxalide

Incidentes do Tyk Gateway, resolução de alertas de infraestrutura, coordenação de manutenção da plataforma.

Rémi P.

Gerente de Projeto SI Marketing

Solicitações Tyk/MongoDB, coordenação de infraestrutura para necessidades da plataforma de marketing.

Thomas R.

Desenvolvedor Kariba

Contribuições PIM, verificação de jobs K8s, depuração colaborativa de problemas de implantação.

Sébastien B.

Équipe Kariba

Verificação de jobs Export Ligneurs no K8s prod/preprod, validação de processamento batch.

Resultados

Impacto mensurável para a organização e crescimento pessoal

Crescimento Pessoal

Expertise profunda em operações Kubernetes: gestão do ciclo de vida de pods, limites de recursos, autoscaling horizontal de pods, persistent volume claims e ingress controllers
Habilidades práticas em cloud AWS: gestão de clusters EKS, configuração S3, políticas IAM, NLB load balancers e arquitetura de bastions
Maturidade em gestao de incidentes: desenvolvi abordagens sistematicas para triagem, escalonamento e resolução de incidentes de infraestrutura sob pressao
Design de pipelines CI/CD: automacao de implantacao GitLab CI + Helm Charts, configurações específicas por ambiente e proteções de implantação
Evolução de desenvolvedor para supervisor de infraestrutura: este projeto mudou fundamentalmente minha compreensão do ciclo completo de entrega de software

Impacto nos Negocios

Disponibilidade contínua

Mais de 10 aplicações críticas mantidas em alta disponibilidade por 5 anos

Resolução de incidentes

Mais de 40 incidentes documentados (INC/SRQ/ISS) rastreados e resolvidos, reduzindo o tempo médio de recuperação

Migração para a nuvem

Transição bem-sucedida de K8s on-premise para AWS EKS com mínima interrupção de negócios

Industrialização de implantações

Pipeline CI/CD totalmente automatizado via GitLab CI + Helm, permitindo implantações reproduzíveis e consistentes

Eficiência de custos

Alocação de recursos otimizada por monitoramento, reduzindo gastos desnecessários com infraestrutura

Distribuicao de Incidentes por Categoria

Radar de Metricas de Infraestrutura

O Futuro do Projeto

Além da migração - a evolução a longo prazo da plataforma

Resultado Imediato

Após a migração para AWS EKS estar totalmente estabilizada, a infraestrutura entrou em uma fase operacional madura. A configuração de monitoramento com Centreon e New Relic fornecia alertas proativos, e o pipeline de implantação baseado em Helm permitia que as équipes implantassem com confiança. A gestão de acesso por bastions, embora inicialmente desafiadora (ISS-423267 permaneceu aberto por meses), eventualmente forneceu um caminho de acesso seguro e auditável aos sistemas de produção.

Evolucao a Longo Prazo

A plataforma Kubernetes continuou operando após minha saída do grupo em março de 2024. As decisões arquiteturais tomadas durante a configuração inicial - Helm charts padronizados, cert-manager automatizado para SSL/TLS, separação clara de namespaces entre ambientes - se mostraram duráveis e permitiram que a infraestrutura escalasse com as crescentes necessidades digitais da organização. A migração de on-premise para AWS EKS validou a estratégia cloud-first e estabeleceu a base para futuras iniciativas cloud-native.

Hoje

Hoje, os princípios de infraestrutura estabelecidos durante este projeto - containerização, orquestração, implantações automatizadas, monitoramento proativo - são padrões da indústria. A experiência de gerenciar um ciclo de vida de infraestrutura de 5 anos, desde a configuração inicial até uma grande migração para a nuvem, fornece uma perspectiva única sobre as implicações a longo prazo das decisões de infraestrutura. As lições aprendidas informam diretamente minha abordagem atual de infrastructure-as-code e arquitetura cloud.

Reflexão Crítica

Retrospectiva honesta sobre 5 anos de gestão de infraestrutura

O que Funcionou Bem

A industrialização GitLab CI + Helm foi um grande sucesso. Pipelines de implantação padronizados em todas as aplicações trouxeram consistência e confiabilidade que reduziram drasticamente os incidentes relacionados à implantação após o período de configuração inicial.
A estratégia de cluster duplo (pré-produção + produção) com separação clara de ambientes preveniu muitos problemas potenciais de producao. O incidente em que a config de produção foi implantada em pré-produção (SRQ0389097) na verdade reforçou a importância das proteções de ambiente.
O monitoramento proativo com Centreon + New Relic detectou muitos problemas antes de impactarem os usuários finais, transformando a gestão de infraestrutura de combate a incêndio reativo para prevenção proativa.

Areas para Melhoria

O planejamento de recursos durante a Fase 1 foi insuficiente. A crise de Jul-Out 2019 com alertas recorrentes de memória/carga/swap dos nodes poderia ter sido evitada com melhor planejamento de capacidade e requests/limits de recursos nos pods.
A gestão de acesso por bastions (ISS-423267) se arrastou por muito tempo. Um processo de gestão de acesso mais estruturado com chaves SSH pré-provisionadas e rotação automatizada teria economizado uma sobrecarga significativa de coordenação.
A documentação das decisões de infraestrutura e runbooks era inconsistente. Criar runbooks abrangentes para padrões comuns de incidentes mais cedo teria acelerado a integração e reduzido os tempos de resolução.

O que Faria Diferente

Em retrospecto, eu teria insistido na migração para AWS EKS mais cedo. A fase on-premise, embora educacional, consumiu esforço operacional significativo que o Kubernetes gerenciado teria eliminado. Eu também teria implementado práticas GitOps (ArgoCD ou Flux) desde o início, e estabelecido infrastructure-as-code com Terraform para todos os recursos cloud em vez de depender de solicitações manuais à Claranet. Finalmente, eu teria investido mais em testes automatizados de Helm charts e manifestos Kubernetes antes da implantação, detectando erros de configuração no CI em vez de em produção.

Licoes Aprendidas

Infraestrutura nunca está "pronta" - requer atenção contínua, monitoramento e evolução. O ciclo de vida de 5 anos me ensinou que as decisões arquiteturais iniciais têm efeitos compostos ao longo do tempo.
O modelo de hospedagem gerenciada (Claranet) tem tanto vantagens (expertise, suporte 24/7) quanto limitações (dependência, iteração mais lenta. Entender onde traçar a linha entre gerenciado e autogerenciado é uma habilidade crítica.
Gestão de incidentes é uma habilidade que so pode ser desenvolvida com prática real. A pressão de incidentes em produção com impacto nos negócios me ensinou compostura, pensamento sistemático e comunicação clara sob estresse.