Voltar ao blog

Voltei a fazer diagnósticos. O padrão que encontrei não me surpreendeu, e deveria ter.

Fiquei fora por dois anos. Quando voltei, uma das primeiras coisas que fiz foi sentar com novos clientes e olhar de perto o ambiente deles: cluster, repositório, pipeline, custo, segurança. O diagnóstico que a Estabilis faz antes de qualquer proposta.

Esperava encontrar coisa diferente do que via antes de sair. Não encontrei.

Não estou falando de empresas que negligenciaram a infraestrutura. Estou falando de empresas que investiram, que tinham times competentes, que tomaram decisões técnicas defensáveis. E mesmo assim, o mesmo padrão aparecendo em lugares diferentes, em setores diferentes, em tamanhos diferentes.


A contradição que se repete

O caso que melhor ilustra: uma empresa com uma plataforma interna bem construída, onde os times de desenvolvimento conseguem provisionar infraestrutura com autonomia real a partir de um catálogo pré-definido. Do ponto de vista de developer experience, algo que muita empresa não tem.

Ao lado disso: pipelines de CI/CD com três, quatro anos de vida, quebrando toda semana. Não migrados porque nunca foram prioridade. De fato nunca explodiram de um jeito que forçasse a decisão. Incidentes acontecendo, sendo resolvidos, mas sem rastreabilidade suficiente para entender o impacto real no negócio. O problema aparecia depois que acontecia, nunca antes.

Não é descuido. É foco. O time estava olhando para o que importava para eles, e a plataforma de self-service era, de fato, importante. O problema é que outras coisas também importam. Essas outras coisas não tinham dono, não tinham métrica, não tinham urgência declarada.

Até o dia que tiverem.


Por que esse padrão persiste

Infraestrutura tem uma característica inconveniente: os problemas que mais importam são os que menos aparecem no dia a dia.

Pipeline quebrando toda semana é visível. Irrita, atrasa, gera reclamação. Mas não mata ninguém. Então fica na fila.

Falta de observabilidade não aparece até o incidente crítico. Aí aparece de uma vez, na pior hora possível, com todo mundo olhando.

Custo de cloud crescendo 15% ao mês não dói até virar um número que chega na reunião de board. Quando chega, já são seis meses de desperdício acumulado sem explicação clara.

O time não ignora essas coisas por incompetência. Ignora porque a pressão do que está quebrando agora sempre vence a atenção para o que vai quebrar depois.


O que eu faço com isso

Quando faço um diagnóstico hoje, não estou procurando desastre. Estou procurando esse padrão específico: o que está funcionando bem o suficiente para nunca ter sido prioridade, mas que vai ser o centro do próximo incidente, do próximo susto de custo, da próxima sexta-feira com deploy travado.

A maioria das empresas que converso tem pelo menos um desses pontos cegos. Algumas têm três ou quatro convivendo em silêncio.

O trabalho da Estabilis é nomear esses pontos antes que eles nomeiem a si mesmos. Construir a camada que faz a plataforma inteira fechar, não só a parte que o time conseguiu priorizar.

Dois anos fora não mudaram esse padrão. Talvez devessem ter. Mas não mudaram.


Daniel Ginês — estabilis.com