Tema FinOps — como a UCloud trata custo cloud e LLM em contratos de operação.

A fatura que ninguém assina

Cloud sob demanda prometeu elasticidade. Na prática, muitas organizações herdaram uma linha de custo compartilhada que cresce todo trimestre sem dono claro. O relatório de billing do provedor é preciso no total e opaco na causa: centenas de recursos sem tag, ambientes de teste esquecidos ligados, discos órfãos de um deploy de dois anos atrás, sizing herdado de um spike que nunca mais se repetiu.

Em um contrato de EdTech em GKE, o cluster de homologação rodava com node pool idêntico ao de produção — três réplicas de API, Redis dedicado, Cloud SQL com tier de produção — porque “um dia vamos testar carga de verdade”. O projeto encerrou há dezoito meses; o namespace continuou faturando. Ninguém mentiu: o custo estava no console, mas não no mapa de quem decide arquitetura. FinOps existe para fechar esse vácuo entre gasto real e responsabilidade explícita.

FinOps não é sinônimo de “cortar cloud”. É a disciplina — formalizada pelo FinOps Framework — de fazer engenharia, finanças e negócio olharem para o mesmo número e tirarem decisões com evidência. Informar antes de otimizar; otimizar sem quebrar SLA; operar com ritual, não com pânico no fechamento do mês.

Primeiro enxergar, depois cobrar

Organizações maduras quase sempre começam com showback: cada squad, produto ou contrato vê quanto consome, sem debitar orçamento interno ainda. O objetivo é criar consciência sem guerra política na primeira reunião. Só depois — quando tags passam de 90% dos recursos e finanças confia nos números — faz sentido chargeback, transferindo custo de verdade para o centro que decide arquitetura.

Schema mínimo de tags que usamos em diagnóstico: owner (time ou produto), environment (prod, staging, dev, sandbox), cost_center ou centro de custo interno, project ou contrato, e lifecycle (ephemeral, permanent, review-by-date). Enforcement na criação — via Terraform, política de organização ou admission controller — evita o padrão “tag depois”, que nunca acontece. Recurso sem tag obrigatória não sobe, ou sobe em sandbox com TTL automático.

Em multi-cloud, o problema não é só tag ausente: é vocabulário divergente. O mesmo ambiente aparece como hml no GCP, staging na AWS e preprod no legado on-prem. Padronizar antes do dashboard — referências como FOCUS ajudam na normalização — é trabalho chato que evita reunião chata onde cada área defende seu relatório.

Onde o dinheiro some de verdade

Nos contratos que operamos, os mesmos padrões reaparecem com variações previsíveis:

  • Homologação eterna. Ambiente que replica produção sem janela de uso. Remediação típica: downscale noturno, node pool preemptível, ou desligamento com runbook de “subir para teste”.
  • Commitment mal alocado. Reserved Instance ou CUD comprado no impulso do trimestre anterior, sem vínculo ao workload que realmente consome. O dinheiro “economizado” vira custo fixo em recurso ocioso.
  • Storage órfão. Disco de VM deletada, snapshot sem política de retenção, bucket de log sem lifecycle. Billing de storage cresce linearmente enquanto ninguém olha — até virar linha dominante.
  • Egress e API de terceiros. Integração que funcionou em dev com volume baixo e em produção dispara transferência cross-region ou chamadas pagas por request.
  • “Era só um experimento”. Serviço sem tag que virou dependência crítica. Cortar exige change advisory; manter exige dono no orçamento.

Cada achado vira item no mapa contextual do ambiente: não só “economize R$ X”, mas por que aquele recurso existe, quem aprovou, qual SLA depende dele, qual risco de desligar. Quick win sem contexto volta no mês seguinte. Quick win com laudo, dono e data de revisão costuma ficar.

O relatório mensal fecha o mês. FinOps opera o trimestre — com revisão que engenharia, finanças e produto assinam, não só assistem.

O ritual que transforma número em decisão

Dashboard sem agenda vira wallpaper. Revisão trimestral FinOps madura segue roteiro fixo — adaptamos ao cliente, mas a estrutura se mantém:

  1. Variação vs. orçamento e vs. trimestre anterior. Top 10 drivers de custo, não só total agregado.
  2. Anomalias. Spike não explicado por tráfego ou release — investigação com dono nomeado.
  3. Compromissos. CUD, RI, savings plan: utilização real vs. comprado.
  4. Backlog de otimização. Itens priorizados por esforço, risco operacional e retorno — com responsável e prazo.
  5. Decisões de arquitetura pendentes. O que só resolve com mudança de desenho, não com desligar botão.

Participantes certos: quem pode mudar arquitetura, quem assina orçamento, quem opera plantão. FinOps sem SRE na sala vira exercício de finanças; FinOps sem finanças vira lista de recomendações que ninguém financia.

Quando a IA entra na conta

Em 2025 o susto não vem só de VM. Workflow interno chama modelo a cada ticket; agente reprocessa documento inteiro de 200 páginas a cada pergunta; embedding de base gigante sem política de retenção; chain com cinco chamadas onde uma bastaria. A linha “Vertex”, “OpenAI” ou “Bedrock” na fatura surpreende quem tratou IA como experimento gratuito no cartão corporativo.

O mesmo rigor de cloud aplica-se aqui: orçamento por squad ou workflow, alerta de anomalia diária, teto por sessão, cache de embedding, truncagem de contexto com política explícita. O OWASP lista consumo ilimitado como risco — e faz sentido operacional: agente sem freio é DDoS interno pago por token. Em contrato com copilots e agentes, o cockpit precisa mostrar custo de LLM no mesmo lugar que mostra incidente e SLA — não em planilha paralela que o gestor de produto descobre no fechamento.

Atribuição por workflow exige metadado desde o desenho: qual feature, qual tenant, qual ambiente. Sem isso, “cortar IA” vira debate ideológico em vez de decisão cirúrgica.

O que fazemos na prática

Em diagnóstico FinOps, começamos pelo que dói: surpresa na fatura, projeto sem visibilidade, renovação de contrato com TI sem narrativa para o negócio. Nas primeiras duas semanas: inventário de cobertura de tags, top waste patterns, maturidade em visibilidade/otimização/ritual (escala informal que usamos internamente), e três quick wins com dono e critério de validação.

Em operação gerenciada, FinOps não é projeto paralelo: entra no laudo quando otimização é consequência de incidente ou mudança, no mapa contextual quando há decisão de sizing ou ambiente, e na conversa recorrente com o cliente. Custo sem SLA na mesa é discussão incompleta — você não sabe se está caro demais ou barato demais para o risco que assume.

Em órgão público ou enterprise com auditoria, documentamos cada recomendação com evidência reproduzível: link para recurso, tag atual, impacto estimado, risco de remediação. “Cortar 30%” sem trilha não passa em due diligence; “desligar sandbox X com aprovação de Y e rollback Z” passa.