SC
Desde já agradeço pelas interações aqui no post.
Como infelizmente não consigo marcar alguém nos comentários, vou responder de forma mais ampla à pergunta do Arthur, para que talvez ajude outros colegas também.
Uma das práticas que mais me ajuda a detectar problemas antes que se tornem críticos é o acompanhamento diário dos backups. A própria ferramenta do Firebird costuma avisar quando há erros graves, nos casos mais simples, tenta corrigir durante o processo. Mesmo com tudo automatizado, eu sempre confiro se os arquivos foram gerados e estão íntegros.
O meu script faz duas etapas, cria o backup em .fbk e depois restaura em outro local gerando uma cópia .fdb. Isso garante que o backup realmente possa ser restaurado, e se havia algum problema pequeno, o gbak já resolve. Inclusive, uma vez ao fazer o backup manual, percebi um erro que mais tarde teria virado um problema maior.
Esse hábito simples já me salvou algumas vezes de descobrir tarde demais que algo estava errado.

Excelente relato! Mostra na prática a importância de monitoramento, prevenção e automação em sistemas críticos. A forma como você automatizou a comparação de índices com Python é um ótimo exemplo de solução criativa para problemas complexos. Na sua experiência, quais ferramentas ou práticas você recomendaria para detectar esses sinais iniciais de falhas antes que se tornem críticas?

Excelente, Samara! Que artigo cirúrgico, inspirador e de altíssimo valor DevOps! Você transformou a crise de corrupção de um banco de dados Firebird em produção em uma lição de Engenharia de Sistemas Críticos.
É fascinante ver como você aborda o tema, mostrando que o problema não começou na falha, mas quando os primeiros sinais foram ignorados (a resistência em interromper o sistema).
Qual você diria que é o maior desafio para um desenvolvedor ao migrar um sistema de core banking para uma arquitetura cloud-native, em termos de segurança e de conformidade com as regulamentações, em vez de apenas focar em custos?



