Photobox desenvolve uma imagem muito mais clara da observabilidade
A Photobox está usando a plataforma de observabilidade Dynatrace para consolidar todos os dados de monitoramento do sistema em um único painel de vidro. A gráfica personalizada, que hoje faz parte do grupo albelli-Photobox, apresentou a plataforma antes da fusão, no final de 2022.
Anteriormente, a empresa achava difícil adotar uma abordagem proativa em relação aos problemas do sistema. A equipe de TI da empresa teve que monitorar uma pilha de tecnologia complexa construída no AWS EC2 e microsserviços executados em Kubernetes e AWS Lambda.
De acordo com Alex Hibbitt, Diretor de Engenharia do Albelli-Photobox Group:
A pilha complexa foi criada por uma série de fusões e aquisições. Esse nível de complexidade torna-se incrivelmente difícil de observar com eficácia. Tínhamos pelo menos cinco plataformas de observabilidade diferentes, utilizando cerca de 10 tecnologias diferentes. A observabilidade tornou-se uma habilidade que apenas alguns de nossos engenheiros realmente experientes possuíam.
Hibbitt lembra que os problemas de TI podem levar até quatro horas para serem identificados. A natureza complexa da observabilidade, entretanto, significava que era um processo difícil de empreender. Ele diz que a falta de observabilidade eficaz criou desafios de escalabilidade e capacidade de resposta:
Foi muito difícil para nós responder a um problema. Se algo acontecesse, precisaríamos entrar em contato com nossos principais solucionadores de problemas e fazê-los sentir-se no éter e dizer: 'Oh, parece que está em algum lugar por aqui.' Essa abordagem não era muito científica.
Isso tem mudado o jogo para nós em termos de capacidade de responder a problemas dentro de nossa pilha complexa e de aplicar insights sobre onde estamos concentrando nossos esforços de engenharia.
A empresa reconheceu que precisava adotar uma abordagem diferente. Como primeira tentativa, a empresa introduziu a sua própria ferramenta de observabilidade. No entanto, esta tecnologia personalizada apenas adicionou outra camada de complexidade em vez de criar valor. Nesse ponto, a Photobox começou a conversar com fornecedores de tecnologia sobre uma solução potencial para o problema. Hibbit diz:
Reunimos uma lista de desejos do que queríamos – uma única ferramenta que pudesse cobrir tudo, desde serviços de banco de dados front-end até back-end. Queríamos democratizar o acesso à plataforma, para que qualquer engenheiro pudesse entender o processo e entender o que estava fazendo. E precisávamos de algo que ajudasse na nossa relação sinal-ruído, para que pudéssemos ver quais alertas eram realmente importantes.
Depois de usar a lista de desejos para identificar possíveis soluções, a Photobox concluiu testes de baixo nível com alguns fornecedores. A equipe de Hibbitt então executou um piloto de longa duração com sua solução preferida, Dynatrace. Devido à complexidade dos sistemas executados na Photobox, a empresa estabeleceu um teste pago de seis meses para testar a plataforma e gerar dados significativos no final de 2021:
Como resultado do teste, entramos em operação em todos os nossos ambientes de produção. Essa transição foi simplesmente para conectar-se a uma implementação de mais longo prazo. Um dos nossos principais pontos de teste foi: 'Tivemos confiança para desligar todas as nossas plataformas antigas e confiar apenas na Dynatrace?' A resposta foi “sim” – e agora é uma parte essencial da nossa pilha de tecnologia.
Hibbitt diz que a introdução dos recursos de automação e AIOps da Dynatrace produziu alguns grandes benefícios. A Photobox reduziu o tempo médio de resolução de problemas em 80% e reduziu em 60% o número de incidentes críticos que afetam a disponibilidade do serviço durante períodos de pico de compras. Um dos principais benefícios da abordagem Dynatrace são os cartões de problemas da plataforma:
Os cartões reúnem todas as diferentes métricas relacionadas que podem ter dado errado em um incidente e as apresentam como uma visão holística. Ele faz duas coisas muito legais. Primeiro, dá-lhe uma ideia do número de clientes afetados por um problema, o que ajuda os nossos engenheiros a quantificar se algo é realmente importante. Em segundo lugar, faz uma análise da causa raiz, onde identifica o problema potencial. E em uma organização distribuída e baseada em microsserviços como a nossa, isso é extremamente útil.