Vi oplever i øjeblikket få udfald på nogle dele af vores API og Web app
Incident Report for Dinero
Postmortem

Opsummering:

Dinero har været ramt af sporadiske udfald af cirka 10 minutters varighed mellem d. 12. maj og 4. juni 2021. Vi har nu identificeret fejlen til at være et problem mellem vores cloud providers. Google Cloud har via deres supportkanal meddelt os, at udfaldene skyldes kapacitetsproblemer i deres datacenter i Holland, som vi benytter os af. De har udbedret fejlen via en midlertidig løsning, og deres teknikere arbejder p.t. på at udvide den fysiske kapacitet, som er den mere permanente løsning på problemet.

Fremtidige forbedringer:

I forbindelse med at vi har undersøgt problemet sammen med både Azure og Googles support har de givet os nogle tips og tricks til nogle flere metrics, vi kan kigge og overvåge på via vores overvågning. Det vil fremover gøre, at vi kan se udfordringer som disse langt hurtigere og med det samme skride til handling hos vores cloud providere.

Tidslinje:

12. maj: Vores infrastrukturteam identificerer mulige problemer i systemet.

13. - 20. maj: Vores infrastruktur- og udviklingsteam søger videre efter årsagerne til disse sporadiske nedbrud. Der skrues meget op for logging i systemet, så vi kan blive klogere, når disse nedbrud sker. Desværre uden de store resultater - vi ser blot en masse timeouts, netværksudfald og fejl i DNS-opslag. Når disse udfald sker, ser vi høje spikes i antallet af udgående connections fra vores infrastruktur.

20. - 27. maj: De høje connection spikes fra vores infrastruktur fortsætter ufortrødent, og vi strammer nogle barduner hos os selv for at få tingene til at opføre sig anderledes. Derudover åbner vi en support ticket hos Google Cloud-teamet i forhåbning om, at de kan lede os hen mod en løsning på problemet. I denne omgang får vi dog ingen besked om, at Google Cloud generelt har problemer med at kommunikere med Microsoft Azure.

28. maj - 4. juni: På dette tidspunkt leder vi stadig efter synderen i vores egen kode og infrastruktur - og forventer at vi kan skrue på nogle ting for at få det til at stoppe. Desværre uden held. Under et udfald opdager en af vores udviklere ved et tilfælde, at han taber pakker, når han pinger vores Layer 7 Load Balancer i Google, og det leder os på sporet af at problemet må ligge i Google Cloud, da de ejer og passer vores load balancere. Vi opretter herefter straks en ny support ticket til load balancer teamet i Google, hvor vi fortæller dem om vores nyeste observationer. De går straks i gang med at undersøge det.

5. juni - 10. juni: Problemet er ikke opstået siden d. 4. juni og vi stopper dermed med at skrue mere hos os selv, da vi nu er helt sikre på at problemet ligger i Google og ikke hos os selv. Vi fortsætter den tætte dialog med Google-teamet, og d. 10. juni kl. 18 kommer Google endelig med en besked om at de har implementeret en midlertidig løsning d. 4. juni i deres datacenter i Holland, og at de også arbejder på en mere permanent løsning, så de kan få mere kapacitet.

Posted Jun 16, 2021 - 14:48 CEST

Resolved
This incident has been resolved.
Posted Jun 14, 2021 - 10:27 CEST
Investigating
We are currently investigating this issue.
Posted May 25, 2021 - 15:45 CEST
This incident affected: Regnskabsprogrammet - Web, Mobile apps, and API (integrations).