Observability

Grafana-dashboards die daadwerkelijk gebruikt worden

Je hebt Grafana. Je hebt Prometheus metrics. Je hebt logs in Loki en traces in Tempo. De data staat er allemaal. Je hebt ook 47 dashboards die niemand opent. Ik heb dit mezelf meer dan eens aangedaan. Er gaat iets stuk om 2 uur ’s nachts, ik klus snel een dashboard in elkaar om te zien wat er aan de hand is, en daarna blijft het voor eeuwig staan. Vermenigvuldig dat met een jaar aan incidenten en een paar “ik voeg er even een panel voor toe”-momenten, en je houdt een Grafana over die vooral archeologie is. Niemand weet meer wat de helft van de panels betekent. De eerlijke keuze is het meeste weggooien, maar eerst helpt het om te snappen wat de overlevers de moeite waard maakt. ...

Effectieve alerting strategie visualisatie

Alerting dat werkt: van alert fatigue naar actionable notificaties

Een tijdlang werkte mijn alerting prima. Een handvol regels, pages waren zeldzaam, en als er een binnenkwam betekende het iets. Toen groeide de cluster, schroefde ik de Prometheus Operator defaults erop, en veranderde “prima” stilletjes in ruis. Het kantelpunt was een page om 3 uur ’s nachts. Mijn telefoon trilde, ik checkte slaperig: “High CPU usage on node-worker-3.” Ik keek naar de grafiek, zag dat hij al tien minuten op 75% stond, en ging weer slapen. Volgende nacht, dezelfde alert. Een week later checkte ik niet eens meer. ...

Distributed tracing visualisatie met Tempo

Distributed tracing met Tempo en OpenTelemetry

Je metrics zeggen dat iets traag is. Je logs zeggen dat er errors waren. Prima. Beantwoord dan dit: welke request faalde nou eigenlijk, waar kwam die latency vandaan, en welke service in de keten vrat die timeout op? Metrics en logs halen daar allebei hun schouders bij op. Ik liep tegen die muur aan toen een checkout flow onder load begon te timeouten. Tien services in het pad, elk van ze groen op zijn eigen dashboard, en geen enkele manier om één gedoemde request te volgen van voordeur tot fout. Precies dat gat vult distributed tracing op. Het volgt één request terwijl die door je services beweegt en toont je precies wat er gebeurde en waar het vastliep. ...

Loki log aggregatie architectuur voor Kubernetes

Loki voor Kubernetes logging: de Prometheus-achtige aanpak

Je hebt Prometheus voor metrics, dus je kunt al zien wat er gebeurt in je clusters. Metrics vertellen je dat de latency van een request om 14:32 piekte. Ze vertellen je niet dat de payment service een null pointer gooide omdat iemand een config-wijziging met een typefout uitrolde. Daarvoor heb je logs nodig. Het standaardantwoord was jarenlang Elasticsearch. Krachtig en flexibel, en het indexeert elke token in elke logregel. Die full-text index is geweldig totdat je naar de rekening kijkt. Je betaalt ervoor in CPU bij ingest, in RAM om de index warm te houden, en in opslag die sneller groeit dan je daadwerkelijke logvolume. Ik draaide ooit een ELK stack in een vorige baan en was meer tijd kwijt aan het tunen van JVM heap sizes dan aan het lezen van logs. ...

Thanos remote write push architectuur met edge clusters

Thanos remote write: push-based metrics voor edge en multi-cluster

In mijn vorige post over Prometheus en Thanos zette ik de sidecar architectuur op. Thanos Sidecar draait naast Prometheus, uploadt TSDB blocks naar object storage, en stelt data via gRPC beschikbaar aan de Querier. Voor clusters die in hetzelfde datacenter staan met een dikke, stabiele link naar je centrale infrastructuur is dat heerlijk. Alles pullt. Alles praat met alles. Het leven is goed. Toen begon ik Prometheus op clusters aan de edge te zetten, en werd het leven minder goed. ...