Prometheus

Effectieve alerting strategie visualisatie

Alerting dat werkt: van alert fatigue naar actionable notificaties

Een tijdlang werkte mijn alerting prima. Een handvol regels, pages waren zeldzaam, en als er een binnenkwam betekende het iets. Toen groeide de cluster, schroefde ik de Prometheus Operator defaults erop, en veranderde “prima” stilletjes in ruis. Het kantelpunt was een page om 3 uur ’s nachts. Mijn telefoon trilde, ik checkte slaperig: “High CPU usage on node-worker-3.” Ik keek naar de grafiek, zag dat hij al tien minuten op 75% stond, en ging weer slapen. Volgende nacht, dezelfde alert. Een week later checkte ik niet eens meer. ...

Thanos remote write push architectuur met edge clusters

Thanos remote write: push-based metrics voor edge en multi-cluster

In mijn vorige post over Prometheus en Thanos zette ik de sidecar architectuur op. Thanos Sidecar draait naast Prometheus, uploadt TSDB blocks naar object storage, en stelt data via gRPC beschikbaar aan de Querier. Voor clusters die in hetzelfde datacenter staan met een dikke, stabiele link naar je centrale infrastructuur is dat heerlijk. Alles pullt. Alles praat met alles. Het leven is goed. Toen begon ik Prometheus op clusters aan de edge te zetten, en werd het leven minder goed. ...

Prometheus en Thanos metrics architectuur visualisatie

Prometheus en Thanos: metrics op schaal

De eerste keer dat iemand me vroeg “was dit vorige maand trager dan nu?”, had ik geen antwoord. Mijn Prometheus onthield maar twee weken. De data die ik nodig had was allang van lokale schijf gevallen en verwijderd. Dat gat is de hele reden dat deze post bestaat. Prometheus is de standaard voor Kubernetes metrics, en met goede reden. Het werkt prachtig, precies tot het moment dat je lange-termijn opslag nodig hebt, of een overzicht over meerdere clusters, of echte hoge beschikbaarheid. Dan loop je tegen de muur. ...