Sla over naar inhoud

We willen spot-instances gebruiken voor batch-werk maar ze worden steeds onderbroken

Spot is doorgaans 60-90 procent goedkoper dan on-demand, met als prijs dat je instance op elk moment 2 minuten waarschuwing krijgt voor terminate. Voor stateless batch-werk is dat oké, voor stateful systemen niet.

Probeer dit eerst zelf

  1. 1Architecteer je workload zo dat een instance halverwege een job kan stoppen zonder data-verlies. Schrijf voortgang naar S3, niet naar lokale disk.
  2. 2Gebruik AWS Batch, EC2 Auto Scaling met Mixed Instances, of Spot Fleet. Niet handmatig spot RunInstances. Mixed Instances spreidt over instance-types en pools.
  3. 3Op Azure: Spot VMs in een Virtual Machine Scale Set met eviction-policy Deallocate. Op GCP: Preemptible of Spot in een MIG.
  4. 4Voor langlopende batch (uren): combineer spot voor de bulk met een paar on-demand-instances als 'verzekering'. 80/20 mix beperkt impact bij massa-eviction.
  5. 5Voor latency-kritisch web of databases: nooit spot. Daar is de besparing niet de operationele pijn waard.

Wanneer ons inschakelen

Voor ML-training jobs van 12+ uur op spot is checkpointing niet-triviaal. Even meekijken naar je SageMaker- of Vertex-config kan dagen werk schelen.

Zie ook

Past het bovenstaande niet?

Beschrijf je situatie hieronder. We sturen jouw input plus de stappen die je al zag naar onze AI en geven gericht vervolg-advies. Als het te risicovol is om zelf te doen, zeggen we dat ook.

Wie ben je?

Voor de AI-vraag hebben we je e-mailadres en bedrijfsnaam nodig, zo kunnen we opvolgen als de AI er niet uitkomt, en voorkomt het misbruik van de tool.

Maximaal 2 vragen per uur en 5 per dag, bewust beperkt zodat de AI snel en goed blijft. Voor meer help je jezelf en ons door direct contact op te nemen.

Of doe het helemaal niet zelf

Onze Managed IT-klanten zoeken dit soort vragen niet op. Eén aanspreekpunt, vaste prijs per maand, en het is binnen werktijd opgelost.