We willen spot-instances gebruiken voor batch-werk maar ze worden steeds onderbroken
Spot is 70-90 procent goedkoper, met als prijs dat je instance op elk moment 2 minuten waarschuwing krijgt voor terminate. Voor stateless batch-werk is dat oké, voor stateful systemen niet.
Probeer dit eerst zelf
- 1Architecteer je workload zo dat een instance halverwege een job kan stoppen zonder data-verlies. Schrijf voortgang naar S3, niet naar lokale disk.
- 2Gebruik AWS Batch, EC2 Auto Scaling met Mixed Instances, of Spot Fleet. Niet handmatig spot RunInstances. Mixed Instances spreidt over instance-types en pools.
- 3Op Azure: Spot VMs in een Virtual Machine Scale Set met eviction-policy Deallocate. Op GCP: Preemptible of Spot in een MIG.
- 4Voor langlopende batch (uren): combineer spot voor de bulk met een paar on-demand-instances als 'verzekering'. 80/20 mix beperkt impact bij massa-eviction.
- 5Voor latency-kritisch web of databases: nooit spot. Daar is de besparing niet de operationele pijn waard.
Wanneer ons inschakelen
Voor ML-training jobs van 12+ uur op spot is checkpointing niet-triviaal. Even meekijken naar je SageMaker- of Vertex-config kan dagen werk schelen.
Zie ook
- Iedereen logt in met het root-account van AWSHet root-account is voor noodgevallen en facturatie. Dagelijks werk hoort via IAM-users of SSO.
- Iedere developer heeft AdministratorAccessAdministratorAccess overal is gemak nu, drama later. Begin met rolgebaseerde policies.
- Iedereen heeft losse IAM-users met eigen wachtwoordIdentity Center (voorheen AWS SSO) koppelt aan je IdP en geeft tijdelijke credentials per sessie.
Past het bovenstaande niet?
Beschrijf je situatie hieronder. We sturen jouw input plus de stappen die je al zag naar onze AI en geven gericht vervolg-advies. Als het te risicovol is om zelf te doen, zeggen we dat ook.
Of doe het helemaal niet zelf
Onze Managed IT-klanten zoeken dit soort vragen niet op. Eén aanspreekpunt, vaste prijs per maand, en het is binnen werktijd opgelost.