We willen spot-instances gebruiken voor batch-werk maar ze worden steeds onderbroken

Question

Accepted Answer

1. Architecteer je workload zo dat een instance halverwege een job kan stoppen zonder data-verlies. Schrijf voortgang naar S3, niet naar lokale disk.
2. Gebruik AWS Batch, EC2 Auto Scaling met Mixed Instances, of Spot Fleet. Niet handmatig spot RunInstances. Mixed Instances spreidt over instance-types en pools.
3. Op Azure: Spot VMs in een Virtual Machine Scale Set met eviction-policy Deallocate. Op GCP: Preemptible of Spot in een MIG.
4. Voor langlopende batch (uren): combineer spot voor de bulk met een paar on-demand-instances als 'verzekering'. 80/20 mix beperkt impact bij massa-eviction.
5. Voor latency-kritisch web of databases: nooit spot. Daar is de besparing niet de operationele pijn waard.

Wanneer ons inschakelen: 
Voor ML-training jobs van 12+ uur op spot is checkpointing niet-triviaal. Even meekijken naar je SageMaker- of Vertex-config kan dagen werk schelen.

We willen spot-instances gebruiken voor batch-werk maar ze worden steeds onderbroken

Probeer dit eerst zelf

Wanneer ons inschakelen

Zie ook

Past het bovenstaande niet?

Wie ben je?

Of doe het helemaal niet zelf