Hoe weet ik of een wijziging in mijn AI-app de kwaliteit verbetert of verslechtert?
Zonder eval-suite verander je een prompt, het 'voelt' beter, en je weet pas weken later dat 30 procent van een rand-case nu fout gaat. Een eval-suite is een lijst input-output-paren die je bij elke verandering draait, zoals unit-tests voor LLM-output. Begin klein, twintig tot vijftig cases is al een wereld van verschil.
Probeer dit eerst zelf
- 1Verzamel echte vragen en het juiste antwoord (of acceptabele varianten). Begin met de top-vragen die je in een live tool ziet, plus tien rand-cases die historisch fout gingen.
- 2Kies een eval-tool: Promptfoo, Braintrust, LangSmith, of voor de DIY-route een eigen scriptje met een lijst en een assertion. Voor MKB is Promptfoo een lage drempel.
- 3Definieer de scoring: exact-match werkt voor lijsten of structured output, een 'LLM-as-judge' (een sterker model dat bepaalt of het antwoord klopt) werkt voor open antwoorden. Combineer indien mogelijk.
- 4Draai de suite bij elke prompt-verandering en bij elke modelwissel. Pin de baseline in je commit-historie zodat regressies zichtbaar zijn.
- 5Voeg cases toe wanneer je een fout in productie ziet. Een falen dat je vandaag fixt mag nooit terugkomen zonder dat de eval-suite het ziet.
Wanneer ons inschakelen
Wil je dat we de eerste eval-set en pipeline opzetten met jullie eigen prompts en bekende fout-cases, dan kunnen we het in een dag draaiend krijgen.
Zie ook
- Mag ik een klantbestand of mail in ChatGPT plakken?Hangt af van het account en de instellingen. Een gratis ChatGPT en een Team-tenant gedragen zich anders dan veel mensen denken.
- Ik wil één pagina AI-beleid voor mijn teamEen echte one-pager werkt beter dan een dik document dat niemand leest. Vier kopjes en concrete voorbeelden.
- Hoe weet ik of een AI-antwoord verzonnen is?Modellen klinken zelfverzekerd, ook als ze fout zijn. Een paar vaste checks vangen de meeste fouten af.
Past het bovenstaande niet?
Beschrijf je situatie hieronder. We sturen jouw input plus de stappen die je al zag naar onze AI en geven gericht vervolg-advies. Als het te risicovol is om zelf te doen, zeggen we dat ook.
Of doe het helemaal niet zelf
Onze Managed IT-klanten zoeken dit soort vragen niet op. Eén aanspreekpunt, vaste prijs per maand, en het is binnen werktijd opgelost.