Sla over naar inhoud

Hoe weet ik of een wijziging in mijn AI-app de kwaliteit verbetert of verslechtert?

Zonder eval-suite verander je een prompt, het 'voelt' beter, en je weet pas weken later dat 30 procent van een rand-case nu fout gaat. Een eval-suite is een lijst input-output-paren die je bij elke verandering draait, zoals unit-tests voor LLM-output. Begin klein, twintig tot vijftig cases is al een wereld van verschil.

Probeer dit eerst zelf

  1. 1Verzamel echte vragen en het juiste antwoord (of acceptabele varianten). Begin met de top-vragen die je in een live tool ziet, plus tien rand-cases die historisch fout gingen.
  2. 2Kies een eval-tool: Promptfoo, Braintrust, LangSmith, of voor de DIY-route een eigen scriptje met een lijst en een assertion. Voor MKB is Promptfoo een lage drempel.
  3. 3Definieer de scoring: exact-match werkt voor lijsten of structured output, een 'LLM-as-judge' (een sterker model dat bepaalt of het antwoord klopt) werkt voor open antwoorden. Combineer indien mogelijk.
  4. 4Draai de suite bij elke prompt-verandering en bij elke modelwissel. Pin de baseline in je commit-historie zodat regressies zichtbaar zijn.
  5. 5Voeg cases toe wanneer je een fout in productie ziet. Een falen dat je vandaag fixt mag nooit terugkomen zonder dat de eval-suite het ziet.

Wanneer ons inschakelen

Wil je dat we de eerste eval-set en pipeline opzetten met jullie eigen prompts en bekende fout-cases, dan kunnen we het in een dag draaiend krijgen.

Zie ook

Past het bovenstaande niet?

Beschrijf je situatie hieronder. We sturen jouw input plus de stappen die je al zag naar onze AI en geven gericht vervolg-advies. Als het te risicovol is om zelf te doen, zeggen we dat ook.

Wie ben je?

Voor de AI-vraag hebben we je e-mailadres en bedrijfsnaam nodig, zo kunnen we opvolgen als de AI er niet uitkomt, en voorkomt het misbruik van de tool.

Maximaal 2 vragen per uur en 5 per dag, bewust beperkt zodat de AI snel en goed blijft. Voor meer help je jezelf en ons door direct contact op te nemen.

Of doe het helemaal niet zelf

Onze Managed IT-klanten zoeken dit soort vragen niet op. Eén aanspreekpunt, vaste prijs per maand, en het is binnen werktijd opgelost.