Hoe weet ik of een wijziging in mijn AI-app de kwaliteit verbetert of verslechtert?

Question

Accepted Answer

1. Verzamel echte vragen en het juiste antwoord (of acceptabele varianten). Begin met de top-vragen die je in een live tool ziet, plus tien rand-cases die historisch fout gingen.
2. Kies een eval-tool: Promptfoo, Braintrust, LangSmith, of voor de DIY-route een eigen scriptje met een lijst en een assertion. Voor MKB is Promptfoo een lage drempel.
3. Definieer de scoring: exact-match werkt voor lijsten of structured output, een 'LLM-as-judge' (een sterker model dat bepaalt of het antwoord klopt) werkt voor open antwoorden. Combineer indien mogelijk.
4. Draai de suite bij elke prompt-verandering en bij elke modelwissel. Pin de baseline in je commit-historie zodat regressies zichtbaar zijn.
5. Voeg cases toe wanneer je een fout in productie ziet. Een falen dat je vandaag fixt mag nooit terugkomen zonder dat de eval-suite het ziet.

Wanneer ons inschakelen: 
Wil je dat we de eerste eval-set en pipeline opzetten met jullie eigen prompts en bekende fout-cases, dan kunnen we het in een dag draaiend krijgen.

Hoe weet ik of een wijziging in mijn AI-app de kwaliteit verbetert of verslechtert?

Probeer dit eerst zelf

Wanneer ons inschakelen

Zie ook

Past het bovenstaande niet?

Wie ben je?

Of doe het helemaal niet zelf