Sla over naar inhoud

Hoe knip ik mijn documenten op zodat AI er goede antwoorden uit haalt?

Te grote chunks geven veel context-ruis en verspillen tokens. Te kleine chunks verliezen de samenhang waardoor het antwoord uit fragmenten wordt geplakt. De vuistregel is een chunk-grootte rond 500 tot 1000 tokens met 10 tot 20 procent overlap, en chunks die respect houden voor structuur (alinea's, koppen).

Probeer dit eerst zelf

  1. 1Begin met een structurele splitsing: per kop of paragraaf, niet per vast aantal karakters. Als je platte tekst hebt zonder koppen, splits op alinea-grenzen.
  2. 2Stel een doelgrootte van ongeveer 800 tokens per chunk in, met overlap van 100 tot 200 tokens. Overlap voorkomt dat een feit precies op de scheidingslijn valt en versplintert.
  3. 3Voeg per chunk een metadata-blok toe: bron-bestand, kop-pad, datum, auteur. Dat geeft de query-laag genoeg om filters of bronvermeldingen te bouwen.
  4. 4Test met vragen die op de overgang van chunks vallen. Vooral lijsten en tabellen breken vaak. Voeg eventueel een tweede pass toe waarin tabellen als één chunk blijven.
  5. 5Re-chunk als je merkt dat antwoorden brokkelig of ongericht zijn. Chunking is niet eenmalig: het is de hyperparameter die je het vaakst tweakt.

Wanneer ons inschakelen

Werk je met PDF's met complexe layout, tabellen of formulieren, dan helpt een specifieke ingest-tool (Unstructured, LlamaParse). We kunnen meekijken naar de juiste keuze.

Zie ook

Past het bovenstaande niet?

Beschrijf je situatie hieronder. We sturen jouw input plus de stappen die je al zag naar onze AI en geven gericht vervolg-advies. Als het te risicovol is om zelf te doen, zeggen we dat ook.

Wie ben je?

Voor de AI-vraag hebben we je e-mailadres en bedrijfsnaam nodig, zo kunnen we opvolgen als de AI er niet uitkomt, en voorkomt het misbruik van de tool.

Maximaal 2 vragen per uur en 5 per dag, bewust beperkt zodat de AI snel en goed blijft. Voor meer help je jezelf en ons door direct contact op te nemen.

Of doe het helemaal niet zelf

Onze Managed IT-klanten zoeken dit soort vragen niet op. Eén aanspreekpunt, vaste prijs per maand, en het is binnen werktijd opgelost.