On-premises documentverwerking: wat kost het en wanneer loont het?
Voor zorg, overheid en organisaties met gevoelige data is data niet naar de cloud sturen geen luxe maar een vereiste. Wat een eigen-beheer opzet kost, en wanneer het zichzelf terugverdient.
Voor ziekenhuizen, overheidsorganisaties, advocatenkantoren met geheime cliëntdata, R&D-afdelingen van pharma en defensie, en een groeiende groep MKB-bedrijven met patiëntgegevens of klantgegevens onder strikte regels is data niet naar de cloud sturen geen luxe meer maar een vereiste. Tegelijk hebben die organisaties wel een echte werklast: documentanalyse, samenvattingen, classificatie, of medische beelden verwerken. De vraag is: wat kost het om dat in eigen beheer te draaien, en wanneer verdient zich dat terug?
Wat een typisch project inhoudt.
Een on-prem opzet bestaat uit vier lagen: hardware, model, applicatielaag (RAG, chat, integratie) en operatie (onderhoud, updates, monitoring).
Hardware. Voor inference op een open-source model in de klasse van Llama 3 70B of Qwen 3 32B (de modellen waarmee je productiewerk doet) is een server met één tot vier GPU's nodig. Een single-GPU werkstation met een RTX 6000 Ada of een refurbished A100 ligt rond de 12.000 tot 25.000 euro. Een multi-GPU server voor zwaarder werk of meerdere gelijktijdige gebruikers ligt tussen 60.000 en 150.000 euro. Voor lichtere modellen (Llama 3 8B, Mistral) volstaan Mac Studio's of consumer-GPU's vanaf 5.000 tot 10.000 euro.
Software is meestal kosteloos: vLLM, Ollama of llama.cpp voor inference, een open-source LLM, een orchestratie-laag en een vector-database voor RAG. Geen licentiekosten, wel implementatietijd.
Het project zelf, ruwweg.
Discovery en requirements: 1-2 weken. Welke use-cases mogen daadwerkelijk on-prem, welke data komt erin, hoeveel concurrent gebruikers, welke acceptatie-eisen.
Hardware-keuze en inkoop: 2-4 weken (levertijden inbegrepen).
Model-selectie en benchmarking: 1-2 weken. Welk open-source model levert acceptabele kwaliteit op de specifieke use-cases.
Applicatielaag (RAG-pipeline, chat-interface, integratie met bestaande systemen): 2-6 weken afhankelijk van complexiteit.
Pilot, hardening, acceptatie-test, documentatie en overdracht: 2-3 weken.
Totaal: 8 tot 16 weken vanaf akkoord tot productie. Engineering-kosten daarbij komen op 40.000 tot 90.000 euro afhankelijk van scope (4 tot 9 weken senior engineering tegen ons dagtarief).
Totale upfront-investering, breed gesproken: 60.000 tot 200.000 euro. Daarna ongeveer 1.500 tot 3.500 euro per maand aan operationele kosten (hardware-onderhoud, model-updates, monitoring, support).
Wanneer betaalt zich dat terug.
Optie 1: vergeleken met commerciële cloud-API's. Een organisatie die maandelijks honderdduizenden tot miljoenen tokens verstookt op een commercieel API (zoals voor documentanalyse op schaal) betaalt al snel 5.000 tot 20.000 euro per maand. Bij dat volume is een eigen opzet binnen 12 tot 24 maanden gelijk in totale kosten, en daarna structureel goedkoper. Bij lager volume duurt break-even langer of komt het er niet.
Optie 2: vergeleken met "we mogen het niet". Een ziekenhuis dat patiëntdossiers wil laten samenvatten mag dat (terecht) niet via een Amerikaanse cloud-API. De keuze is niet "lokaal of cloud", de keuze is "lokaal of helemaal niet". In dat geval is de zinvolle vergelijking de tijd die specialisten besparen aan administratie, niet een API-tarief.
Optie 3: compliance en risico-reductie. Voor organisaties onder NIS2 of sectorale toezicht (NVWA, AFM, IGJ) is data-soevereiniteit een audit-eis. De alternatief-kosten zijn hier niet alleen geld, maar audit-bevindingen, boetes en reputatie-effect.
Waar wij van toegevoegde waarde zijn.
Wij zijn niet de partij die de zwaarste GPU-cluster bouwt. Wel: hardware-keuze die past bij het werk (vaak véél kleiner dan organisaties zelf inschatten), de RAG-pipeline en chat-interface, integratie met bestaande systemen, en de monitoring zodat je weet dat het draait. Voor de zwaarste enterprise-deployments werken we samen met gespecialiseerde leveranciers; voor MKB-tot-middelgrote organisaties draaien we het end-to-end zelf.
Geen vendor-lock. De stack is open source. Als wij morgen weg zijn loopt het door op jullie eigen hardware met jullie eigen team.