Niels Roest
Productie-AIArtikel

Waarom de meeste AI-pilots stranden — en wat de uitzondering anders doet

De cijfers zijn somber, maar de oorzaak is bemoedigend: pilots sneuvelen zelden op het model, en bijna altijd op integratie, probleemkeuze en de sprong naar productie.

24 juni 2026 · 10 min leestijd · Productie-AI
In het kort

“95% van de AI-pilots faalt” is de meest geciteerde — en meest verkeerd begrepen — AI-statistiek van 2025. Hij komt uit een voorlopig MIT-onderzoek en gaat over rendement op maatwerk-AI, niet over “AI werkt niet”. Generieke tools zoals ChatGPT halen juist 80%+ adoptie. De kloof zit tussen pilot en productie — in integratie, niet in het model. Dat is slecht nieuws voor wie een experiment draait, en goed nieuws voor wie production-first bouwt.

Wat “95% van de AI-pilots faalt” écht betekent

Eind 2025 ging één cijfer de hele wereld over: 95% van de AI-pilots faalt. Het komt uit The GenAI Divide: State of AI in Business 2025, een voorlopig rapport (v0.1, juli 2025) van onderzoekers verbonden aan MIT (Project NANDA). De precieze bevinding: 95% van de organisaties zag géén meetbaar rendement op maatwerk- of enterprise-GenAI, en slechts ~5% van die pilots haalde productie met aantoonbare P&L-impact — ondanks zo'n $30–40 miljard aan investeringen.

Lees het cijfer goed, want het wordt structureel verkeerd geciteerd. Het betekent niet “AI werkt niet” en het is geen bewijs van een zeepbel. De noemer is maatwerk- en enterprise-initiatieven; generieke tools zoals ChatGPT en Copilot halen 80%+ adoptie met brede productiviteitswinst die het rapport bewust buiten zijn P&L-meting houdt. De onderzoekers zijn expliciet: de scheidslijn wordt bepaald door de aanpak — integratie en leren — niet door modelkwaliteit of regelgeving.

POC-purgatory: de kloof tussen pilot en productie

Het echte probleem zit niet in het bóuwen van een pilot, maar in de sprong daarna. Diezelfde MIT-data laat een onverbiddelijke trechter zien voor maatwerk-GenAI:

60%
evalueert maatwerk-GenAI
20%
haalt de pilotfase
5%
haalt productie

Gartner ziet hetzelfde patroon langs een andere meetlat: in een enquête haalt gemiddeld 48% van de AI-projecten überhaupt productie, en de weg van prototype naar productie duurt zo'n acht maanden. En Gartner voorspelde dat minstens 30% van de GenAI-projecten na de proof-of-concept zou worden gestaakt vóór eind 2025 — een drempel die volgens latere Gartner-cijfers ruim is overschreden (meer dan 50%). De dood vindt plaats tussen pilot en productie.

Waarom pilots sterven: de ‘learning gap’

Waaróm stranden ze daar? Het MIT-rapport is er stellig over: “De kernbarrière voor opschalen is niet infrastructuur, regelgeving of talent. Het is leren.” De meeste GenAI-systemen onthouden geen feedback, passen zich niet aan de context aan en verbeteren niet over tijd. Een geïnterviewde verwoordt het zo: het leert niet van onze feedback en maakt steeds dezelfde fouten. Voor complex, hoog-risico werk verkiezen gebruikers de mens dan ook met 9 tegen 1.

Dat de techniek op zich wél werkt, blijkt uit een opvallend contrast. Slechts ~40% van de bedrijven kocht een officiële AI-licentie, maar bij meer dan 90% van de onderzochte bedrijven gebruiken medewerkers dagelijks persoonlijke AI-tools voor hun werk — de zogeheten “shadow AI economy”. Informeel gebruik levert vaak méér op dan de formele trajecten. De conclusie is ongemakkelijk: het zijn niet de modellen die stranden, maar de manier waarop organisaties ze inkopen en integreren.

Het ligt niet aan het model, maar aan de organisatie

RAND onderzocht dit van de andere kant en interviewde 65 datawetenschappers en -engineers (RR-A2680-1, 2024). De uitkomst: 84% wees op leiderschaps-gedreven oorzaken als de primaire reden dat AI-projecten falen. Bovenaan staat het verkeerd begrijpen of communiceren van het probleem dat de AI moet oplossen — volgens RAND veroorzaakt dat meer mislukkingen dan welke andere factor ook.

RAND’s vijf hoofdoorzaken, in volgorde, zijn overwegend organisatorisch — niet technisch:

  • Het probleem wordt verkeerd begrepen of gecommuniceerd.
  • Er is te weinig data om het model te trainen.
  • Men jaagt op de nieuwste technologie in plaats van een echt gebruikersprobleem.
  • De data- en deployment-infrastructuur schiet tekort.
  • AI wordt losgelaten op een probleem dat het (nog) niet aankan.

De vaak geciteerde regel dat “meer dan 80% van de AI-projecten faalt — ongeveer twee keer zo vaak als niet-AI-IT-projecten” is overigens een branche-schatting die RAND aanháált, niet zelf heeft gemeten. Behandel het als richting, niet als exacte wet. De rode draad blijft staan: falen is vooral een kwestie van probleemkeuze, data en workflow — precies wat een ingebedde engineer aanpakt — niet van modelintelligentie.

De kosten-en-waarde-val

Gartner noemt vier terugkerende redenen waarom een proof-of-concept sneuvelt: slechte datakwaliteit, gebrekkige risicobeheersing, oplopende kosten en onduidelijke businesswaarde. Vooral dat kostenpunt onderschatten organisaties: een ambitieus traject dat het businessmodel wil transformeren loopt volgens Gartner van $5 miljoen tot $20 miljoen, en de kosten zijn minder voorspelbaar dan bij andere technologie.

Daar komt een klassieke misallocatie bij. Volgens MIT ging zo'n 70% van de AI-budgetten naar sales en marketing — de zichtbare demo's — terwijl het hogere rendement in de saaiere back-office-automatisering zat. Wie begint waar het geld het hardst roept in plaats van waar het rendement zit, bouwt een pilot die het nooit waard wordt om op te schalen.

Hype versus realiteit: agentic AI en ‘agent washing’

De volgende golf — agentic AI — dreigt dezelfde fout te herhalen, maar groter. Gartner voorspelt dat meer dan 40% van de agentic-AI-projecten vóór eind 2027 wordt geannuleerd, opnieuw door oplopende kosten, onduidelijke waarde en gebrekkige risicobeheersing. Gartner schat bovendien dat van de duizenden “agentic” leveranciers er maar zo'n 130 echt zijn; de rest doet aan “agent washing”: bestaande assistenten, RPA en chatbots herlabelen zonder echte agent-capaciteiten.

Tegelijk is adoptie geen succes. Gartner verwacht dat 80%+ van de bedrijven in 2026 GenAI gebruikt — maar “een API aanroepen” is iets anders dan rendement halen. Eerlijk is eerlijk: Gartner is op langere termijn ook optimistisch (richting 2028 zou 15% van de dagelijkse beslissingen autonoom genomen worden en 33% van de bedrijfssoftware agentic zijn). De techniek gaat door. De vraag is of úw traject bij de uitzondering hoort die productie haalt.

Wat de uitzondering anders doet

De ~5% die het wél haalt, doet een paar dingen consequent anders. Ze zijn geen toeval; ze zijn een aanpak:

  • Production-first, niet pilot-first: vanaf dag één een productie-deployment met meetbare KPI’s, niet een experiment dat ‘misschien later’ live gaat.
  • Ingebed om het probleem goed te krijgen: de grootste faaloorzaak (RAND) is het verkeerd begrijpen van het probleem. Wie naast de gebruikers zit, haalt die fout aan de bron weg.
  • Integratie in de échte workflow, met een feedbacklus die het systeem laat leren — precies de ‘learning gap’ die MIT als breekpunt aanwijst.
  • Fundamenten boven model: Gartner vond dat succesvolle organisaties tot 4x meer investeren (als % van de omzet) in datakwaliteit, governance, AI-vaardige mensen en verandermanagement.
  • Beginnen waar het rendement zit (vaak de back-office), niet waar de demo het mooist oogt.

Dat is precies het Forward Deployed-model waarmee ik werk: ingebed in uw bedrijf, production-first, met menselijke regie in het ontwerp — geen rapport, geen eindeloze pilot, maar een werkend systeem in 90 dagen. Niet omdat 90 dagen een trucje is, maar omdat de meeste pilots niet sneuvelen op tijdsgebrek; ze sneuvelen omdat ze nooit als productie-systeem werden opgezet.

Eerlijk: wat deze cijfers wél en niet bewijzen

Een artikel over verkeerd geciteerde cijfers mag zelf niet selectief winkelen. Dus de eerlijkheid erbij:

  • Het MIT-rapport is voorlopig (v0.1) en zelf gepubliceerd, met een bescheiden, deels zelf-geselecteerde steekproef — en het rapport bepleit agentic AI met geheugen als oplossing, precies wat Project NANDA zelf bouwt. Lees het als richting, niet als eindoordeel.
  • Vrijwel alle Gartner-getallen zijn voorspellingen, geen gemeten uitkomsten — en Gartner is tegelijk somber op korte en optimistisch op langere termijn.
  • ‘Kopen verslaat bouwen’ is correlatie binnen een kleine steekproef; het rapport waarschuwt zelf dat het geen oorzaak bewijst.
  • Succes wordt over verschillende vensters gemeten. Een traject van 90 dagen bewijst sommige dingen meteen; ander rendement bouwt zich pas daarná op. Daar ben ik liever eerlijk over dan dat ik te veel beloof.

Waar te beginnen — voor zorg en finance

Voor zorg- en finance-organisaties — waar beslissingen zwaar wegen en gebruikers de mens met 9 tegen 1 verkiezen — geldt dit alles dubbel. Begin niet met een breed “AI-programma”, maar met één scherp afgebakend, meetbaar probleem in de back-office waar het rendement zit. Zorg eerst dat de data en de governance staan, integreer in de bestaande workflow, en bouw menselijke regie in bij elke beslissing die ertoe doet. Eén werkend systeem dat productie haalt, is meer waard dan vijf pilots die in POC-purgatory blijven hangen.

Heeft u een AI-pilot die blijft hangen, of wilt u er één starten die wél productie haalt? In een Discovery breng ik in 2–4 weken in kaart welk probleem het waard is, of de data en workflow er klaar voor zijn, en hoe het pad naar productie eruitziet — inclusief een eerlijke “hier nog géén AI”-lijst.

Veelgestelde vragen.

Klopt het dat 95% van de AI-projecten mislukt?

Het cijfer komt uit een voorlopig MIT-onderzoek (Project NANDA, juli 2025) en betekent iets specifiekers dan ‘AI werkt niet’: 95% van de organisaties zag géén meetbaar rendement (P&L-impact) op maatwerk- of enterprise-GenAI. Generieke tools zoals ChatGPT en Copilot halen juist 80%+ adoptie. Het probleem zit niet in de techniek, maar in het opschalen naar productie.

Waarom stranden AI-pilots meestal?

Zelden op het model. Volgens RAND (2024) zijn de hoofdoorzaken organisatorisch: het probleem wordt verkeerd begrepen of gecommuniceerd, er is te weinig of te slechte data, men jaagt op de nieuwste technologie in plaats van een echt probleem, de infrastructuur om te deployen ontbreekt, of AI wordt losgelaten op een probleem dat het (nog) niet aankan. MIT noemt daarbovenop een ‘learning gap’: systemen die niet leren van feedback en zo blijven steken.

Wat is ‘POC-purgatory’?

De fase waarin een proof-of-concept blijft hangen en nooit productie haalt. In het MIT-onderzoek evalueert 60% van de organisaties maatwerk-GenAI, haalt 20% de pilot, maar bereikt slechts 5% de productie. De sprong van pilot naar productie — niet het bouwen van de pilot — is waar het misgaat.

Kun je beter AI bouwen of kopen?

MIT vond dat extern ingekochte of in partnerschap gebouwde tools ~66% van de geslaagde implementaties vormden, tegen ~33% voor volledig zelf gebouwde — en dat partner-pilots ~2x vaker productie haalden. Belangrijk: dat is correlatie binnen een kleine steekproef, geen bewijs van oorzaak. De les is niet ‘koop altijd’, maar: combineer externe bouwkracht met interne context.

Hoe voorkom je dat je AI-pilot strandt?

Bouw production-first (meetbare KPI’s vanaf dag één), kies één scherp afgebakend probleem, zorg eerst voor data- en deployment-fundament, integreer in de échte workflow met een feedbacklus, en houd menselijke regie bij beslissingen die ertoe doen. Kortom: behandel het als een productie-systeem, niet als een experiment.