De afgelopen jaren hebben we een snelle opkomst gezien van AI-gebaseerde taalmodellen zoals GPT (Generative Pre-trained Transformer). Deze modellen zijn in staat om mensachtige teksten te genereren die in veel gevallen nauwelijks van echt te onderscheiden zijn. Dankzij de vooruitgang in machine learning en natuurlijke taalverwerking (NLP) zijn deze modellen steeds geavanceerder en krachtiger geworden.
Hoewel AI-taalmodellen zoals GPT veelbelovend zijn voor een breed scala aan toepassingen, waaronder het onderwijs, brengen ze ook enkele uitdagingen met zich mee. In het onderwijs kunnen AI-generatoren worden ingezet om lesmateriaal te ontwikkelen, essays te beoordelen, en individuele leerplannen op te stellen. Echter, er zijn ook risico’s verbonden aan het gebruik van deze geavanceerde technologie in het onderwijs.
Een van de zorgen is het risico op academische oneerlijkheid. Studenten kunnen AI-taalmodellen zoals GPT misbruiken om essays, opdrachten en onderzoeksverslagen te genereren zonder zelf moeite te doen. Dit kan leiden tot een verlies van authenticiteit in het huidige traditionele leerproces en uiteindelijk tot een daling van de onderwijskwaliteit.
Bij Exante zijn we voortdurend bezig met kunstmatige intelligentie en de gevolgen van de ontwikkelingen op dit gebied. De vooruitgangen geboekt door OpenAI zijn van ongekende schaal. Niet kort na dat ChatGPT was uitgebracht zagen wij de vraag naar AI-Detectie tools voor tekst ontstaan. Deze vraag werd vooral beantwoord met detector tools gericht op de Engelse taal. Wij zagen dit als een opportuniteit om een Nederlandse variant te ontwikkelen. Op deze manier is het idee van GPT-Detective ontstaan.
In dit nieuwsartikel schetsen we de weg die is afgelegd om GPT-Detective van een idee tot een volwaardig gerealiseerde oplossing te ontwikkelen. We zullen de ontwikkeling van onze innovatieve AI-detector tool verkennen, van de initiële conceptfase tot de uiteindelijke implementatie.
Van concept tot realisatie
Ons start punt was het creëren van onze eigen Nederlandse dataset met handgeschreven en gegenereerde teksten. Deze dataset hebben we gebruikt om te itereren over de verschillende ideeën die we hadden over mogelijke detectie modellen. De model ideeën zijn deels geïnspireerd uit bestaande wetenschappelijke literatuur. Na meerdere cycles van rapid prototyping hadden wij het eerste minimal viable product (MVP) van ons detectie model klaar. Dit detectie model was geselecteerd omdat deze de hoogste accuraatheid had op onze validatie dataset.

Het model daadwerkelijk implementeren in een gebruiksklare website is een uitdaging dat los staat van data science en machine learning, maar is als nog minstens even belangrijk was voor het success van GPT-Detective. Exante specialiseert zich om naast het bedenken van een data gedreven oplossing deze ook daadwerkelijk te implementeren en gebruiksklaar te maken. Daarom hadden wij al snel de eerste versie van het model geïntegreerd in een website live in productie.
Tegen onze verwachting in was er snel media aandacht voor onze tool. Na op de tv, radio en in de krant verschenen te zijn hadden wij de unieke kans om te leren hoe een AI-gedreven oplossing met veel gebruikers (en pieken in gebruik) kan worden gemanaged. Uitdagingen zoals het gebruiken van de feedback van gebruikers om het model te verbeteren tot aan het beschermen van onze website tegen DoS aanvallen werden met beide handen aangepakt.

Het is spanned om tools zoals deze uit te brengen omdat je nooit zeker weet of de validatie dataset goed vertaald naar het gebruik in productie. Gelukkig is de eerste versie van ons model goed ontvangen (op basis van de gegeven feedback). Dit gaf ons rede om door te ontwikkelen op dit success. Naast het verder ontwikkelen van het model (i.e. detectie op zin niveau), was er de noodzaak om onze service te monetizen. Dit bracht opnieuw nieuwe uitdagingen met zich mee: het schalen van het model gebruikt voor de nieuwe detectie op zinsniveau en het integeren van een betalingsplatform.
Onze CI/CD pipeline heeft erg geholpen om, zelf bij zo een kleinschalig project als GPT-Detective, snel te kunnen itereren en patches te kunnen uitrollen in productie. De eerste versie van onze document scanner volgde daarom snel. In deze versie zat de eerste versie van authenticatie en het model op zinsniveau verweven.

Na het kiezen van ons betalingsplatform en het switchen van ons ontwikkelplatform (van self-hosted naar Firebase), hebben we het prototype van de document detective door ontwikkeld tot een opzichzelfstaand product. Dit product kennen jullie als de huidige versie van GPT-Detective.
Conclusie
De opkomst van AI-gebaseerde taalmodellen zoals GPT heeft geleid tot grote vooruitgang in uiteenlopende toepassingen, maar brengt ook uitdagingen met zich mee, vooral in het onderwijs. GPT-Detective is een innovatieve oplossing die zich richt op het detecteren van door AI gegenereerde teksten om academische oneerlijkheid tegen te gaan en de onderwijskwaliteit te waarborgen. In dit artikel hebben we de ontwikkeling van GPT-Detective verkend, van idee tot product, inclusief de creatie van een Nederlandse dataset, de ontwikkeling van het detectiemodel en de implementatie in een gebruiksvriendelijke website.