Kunstmatige intelligentie vindt zijn weg naar alles, van kattenluiken tot 'slimme' achtertuingrills – en natuurlijk kun je geen moderne bedrijfssoftware openen zonder een soort AI-assistent te zien die wordt aangestuurd door een groot taalmodel (LLM). Maar nu de technologie steeds moeilijker te vermijden is, moeten we misschien eens nadenken over hoe mensen er misbruik van kunnen maken.
We hebben het hier niet over hoe cybercriminelen grote taalmodellen (LLM's) kunnen gebruiken om phishing-e-mails te schrijven of websites te hacken. We kijken eerder naar hoe aanvallers legitieme AI-systemen kunnen compromitteren om gegevens te stelen, misinformatie te verspreiden of zelfs machines op hol te slaan.
De kwetsbaarheden die op de loer liggen in LLM's
Een van de meest voorkomende aanvallen is snelle manipulatie. Aanvallers hebben laten zien hoe ze de beveiligingsmaatregelen van verschillende LLM's (jailbreaking) kunnen omzeilen met behulp van technieken als rollenspel en zelfs onzin invoeren.
Prompt injections kunnen meer doen dan een LLM instructies laten geven voor illegale activiteiten of phishing-e-mails laten schrijven. Onderzoekers hebben ze gebruikt voor data-exfiltratie. Bijvoorbeeld, AI-beveiligingsbedrijf PromptArmor bedrogen De AI-assistent van Slack kan geheimen zoals API-sleutels van privékanalen lekken.
Prompt engineering creëert mogelijkheden voor datadiefstal. AI-systemen kunnen onbedoeld gevoelige data blootstellen via bugs of ontwerpfouten. Soms kunnen dit storingen zijn, zoals wanneer een ChatGPT-bug gelekt persoonlijke informatie van gebruikers, waaronder betalingsgegevens, in maart 2023. Andere aanvallen maken gebruik van promptinjectie met sluwe tactieken, zoals het wijzigen van tekst, zodat een kwaadaardige prompt een LLM overhaalt om gegevens te overhandigen, terwijl deze voor menselijke slachtoffers onbegrijpelijk is.
In sommige scenario's kunnen onderzoekers prompt engineering gebruiken om de originele trainingsdata van het model bloot te leggen. Bij een model inversion-aanval kan een tegenstander de LLM ondervragen, de antwoorden gebruiken om dingen over de trainingsdata af te leiden en uiteindelijk een deel van die data achteraf te reverse engineeren.
Sommigen hebben voorgesteld om modelinversie te gebruiken om nauwe benaderingen van de afbeeldingen te extraheren die worden gebruikt om gezichtsherkenningsmodellen te trainen. Dit riskeert het identificeren van gevoelige of kwetsbare personen of het verlenen van ongeautoriseerde toegang tot bronnen.
Het hoeft niet alleen tekstuele invoer te zijn die schadelijke resultaten oplevert. Afbeeldingen en andere gegevens kunnen ook nadelige effecten hebben op AI. Zo hebben onderzoekers zelfrijdende auto's gedwongen om stopborden te negeren door stickers toevoegen en om stopborden te zien die er niet zijn een paar frames op een billboard projecteren – wat beide rampzalige gevolgen op de weg kan hebben.
Vergiftiging stroomopwaarts
Aanvallers kunnen ook verder stroomopwaarts met AI-workflows knoeien door de data te vergiftigen waar AI-systemen van leren. Dit kan de manier waarop het model zich gedraagt veranderen, waardoor de eindresultaten vervuild raken. Sommige van deze aanvallen worden om economische of politieke redenen uitgevoerd. Onderzoekers hebben één tool ontwikkeld, Nachtschade, om kunstenaars te helpen hun digitale afbeeldingen subtiel te veranderen door onzichtbare pixels in te voegen als protest tegen LLM-training op auteursrechtelijk beschermd materiaal. Dit zorgt ervoor dat beeldgeneratieprogramma's onvoorspelbare resultaten opleveren.
Datavergiftiging hoeft niet wijdverbreid te zijn om effect te hebben, en wanneer het wordt toegepast op specifieke datasets zoals die worden gebruikt in medische systemen, kunnen de resultaten catastrofaal zijn. Eén onderzoek gevonden dat het wijzigen van slechts 0.001% van de trainingstokens met medische misinformatie de kans op medische fouten aanzienlijk verhoogde.
Naarmate AI het dagelijks leven blijft doordringen, neemt de kans toe dat systeemcompromissen de maatschappij beïnvloeden. Een sluwe aanvaller kan van alles doen, van het creëren van desinformatie tot het veroorzaken van ongelukken op de weg, het beïnvloeden van veiligheidskritieke beslissingen op gebieden zoals geneeskunde, of het verhinderen dat AI frauduleuze transacties detecteert.
AI-modellen beschermen
De mogelijkheden voor AI-compromissen zijn wijdverbreid genoeg – en hun vertakkingen groot genoeg – dat een veelzijdige benadering van AI-bestuur cruciaal is. ISO 42001 , een internationale standaard voor AI-beheersystemen, hanteert een holistische benadering, inclusief gebieden zoals de organisatorische context van AI en de betrokkenheid van leiderschap. Het omvat ook planning, ondersteuning, werking en voortdurende evaluatie en verbetering. Het dicteert de ontwikkeling van technische specificaties, inclusief beveiliging en datakwaliteit, samen met de documentatie van beveiligingsprotocollen om te beschermen tegen bedreigingen zoals datavergiftiging en modelinversie-aanvallen.
Overheden zijn overgegaan tot het opleggen van veiligheidsbeperkingen aan AI. De AI-wet van de EU vereist een conformiteitsbeoordeling voor systemen met een hoog risico, wat inhoudt dat er moet worden voldaan aan testvereisten die nog in ontwikkeling zijn. In de VS had het National Institute of Standards and Technology (NIST) al een AI-risicobeheerkader (RMF) voordat de Biden-regering in oktober 14110 haar Executive Order 2023 over AI-veiligheid publiceerde (nu ingetrokken door de Trump-regering). Dit riep op tot een aanvullende generatieve AI-risicomanagementbron, die NIST gepubliceerde afgelopen juni.
In tegenstelling tot NIST's AI RMF is ISO 42001 certificeerbaar. En terwijl NIST zich sterk richt op de veiligheid en beveiliging van AI-systemen, onderzoekt ISO 42001 hun rol binnen een bredere zakelijke context.
Waarom AI-bestuur nu belangrijk is
Frameworks als deze worden steeds belangrijker naarmate aanbieders van fundamentele LLM-modellen zich haasten om nieuwe functies te bieden die consumenten versteld doen staan. Daarmee vergroten ze het aanvalsoppervlak van de AI-modellen, waardoor beveiligingsonderzoekers nieuwe exploits kunnen vinden. Bedrijven als OpenAI en Google hebben bijvoorbeeld langetermijngeheugenmogelijkheden in hun LLM's geïntroduceerd, waardoor ze gebruikers beter kunnen leren kennen en betere resultaten kunnen leveren. Hierdoor kon onderzoeker Johann Rehberger prompt injection gebruiken die plant valse langetermijngeheugens in Google's Gemini LLM.
Het is ook de moeite waard om de beveiliging van AI-modellen te onderzoeken in de context van basale cyberhygiëne. In januari 2025 onthulden onderzoekers een datalek bij de in China ontwikkelde fundamentele LLM DeepSeek, die de verbeelding van het publiek prikkelde met zijn hoge prestaties. De oorzaak van het datalek had niets te maken met prompt engineering, modelinversie of magische AI-mogelijkheden; het kwam voort uit een openbaar toegankelijke clouddatabase met chatgeschiedenissen en gebruikersgegevens. In de opwindende nieuwe wereld van AI zijn sommige van de meest schadelijke kwetsbaarheden deprimerend ouderwets.










