Belangrijkste conclusies uit de nieuwe richtlijn van NIST over vijandige AI-bedreigingen

22 februari 2024

Inhoudsopgave:

1) Vier soorten aanvallen
2) Hoe u deze aanvallen kunt beperken
3) Een bredere context creëren
4) Er is nog meer werk te doen

Er bestaat een concept in de kunstmatige intelligentie (AI) genaamd ‘alignment’, dat ervoor zorgt dat een AI-systeem altijd de menselijke intenties en waarden volgt. Maar wat gebeurt er als iemand een AI-systeem compromitteert om iets te doen wat de makers niet wilden?

Voorbeelden van deze dreiging, bekend als vijandige AI, variëren van het dragen van make-up die opzettelijk gezichtsherkenningssystemen misleidt, tot het voor de gek houden van autonome auto's om de weg over te steken. Het is een gebied met potentieel risico voor bouwers van AI-systemen en hun gebruikers, maar veel van het onderzoek eromheen is nog steeds academisch.

In januari publiceerde het Amerikaanse National Institute of Standards and Technology (NIST) een document waarin werd geprobeerd dit onderzoek te destilleren. Het is een lang project geweest. Het eerste ontwerp van Tegenstrijdig machinaal leren: een taxonomie en terminologie van aanvallen en mitigaties verscheen in 2019. Deze nieuwste versie is de laatste en zou een belangrijk basisdocument kunnen zijn voor AI-ontwikkelaars die graag oplossingen in hun producten willen inbouwen.

Vier soorten aanvallen

De taxonomie verdeelt vijandige AI-aanvallen in verschillende categorieën:

1) Misbruikaanvallen

Deze gebeuren voordat de modeltraining zelfs maar begint, door met gegevens te knoeien voordat deze worden verzameld, waardoor het model valse of manipulatieve gegevens krijgt die zijn ontworpen om de resultaten ervan te beïnvloeden. In tegenstelling tot de andere vormen is deze aanvalsvorm uniek voor generatieve AI-systemen (GenAI).

We hebben hiervan al enkele innovatieve voorbeelden gezien in de strijd om intellectueel eigendom in GenAI. Nachtschade, een project van onderzoekers van de Chicago University, is een hulpmiddel dat kunstenaars en illustratoren kunnen gebruiken om hun werk online subtiel aan te passen zonder de visuele ervaring voor kijkers te veranderen.

De veranderingen van Nightshade zorgen ervoor dat GenAI-trainingsmodellen objecten daarin verkeerd interpreteren (een koe kan bijvoorbeeld als een broodrooster worden beschouwd). Dit verwart GenAI-modellen die afhankelijk zijn van die trainingsgegevens om ‘nieuw’ artwork te creëren. Nightshade pakt wat het team ziet als ongeoorloofde diefstal van gegevens voor trainingsdoeleinden aan door het economisch problematisch te maken voor GenAI-bedrijven.

2) Vergiftigingsaanvallen

Deze richten zich ook op het AI-trainingsproces, maar op een manier die opzettelijk reeds verzamelde gegevens corrumpeert om het uiteindelijke trainingsmodel te verdraaien. We kunnen ons voorstellen dat iemand visuele gegevens hackt die worden gebruikt om autonome voertuigen te trainen en afbeeldingen van stopborden verandert of valselijk tagt, zodat deze in groene lichten veranderen.

3) Ontwijkingsaanvallen

Zelfs als een AI-model nauwkeurig is getraind op de juiste gegevens, kunnen aanvallers zich nog steeds op het AI-systeem richten nadat het is geïmplementeerd. Een ontwijkingsaanval richt zich op het gevolgtrekkingsproces – het analyseren van nieuwe gegevens met behulp van het getrainde model – door nieuwe gegevens te manipuleren die het AI-model zou moeten interpreteren. In ons voorbeeld van autonoom rijden zou iemand markeringen kunnen toevoegen aan stopborden op straat die voorkomen dat een voertuig ze herkent, waardoor hij wordt aangespoord door te rijden.

4) Privacyaanvallen

Bij sommige aanvallen gaat het om het verzamelen van gegevens in plaats van om het verdraaien van de interpretatie ervan door het model. Bij een privacyaanval zou een AI-model tijdens de inferentiefase worden ondervraagd om gevoelige informatie uit de trainingsgegevens te halen. Onderzoekers hebben dat al gedaan manieren bedacht om de GPT-3.5 Turbo- en GPT4-modellen van OpenAI te overtuigen om de e-mailadressen van andere gebruikers op te geven.

Hoe u deze aanvallen kunt beperken

Het NIST-document biedt technische mitigatiemaatregelen om dit misbruik van AI aan te pakken. Deze omvatten vijandige training, waarbij datawetenschappers data-items in de trainingsset invoegen die ontwijkingsaanvallen verijdelen. Deze hebben echter doorgaans nadelen op gebieden als de nauwkeurigheid van trainingsmodellen, geeft het document toe, waarbij oplossingen voor deze afwegingen worden beschreven als ‘een open vraag’.

De weinig overtuigende mitigatiemaatregelen versterken de positie van dit document als een overzicht van academisch werk op het gebied van vijandige AI en de distillatie ervan in een gedetailleerde taxonomie die mensen kunnen gebruiken om ervoor te zorgen dat ze dezelfde dingen beschrijven als ze over deze problemen praten. Het is geen handleiding voor praktijkmensen om de vijandige AI-dreiging aan te pakken, waarschuwt Nathan VanHoudnos, senior onderzoeker op het gebied van machine learning en laboratoriumleider bij de CERT-divisie van het Software Engineering Institute van de Carnegie Mellon University.

Een bredere context creëren

"Ik denk dat er ruimte zou zijn voor een meer praktijkgerichte gids nu ze het harde werk hebben gedaan om een taxonomie samen te stellen", vertelt hij aan ISMS.online. “De dingen die ik in zo’n gids zou willen zien, zijn niet alleen de laag van machinaal leren, maar de hele stapel van een AI-systeem.”

Deze stapel reikt verder dan de datalaag, variërend van de onderliggende GPU-hardware tot de cloudomgevingen waarin deze opereert en de authenticatiemechanismen die in AI-systemen worden gebruikt, legt hij uit.

NIST heeft al belangrijke stappen gezet om degenen die AI implementeren te helpen met meer praktisch advies. Het instituut, dat in maart 2023 zijn Trustworthy and Responsible AI Resource Center heeft opgericht, heeft een rapport uitgebracht AI-risicobeheerkader in januari 2023, samen met een draaiboek dat is ontworpen om een volledig spectrum van individuele, organisatorische en sociale risico's van AI te helpen beheersen.

Begin februari 2024 vaardigde NIST een RFI uit omdat het hulp zocht bij het nakomen van zijn verantwoordelijkheden onder de Executive Order van oktober 2023 inzake veilige, beveiligde en betrouwbare ontwikkeling en gebruik van kunstmatige intelligentie van het Witte Huis. Dit omvat het ontwikkelen van AI-auditmogelijkheden en richtlijnen voor AI red teaming.

Hoewel de informatie over vijandige AI van NIST tot nu toe meer academisch is, wijst VanHoudnos op andere aanvullende bronnen. MITRE heeft zijn Tegenstrijdig dreigingslandschap voor kunstmatige-intelligentiesystemen (Atlas) initiatief, dat technieken uit de echte wereld verzamelt in verschillende stadia van de vijandige AI-aanvalsketen, van verkenning tot impact.

De Alliantie voor AI-risico's en kwetsbaarheden, een open source-initiatief van AI-onderzoekers, heeft ook een taxonomie van AI-kwetsbaarheden samen met een database met specifieke aanvalstypen die aan die taxonomie zijn gekoppeld (bijv. AVID-2023-V005: Camera Hijack Attack op gezichtsherkenningssysteem). Een belangrijk verschil tussen de AVID-taxonomie en die van NIST is dat het technische kwetsbaarheden formeel in kaart brengt voor risico's van hogere orde op gebieden als veiligheid (bijvoorbeeld informatielekken), ethiek (bijvoorbeeld desinformatie) en prestaties (bijvoorbeeld gegevensproblemen of implicaties voor de privacy).

Het koppelen van de vijandige uitdagingen aan deze risico's van hogere orde is een belangrijk onderdeel van het opkomende werk aan het volwassen worden van onderzoek naar de gevaren rond AI, suggereert VanHoudnos. De maatschappelijke implicaties van het falen van AI – zowel opzettelijk als anderszins – zijn immers enorm.

“Het grootste risico [van AI-systemen] is de onbedoelde schade die ze zullen aanrichten”, legt VanHoudnos uit. Dat kan variëren van per ongeluk liegen naar klanten door mensen onterecht beschuldigen van belastingfraude en het vellen van een regering of iemand ervan overtuigen zelfmoord te plegen.

In deze context noemt hij ook het Center for Security and Emerging Technology, dat heeft geprobeerd deze schade te categoriseren en te formaliseren in zijn rapport over Structuur toevoegen aan AI-schade.

Er is nog meer werk te doen

Het NIST-document is een uitgebreid overzicht van termen en technieken in het veld dat zal dienen als een nuttige aanvulling op het werk dat al vijandige AI-risico's en kwetsbaarheden in het gebied documenteert. VanHoudnos maakt zich echter zorgen dat er nog werk aan de winkel is om deze risico's vanuit het perspectief van de praktijk te omarmen.

“Pas afgelopen zomer begonnen mensen het idee dat AI-beveiliging cyberbeveiliging was echt serieus te nemen”, besluit hij. “Het duurde een tijdje voordat ze zich realiseerden dat AI slechts een applicatie is die draait op computers die verbonden zijn met netwerken, wat betekent dat het het probleem van de CISO is.”

Hij is van mening dat de sector nog steeds niet over een robuust procedureel raamwerk beschikt om vijandige tegenmaatregelen te implementeren. Samen staan CMU en SEI tegenover elkaar AI Beveiligingsincidentresponsteam (ASIRT), een initiatief gericht op nationale veiligheidsorganisaties en de industriële defensiebasis, dat zich zal concentreren op het onderzoeken en ontwikkelen van formele benaderingen voor het beveiligen van AI-systemen tegen tegenstanders.

Dit soort inspanningen kunnen niet snel genoeg komen, vooral gezien de bewering van NIST dat “er nog geen onfeilbare methode bestaat om AI tegen misleiding te beschermen.” Opnieuw zullen we waarschijnlijk in een eindeloze strijd met tegenstanders terechtkomen als we onze AI-systemen tegen ondermijning beschermen. Hoe eerder we serieus beginnen, hoe beter.

Auteur

Danny Bradbury

Danny Bradbury is sinds 1989 een printjournalist gespecialiseerd in technologie en sinds 1994 freelanceschrijver. Hij heeft geschreven voor nationale publicaties aan beide zijden van de Atlantische Oceaan en heeft prijzen gewonnen voor zijn onderzoeksjournalistieke werk op het gebied van cyberbeveiliging.

Bekijk alle berichten van Danny Bradbury