Wat is het sjabloon voor een samenvatting van de inhoudstraining?
De Europese Commissie heeft onlangs een rapport gepubliceerd een toelichting en een sjabloon Om aanbieders van GPAI-modellen (General-Purpose AI) te helpen de inhoud samen te vatten die wordt gebruikt om hun modellen te trainen. De template ondersteunt GPAI-aanbieders bij het nakomen van hun verplichtingen onder artikel 53 van de EU AI-wet, waardoor een samenvatting van de inhoud die is gebruikt voor de training van alle GPAI-modellen openbaar beschikbaar is.
Het is van cruciaal belang dat het een nieuwe stap vormt in de richting van het opbouwen van vertrouwen in AI door de transparantie te vergroten, in lijn met de doelstellingen van de verordening.
Hoewel de samenvatting van de informatie over een GPAI-model die met behulp van de sjabloon wordt verstrekt openbaar is, heeft de Commissie rekening gehouden met de noodzaak om bedrijfsgeheimen en vertrouwelijke bedrijfsinformatie te beschermen. Derhalve verduidelijkt de toelichting dat de samenvatting 'in zijn algemeenheid uitgebreid moet zijn in plaats van technisch gedetailleerd, om partijen met legitieme belangen, waaronder auteursrechthebbenden, in staat te stellen hun rechten onder het Unierecht uit te oefenen en te handhaven'.
Sectie één: Algemene informatie
Het eerste deel van de sjabloon bevat algemene informatie over de GPAI-aanbieder en het GPAI-model, waaronder contactgegevens van de aanbieder, de versie van het GPAI-model, modelafhankelijkheden en de datum waarop het model op de EU-markt is gebracht. Aanbieders moeten de modaliteiten in de trainingsgegevens specificeren voor zover deze identificeerbaar zijn, waaronder:
- Tekst
- Beeld
- Audio
- Video
- Overige
Aanbieders moeten de omvang van de trainingsdata specificeren door bereiken te selecteren binnen de geschatte totale datagrootte voor elke modaliteit. Ze moeten ook de soorten content voor elke geselecteerde modaliteit beschrijven, bijvoorbeeld:
- Fictietekst
- Non-fictietekst
- Wetenschappelijke tekst
- Fotografie
- Visuele kunstwerken
- Infographics
- Afbeeldingen op sociale media
- Muzikale composities
- Audiobooks
- Privé audiocommunicatie
- Muziekvideo's
- Films
- tv-programma's
- Video games
- Video's op sociale media.
Ten slotte moeten aanbieders de laatste datum van gegevensverzameling of -verwerving voor modeltraining delen, evenals alle aanvullende informatie over de verzameling van trainingsgegevens.
Sectie twee: Gegevensbronnen
In het tweede en grootste deel van de sjabloon moeten aanbieders specifieke gegevensbronnen specificeren die gebruikt worden om het GPAI-model te trainen. Organisaties moeten de modaliteit of modaliteiten van de inhoud van de betreffende datasets in elk deel specificeren en vervolgens specifieke vragen beantwoorden voor elk type gegevensbron.
In deze sectie wordt de term 'dataset' geclassificeerd als een enkele, vooraf samengestelde dataverzameling; data die uit dezelfde vooraf samengestelde dataverzameling is gefilterd en voorbewerkt, mag niet worden beschouwd als een nieuwe dataset die afzonderlijk openbaar moet worden gemaakt. Als een dataset in meer dan één categorie valt, dienen aanbieders de meest relevante categorie te selecteren.
GPAI-aanbieders moeten details verstrekken over de datasets die worden gebruikt om het model te trainen:
- Openbaar beschikbare datasets
- Door derden samengestelde datasets worden gratis ter beschikking gesteld aan het publiek en kunnen eenvoudig als geheel of in vooraf gedefinieerde delen worden gedownload.
- Privé, niet-publiekelijk beschikbare datasets verkregen van derden
- Datasets die commercieel in licentie zijn gegeven door rechthebbenden of hun vertegenwoordigers.
- Privé-datasets verkregen van andere derden.
- Gegevens gecrawld en geschraapt van online bronnen
- Gecrawlde, geschraapte gegevens of gegevens die op een andere manier zijn samengesteld uit onlinebronnen, met uitzondering van reeds behandelde openbaar beschikbare datasets.
- Gebruiker tijd
- Gebruikersgegevens die door alle diensten en producten van de provider worden verzameld, met uitzondering van gegevens die door gebruikers in licentie zijn gegeven op basis van commerciële transactieovereenkomsten of klantgegevens, om modellen voor specifieke doeleinden te verfijnen.
- Synthetische AI-gegenereerde data
- Gegevens die zijn gemaakt om het model te trainen op basis van de uitkomsten van een ander model, zoals AI-feedback via reinforcement learning. Dit geldt niet voor het gebruik van AI-modellen om gegevens op te schonen of te verrijken.
- Andere gegevensbronnen
- Gegevens die niet onder een van de voorgaande categorieën vallen, bijvoorbeeld gegevens die zijn verzameld uit offline bronnen, zelf gedigitaliseerde media, door mensen in opdracht van de aanbieder gelabelde datasets.
Sectie drie: Aspecten van gegevensverwerking
Het derde deel van het sjabloon richt zich op de maatregelen die de aanbieder heeft genomen om eventuele voorbehouden van rechten onder de uitzondering of beperking voor tekst- en datamining (TDM) zoals uiteengezet in artikel 4 van de Richtlijn auteursrechten in de digitale eengemaakte markt te identificeren en na te leven. Deze maatregelen moeten ook aansluiten bij het auteursrechtbeleid van de aanbieder, zoals vereist door artikel 53 van de EU AI-wet.
Dit omvat het beschrijven van maatregelen die de aanbieder heeft geïmplementeerd vóór de modeltraining om de voorbehouden rechten uit de TDM-uitzondering of -beperking te respecteren:
- Maatregelen die vóór en tijdens de gegevensverzameling worden uitgevoerd
- Opt-outprotocollen en -oplossingen die door de provider worden gehonoreerd
- Opt-outprotocollen en -oplossingen die worden toegepast door derden waarvan de datasets zijn verkregen.
GPAI-aanbieders moeten een algemene beschrijving geven van de maatregelen die ze hebben genomen om illegale content onder EU-recht te voorkomen of uit de trainingsgegevens te verwijderen. Ze zijn echter niet verplicht om specifieke details over hun interne bedrijfspraktijken of bedrijfsgeheimen te verstrekken.
Ten slotte biedt de sjabloon een optioneel gedeelte waarin aanbieders andere relevante informatie kunnen delen over gegevensverwerkingsmaatregelen die zijn genomen vóór of na de training van het model.
Volgende stappen
Voor GPAI-aanbieders is het essentieel om de bestaande documentatie en processen van het GPAI-model te herzien. Ter voorbereiding op het gebruik van de template moeten organisaties zorgen voor een duidelijk intern inzicht in de bronnen, modaliteiten, groottes en inhoudstypen van datasets, en bestaande gegevensverwerkingsmaatregelen.
Implementeren van best practices, zoals beschreven in het AI-managementplan standaard ISO 42001 Het opzetten van een ethisch AI-managementsysteem (AIMS) kan ook helpen de transparantie te vergroten, AI-risico's te verminderen, duidelijke documentatie te garanderen en vertrouwen op te bouwen in een organisatie en haar AI-modellen.










