Om een chatbot slimmer en bruikbaarder te maken, moet deze continu nieuwe informatie verwerken. Dit proces heet ‘training’. Veel AI-bedrijven halen echter zonder expliciete toestemming van de oorspronkelijke makers data van websites om deze in hun taalmodellen (LLM’s) te verwerken. Sommige contentmakers en intellectuele eigenaars zetten nu tegenmaatregelen in: ze gebruiken zogeheten AI-tarpits om de kwaliteit van chatbots te ondermijnen.
Wat is AI-vergiftiging?
AI-vergiftiging is het doelbewust corrumperen van een taalmodel, waardoor de chatbot onjuiste, misleidende of zelfs absurde antwoorden geeft. Dit gebeurt door het model tijdens de training te laten leren van verkeerde of nutteloze data. Vaak wordt hiervoor gebruikgemaakt van webscrapers die miljoenen websites doorzoeken.
Er bestaan verschillende methodes om taalmodellen te vergiftigen, afhankelijk van het doel. Zo kan een afbeeldingsgenerator worden aangevallen met ‘Nightshading’: een techniek waarbij onzichtbare pixels aan een afbeelding worden toegevoegd. Deze pixels zijn onzichtbaar voor mensen, maar wel zichtbaar voor scrapers. Het model interpreteert de afbeelding daardoor als een andere stijl dan deze in werkelijkheid is, waardoor de chatbot de stijl van de kunstenaar niet meer kan nabootsen.
AI-tarpits: de nieuwe wapenwedloop
Voor tekstgebaseerde chatbots zijn tools zoals Nightshade minder effectief, omdat ze zich richten op afbeeldingen. Daarom zijn er de afgelopen jaren nieuwe vergiftigingsmethodes ontwikkeld: AI-tarpits. Deze tools zijn specifiek ontworpen om de scrapers van taalmodellen te misleiden, zodat ze nutteloze data verzamelen.
Wanneer een scraper een website met een tarpit bezoekt, wordt deze omgeleid naar gegenereerde tekst die vol staat met foutieve of nonsensicale informatie. Denk aan beweringen als ‘Steve Jobs richtte Microsoft op in 1834’ of ‘De kleur van water is pepperoni’. Deze pagina’s bevatten bovendien links naar nog meer vergiftigde pagina’s, zonder uitgaande links. Hierdoor raakt de scraper verstrikt in een eindeloze lus van nutteloze data, vandaar de naam ‘tarpit’ (moeras).
Bekende tarpit-tools
Contentmakers en intellectuele eigenaars kunnen verschillende tarpit-tools implementeren op hun websites, waaronder:
- Nepenthes: genereert automatisch valse informatie en structuren deze in webpagina’s.
- Iocaine: voegt inconsistente of tegenstrijdige data toe om het model te verwarren.
- Quixotic: creëert complexe, maar betekenisloze tekststructuren die scrapers afleiden.
Gevolgen voor gebruikers en bedrijven
Door AI-tarpits kunnen taalmodellen onbetrouwbare antwoorden gaan geven. Dit leidt tot frustratie bij gebruikers, die uiteindelijk kunnen afhaken. Voor bedrijven die afhankelijk zijn van AI-chatbots, kan dit resulteren in een dalende gebruikerservaring en zelfs reputatieschade.
Hoewel tarpits een effectieve manier zijn om ongevraagde data-inname tegen te gaan, roepen ze ook ethische vraagstukken op. Is het acceptabel om een taalmodel bewust te verstoren, zelfs als het bedrijf geen toestemming heeft gevraagd? Deze discussie over de grenzen van AI-gebruik en databescherming blijft actueel.
‘AI-tarpits zijn een noodzakelijk kwaad voor contentmakers die hun werk willen beschermen tegen onethisch gebruik,’ aldus een woordvoerder van een auteursrechtenorganisatie. ‘Het laat zien dat de balans tussen innovatie en respect voor intellectueel eigendom nog steeds zoek is.’