Cybersecurity- och underrättelsemyndigheter från USA, Australien, Kanada, Nya Zeeland och Storbritannien har gemensamt publicerat en ny säkerhetsvägledning som uppmanar organisationer att behandla självständiga AI-system som en central säkerhetsfråga. Vägledningen riktar sig särskilt mot AI-agenter – mjukvara baserad på stora språkmodeller som kan planera, fatta beslut och utföra åtgärder utan mänsklig inblandning.
För att fungera kräver dessa system kopplingar till externa verktyg, databaser, minneslagring och automatiserade arbetsflöden. Detta möjliggör utförandet av flerstegsuppgifter utan löpande mänsklig granskning. Vägledningen har tagits fram av bland annat USA:s Cybersecurity and Infrastructure Security Agency (CISA), National Security Agency (NSA) samt motsvarande myndigheter i Australien, Kanada, Nya Zeeland och Storbritannien.
AI-agenter ska integreras i befintliga säkerhetsramverk
Enligt myndigheterna krävs inga helt nya säkerhetsdiscipliner för att hantera AI-agenter. Istället bör organisationer integrera dessa system i sina redan existerande cybersecurity-ramverk och styrstrukturer. Etablerade principer som nolltillit (zero trust), försvar på djupet (defense-in-depth) och minsta nödvändiga behörighet (least-privilege access) bör tillämpas även på AI-agenter.
Fem huvudsakliga riskkategorier identifierade
Vägledningen lyfter fram fem centrala riskområden för AI-agenter:
- Behörighetsrisker: Om agenter tilldelas för omfattande åtkomst kan en enskild kompromettering orsaka betydligt större skada än en traditionell mjukvarusårbarhet.
- Design- och konfigurationsfel: Bristfällig uppsättning skapar säkerhetsluckor redan innan systemet tas i drift.
- Beteenderisker: Agenter kan agera på sätt som deras utvecklare aldrig avsett eller förutsett.
- Strukturella risker: Nätverk av sammankopplade agenter kan orsaka kedjereaktioner av fel som sprider sig genom organisationens system.
- Ansvar och spårbarhet: AI-systemens beslutsprocesser är svåra att granska och loggarna svåra att tyda, vilket försvårar felsökning och orsaksanalys. Vid fel kan konsekvenserna bli konkreta: förändrade filer, modifierade behörigheter och raderade revisionsspår.
Särskilda hot som prompt injection
Vägledningen uppmärksammar även prompt injection – en metod där skadliga instruktioner döljs i data för att manipulera en agents beteende. Problemet har länge varit känt inom stora språkmodeller och vissa företag menar att det kan vara omöjligt att helt eliminera.
Identitetshantering och mänsklig kontroll
Myndigheterna rekommenderar att varje AI-agent tilldelas en verifierad, kryptografiskt säkrad identitet. Kommunikation mellan agenter och tjänster bör krypteras, och kortlivade autentiseringsuppgifter bör användas. För kritiska åtgärder krävs mänsklig godkännande, och beslutet om vilka åtgärder som ska omfattas av denna kontroll bör fattas av systemdesigners, inte av agenterna själva.
Behov av vidare forskning och standardisering
Myndigheterna konstaterar att säkerhetsbranschen ännu inte hunnit ikapp utvecklingen av AI-agenter. Vissa risker är ännu inte täckta av existerande ramverk, och vägledningen uppmanar till ökad forskning och samarbete.
"Så länge säkerhetsmetoder, utvärderingsmetoder och standarder inte har mognat fullt ut, bör organisationer anta att säkerhetsincidenter kommer att inträffa."