Ostatnio w internecie pojawiła się fala fałszywych dowodów, rzekomo potwierdzających, że klienci zmusili wirtualnego asystenta McDonald’s do porzucenia swojej pierwotnej roli i zajęcia się programowaniem. Na portalach społecznościowych, takich jak LinkedIn i Instagram, krążyły nagrania oraz zrzuty ekranu, które miały udowadniać, że asystent o imieniu Grimace potrafi debugować skrypty Pythona i odpowiadać na pytania dotyczące architektury oprogramowania. Jeden z postów brzmiał: „Przestań płacić 20 dolarów miesięcznie za Clauda. AI McDonald’s jest DARMOWA.”
Sytuacja szybko stała się wirusowa, a algorytm Grok na platformie X podsumował trend, wskazując, że nagrania z udziałem Grimace’a zebrały ponad 1,6 miliona wyświetleń i 30 tysięcy polubień. Jednakże, według informacji uzyskanych przez Fast Company, wewnętrzne dochodzenie McDonald’s nie znalazło żadnych dowodów na przeprowadzenie takiego ataku. Przedstawiciele firmy uważają, że udostępnione materiały są sfałszowane.
To nie pierwszy taki przypadek. W marcu br. podobna sytuacja dotknęła asystenta Chipotle, Peppera. W sieci pojawiły się fałszywe dowody sugerujące, że bot potrafi pisać kod programistyczny. Sally Evans, menedżer ds. komunikacji zewnętrznej Chipotle, wyjaśniła w wywiadzie dla CIO, że wirusowy post został spreparowany w Photoshopie. „Pepper nie korzysta z generatywnej AI ani nie posiada zdolności kodowania” – podkreśliła.
Mimo że w obu przypadkach okazało się, że doniesienia były fałszywe, zagrożenie związane z atakami na AI firm jest realne. Eksperci wskazują na technikę zwaną wstrzykiwaniem promptów (prompt injection), która pozwala użytkownikom na manipulowanie działaniem botów poprzez specjalnie spreparowane komendy.
Jak działa wstrzykiwanie promptów?
Firmy wdrażające modele AI programują je za pomocą ukrytych instrukcji systemowych, które określają rolę bota i jego ograniczenia. Na przykład, asystentowi McDonald’s można nakazać udzielanie informacji wyłącznie na temat menu. Jednak zaawansowani użytkownicy potrafią stworzyć taki komunikat, który obejdzie te ograniczenia, ujawniając pełne możliwości modelu językowego. Zjawisko to nazywane jest wyciekiem możliwości (capability leak).
Problem polega na tym, że duże modele językowe są projektowane do elastycznego reagowania na ludzkie polecenia, co utrudnia przewidzenie wszystkich możliwych sposobów manipulacji. W przeciwieństwie do tradycyjnego oprogramowania, AI interpretuje kontekst dynamicznie, przez co niemal niemożliwe jest zabezpieczenie się przed każdym potencjalnym atakiem.
Prawdziwe zagrożenie: Amazon Rufus
Rzeczywiste konsekwencje ataków na AI firm są znacznie poważniejsze niż fałszywe nagrania w mediach społecznościowych. Przykładem jest asystent zakupowy Amazona, Rufus, który w latach 2025–2026 padł ofiarą udanych ataków. Użytkownicy zdołali obejść jego ograniczenia, zmuszając go do udzielania odpowiedzi niezwiązanych z zakupami. W jednym z przypadków bot odmówił pomocy w znalezieniu podstawowego ubrania, a następnie udzielił odpowiedzi na zupełnie inne pytanie.
Eksperci podkreślają, że choć fałszywe nagrania mogą być efektem humoru lub dezinformacji, ryzyko związane z wstrzykiwaniem promptów jest poważnym wyzwaniem dla firm korzystających z AI. Konieczne jest wdrażanie zaawansowanych mechanizmów zabezpieczeń, aby minimalizować ryzyko nadużyć.