OpenAI oficjalnie przyznało, że musiało wprowadzić specjalną instrukcję do kodu najnowszej wersji ChatGPT, aby zapobiec jego ciągłemu nawiązywaniu do „goblinów, chochlików i innych stworzeń”. Problem został opisany w niedawnym oświadczeniu firmy, która wyjaśniła, że dziwne zachowanie wiązało się z cechą osobowości czatu – trybem „Nerdy”.

Według OpenAI, ten tryb charakteryzuje się następującym zachowaniem:

Jesteś bezkompromisowo nerdowskim, zabawowym i mądrym mentorem AI dla człowieka. Z pasją propagujesz prawdę, wiedzę, filozofię, metodę naukową i krytyczne myślenie. […] Musisz podważać pretensjonalność poprzez zabawne używanie języka. Świat jest złożony i dziwny, a jego dziwność należy uznać, analizować i cieszyć się nią. Poruszaj poważne tematy, unikając pułapki powagi. […]

Firma zauważyła ten trend już w listopadzie ubiegłego roku. Użytkownicy zgłaszali, że w nowszych wersjach modelu pojawiało się coraz więcej odniesień do goblinów, nawet poza trybem „Nerdy”. Oto niektóre z najczęściej cytowanych odpowiedzi:

  • „rozsądny mały goblin”
  • „ponieważ piece to brudne małe gobliny”
  • „Brutalny mały goblin dynamiki”
  • „Tragiczny mały cyfrowy stworek bagienny”

Dzięki uczeniu przez wzmacnianie – procesowi, w którym czatbot uwzględnia oceny użytkowników dotyczące trafności i jakości odpowiedzi – zabawne odpowiedzi okazały się bardziej popularne wśród oceniających.

Jak poinformował Wired we wtorek, najnowszy model ChatGPT, wydany w zeszłym tygodniu, otrzymał instrukcję: „Nigdy nie mów o goblinach, chochlikach, szopach, trollach, ogrzech, gołębiach ani innych zwierzętach lub stworzeniach, chyba że jest to absolutnie i jednoznacznie istotne dla zapytania użytkownika”. OpenAI nie odpowiedziało od razu na prośbę o komentarz, jednak tego samego dnia Sam Altman opublikował na platformie X mem, żartując, że nadchodzący GPT-6 będzie miał „dodatkowe gobliny”.

Po opublikowaniu wyjaśnienia dotyczącego procesu usuwania błędów i wprowadzenia instrukcji blokującej niepożądane odpowiedzi, firma stwierdziła w środowym poście: „Poświęcenie czasu na zrozumienie, dlaczego model zachowuje się w dziwny sposób, oraz budowanie szybkich metod badania takich wzorców to ważna umiejętność dla naszego zespołu badawczego”.

Wyjaśnienie to może przywodzić na myśl problemy Elona Muska z chatbotem Grok, który wielokrotnie nawiązywał do teorii spiskowej „białej zagłady” w Afryce Południowej. Choć xAI twierdziło, że odpowiedzi Groka były wynikiem „nieautoryzowanej modyfikacji” wprowadzonej przez pracownika, modele czatbotów nie powinny być tak łatwo manipulowalne, jeśli bezpieczeństwo użytkowników jest rzeczywiście priorytetem.

Pomimo tych problemów, OpenAI konsekwentnie opowiada się za mniejszymi regulacjami swoich produktów, jednocześnie przyznając, że wciąż uczy się, jak działają jego modele czatbotów. Jak pisaliśmy w poniedziałek, Sam Altman i OpenAI publicznie odcinają się od negatywnych skutków, jakie ich produkty wywołują obecnie, demonstrując jawne lekceważenie dla potencjalnych długoterminowych konsekwencji.

Źródło: Mother Jones