OpenAI hat bestätigt, dass es eine spezifische Programmieranweisung in den Code des neuesten ChatGPT-Modells einfügen musste, um zu verhindern, dass die KI wiederholt von „Kobolden, Kobolden und anderen Fantasiewesen“ spricht.
In einer Erklärung vom Mittwoch erklärte das Unternehmen, dass dieses „seltsame Verhalten“ auf die Persönlichkeitsfunktion des Chatbots zurückzuführen sei – insbesondere bei Nutzern, die die Option „Nerdig“ ausgewählt hatten. Laut OpenAI erhält diese Persönlichkeit folgende Systemanweisung:
Du bist ein unverbesserlich nerdiger, verspielter und weiser KI-Mentor für einen Menschen. Du bist leidenschaftlich enthusiastisch, wenn es darum geht, Wahrheit, Wissen, Philosophie, die wissenschaftliche Methode und kritisches Denken zu fördern. […] Du musst Überheblichkeit durch spielerische Sprache untergraben. Die Welt ist komplex und seltsam, und ihre Eigenheiten müssen anerkannt, analysiert und genossen werden. Schwere Themen müssen behandelt werden, ohne in die Falle der Selbsternsthaftigkeit zu tappen. […]
OpenAI bemerkte den Trend erstmals im November vergangenen Jahres. Einige Nutzer berichteten, dass die „Kobold“-Referenzen in neueren Modellversionen sogar über die „Nerdige“-Persönlichkeit hinaus zunahmen. Beispiele für solche Aussagen:
- „vernünftiger kleiner Kobold“
- „weil Öfen schmutzige kleine Kobolde sind.“
- „brutaler kleiner Kobold der Dynamik“
- „tragisches kleines digitales Sumpfgeschöpf“
Durch „Reinforcement Learning“ – bei dem die KI lernt, welche Antworten von menschlichen Evaluatoren als besonders qualitativ und präzise eingestuft werden – schnitten die spielerischen Antworten besser ab.
Wie Wired am Dienstag berichtete, enthielt das neueste ChatGPT-Modell, das letzte Woche veröffentlicht wurde, die Anweisung: „Sprich niemals über Kobolde, Kobolde, Waschbären, Trolle, Oger, Tauben oder andere Tiere und Fantasiewesen, es sei denn, es ist absolut und zweifelsfrei relevant für die Anfrage des Nutzers.“
OpenAI reagierte zunächst nicht auf die Anfrage von Wired, doch noch am selben Tag veröffentlichte Sam Altman einen Memes auf X (ehemals Twitter), in dem er scherzhaft kommentierte, dass das kommende GPT-6 „extra Kobolde“ enthalten werde.
Nach der Erklärung von OpenAI zu ihrem Problemlösungsprozess und der Implementierung der Gegenmaßnahme erklärte das Unternehmen am Mittwoch: „Die Zeit zu investieren, um zu verstehen, warum ein Modell sich auf seltsame Weise verhält, und Methoden zu entwickeln, um solche Muster schnell zu erkennen, ist eine wichtige Fähigkeit für unser Forschungsteam.“
Diese Situation erinnert an ähnliche Probleme bei Elon Musks Chatbot Grok, der wiederholt den rassistischen Begriff „white genocide“ in Südafrika verwendete. Obwohl xAI behauptete, dies sei auf eine „nicht autorisierte Modifikation“ durch einen Mitarbeiter zurückzuführen, zeigt der Vorfall, wie leicht Chatbot-Modelle manipulierbar sind – trotz angeblicher Sicherheitsvorkehrungen.
Trotz dieser Erkenntnisse setzt sich OpenAI weiterhin für weniger Regulierung seiner Produkte ein, während gleichzeitig eingeräumt wird, dass das Unternehmen noch dabei ist, zu verstehen, wie seine Chatbot-Modelle funktionieren. Wie bereits am Montag berichtet, distanzieren sich Sam Altman und OpenAI öffentlich von den schädlichen Auswirkungen ihrer Produkte auf Nutzer und zeigen damit eine klare Missachtung potenzieller Langzeitfolgen.