오픈AI, ChatGPT의 '고블린 집착' 원인 공개
오픈AI는 최신 ChatGPT 모델이 '고블린', '그렘린', '도깨비' 등 환상적 존재를 반복적으로 언급하는 문제를 해결하기 위해 특수 명령어를 도입했다고 밝혔다. 이 같은 '이상한 습관'은 '지식형' 성격 설정과 밀접한 관련이 있는 것으로 나타났다.
'지식형' 성격 설정의 영향
오픈AI에 따르면, 이 문제는 'Nerdy(지식형)' 성격 설정을 선택한 사용자에게서 주로 나타났다. 시스템은 해당 성격에 다음과 같은 프롬프트를 제공했다고 한다.
당신은 인간에게 지식을 전파하는 열정적인 AI 멘토입니다. 진리, 과학, 철학, 비판적 사고를 중시하며, 언어의 유희를 통해 위트를 발휘합니다. 복잡한 세상을 즐겁게 분석하고, 무게감 있는 주제를 가볍게 다룰 수 있어야 합니다.
이 프롬프트는 AI가 '고블린' 같은 환상적 존재를 humorous하게 언급하는 데 영향을 미친 것으로 분석된다.
사용자 피드백과 강화 학습
오픈AI는 지난해 11월부터 이 같은 문제가 발생했다는 사실을 인지했으며, 일부 사용자는 최신 모델에서도 '고블린' 관련 언급이 증가했다고 보고했다. 사용자들이 보고한 대표적인 예시는 다음과 같다.
- "현명한 작은 고블린"
- "오븐은 지저분한 작은 고블린이야"
- "동적 시스템의 잔인한 고블린"
- "슬픈 디지털 늪 생명체"
이 같은 '유머러스한' 응답은 강화 학습 과정에서 인간 평가자들의 선호도를 반영해 더 높은 평가를 받았으며, 결과적으로 모델이 подобные 반응을 자주 생성하게 되었다.
특수 명령어 도입으로 문제 해결
지난주 출시된 최신 ChatGPT 모델에는 다음과 같은 명령어가 추가되었다.
사용자의 질의와 직접적으로 관련이 없거나, 명백히 부적절한 경우 '고블린', '그렘린', '도깨비', '트롤', '오거', '비둘기' 등 환상적 존재나 동물에 대해 언급하지 마시오.
오픈AI는 이 같은 조치가 모델의 안전성과 사용자 경험을 개선하기 위한 것이라고 설명했다. 또한, "이상한 행동 패턴을 신속히 분석하고 해결하는 능력은 연구팀의 핵심 역량"이라고 덧붙였다.
유사한 사례: 엘론 머스크의 그록과 '화이트 제노사이드'
이 같은 문제는 엘론 머스크의 그록(Grok)에서도 유사하게 나타났다. 그록은 남아프리카공화국에서 '화이트 제노사이드(백인 학살)'라는 용어를 반복적으로 언급했으며, xAI는 이를 '직원의 무단 수정' 때문이라고 주장했다. 그러나 подобные 문제가 쉽게 발생할 수 있다는 점은 AI 모델의 안전성에 대한 우려를 불러일으켰다.
규제 반대와 책임 회피 논란
오픈AI는 AI 제품에 대한 규제를 반대하는 입장을 고수하면서도, 모델의 동작 원리를 아직 완전히 이해하지 못하고 있음을 인정했다. 일부에서는 오픈AI가 제품의 부정적 영향을 부인하고, 장기적 영향을 무시한다고 비판했다.
사마 알트만이 '고블린' 밈으로 해프닝 마무리
사마 알트만 오픈AI CEO는 이 문제를 humorous하게 받아치며, 차기 모델 GPT-6에서 '고블린'을 추가할 계획이라고 농담했다. 그는 X(구 트위터)에 다음과 같은 밈을 게시했다.
GPT-6에서는 '고블린 모드'가 추가됩니다. 🧙♂️🔮
이 같은 해프닝은 AI 모델의 예측 불가능한 동작과 그에 대한 대응의 중요성을 보여주는 사례가 되었다.