최신 AI 기술이 업무 현장에서 실질적으로 활용되기에는 아직 미흡하다는 연구 결과가 발표됐다. 마이크로소프트(MS) 연구팀이 진행한 yet-to-be-peer-reviewed(검증되지 않은) 연구에 따르면, OpenAI의 GPT 5.4, 앤트로픽의 Claude Opus 4.6, 구글의 Gemini 3.1 Pro 등 최신 AI 모델들이 복잡한 업무 수행 시 문서의 평균 25%를 오류로 손상시키는 등 심각한 성능 저하를 보인 것으로 나타났다.
연구팀은 "이러한 모델들은 대부분의 업무 영역에서 위임 가능한 워크플로우로 활용하기에 아직 준비되지 않았다"며 "특히 MS는 AI 기술에 대규모 투자를 진행하고 Windows 11 운영체제 전반에 AI를 통합하려 노력하고 있지만, 이 연구 결과는 그러한 시도가 조기에 실패할 가능성을 시사한다"고 지적했다.有趣的是, 연구에서는 MS의 자체 AI 서비스인 코파일럿(Copilot)은 평가 대상에서 제외됐다.
연구 결과는 AI 자동화가 인력 감축의 전초전으로 활용되는 현 상황에 경종을 울린다. 특히 ‘워크슬롭(Workslop)’이라는 신조어가 주목받고 있다. 이는 AI를 과신한 근로자들이 부실한 AI 출력을 동료에게 전파하는 현상을 뜻하며, 결국에는 이를 수정한느 사람이 추가 작업을 해야 하는 악순환을 초래한다.
‘워크슬롭’이 기업에 미치는 파괴적 영향
최근 스탠퍼드대학교 연구에서도 AI ‘워크슬롭’이 기업 내부에 심각한 문제를 야기한다는 사실이 밝혀졌다. AI가 생성한 오류 투성이 문서나 데이터가 조직 내부에 확산되면서, 실제 업무 효율성은 떨어지고 재작업 비용만 증가하는 악영향을 미치는 것이다.
마이크로소프트의 이번 연구는 AI 기술의 실무 적용 한계를 명확히 보여주면서, 기업들이 AI 도입을 신중히 검토해야 한다는 메시지를 전달한다. 특히 AI가 문서 처리와 같은 핵심 업무에 활용될 경우 발생할 수 있는 리스크를 사전에 인지하고 대비해야 할 필요가 있다.