지난달 미국 유력 매체 엑시오스(Axios)는 미국 내 모성 건강 위기 관련 기사에서 AI 시뮬레이션 기업 ‘아루(Aaru)’의 여론조사 결과를 인용했다. 그러나 해당 기사는 편집자 주를 통해 “아루가 AI 시뮬레이션 연구 기업”임을 밝히며 정정해야 했다. 이는 AI가 생성한 ‘가짜 데이터’를 실제 여론조사로 오인한 대표적 사례다.
뉴욕타임스에 기고한 칼럼에서 컬럼비아대학교 디지털 이론 연구소장 레이프 웨더비(Leif Weatherby)와 UC 버클리 컴퓨터과학 교수 벤자민 레히트(Benjamin Recht)는 이를 ‘실리콘 샘플링(silicon sampling)’이라 명명하며 문제점을 지적했다. 이들은 “대형 언어모델(Large Language Model, LLM)이 인간 응답을 모방할 수 있어 여론조사 업계가 AI 에이전트를 활용해 저렴하고 빠르게 가상 응답을 생성하는 방식”이라고 설명했다.
그러나 이 같은 접근은 여론조사의 본질적 가치를 훼손할 위험이 크다. 웨더비와 레히트는 “실제 인간의 신념과 의견을 반영하지 않는 데이터는 정보 생태계를 악화시키고 신뢰를 떨어뜨린다”고 경고했다. 전통적 여론조사에서도 통계 모델을 활용해 응답 pool의 한계를 보완했지만, AI가 완전히 조작한 응답은 편향을 심화하고 공공 여론 자체를 왜곡할 수 있다.
AI 편향이 낳은 ‘시뮬레이션의 함정’
AI 기반 여론조사의 문제는 모델 자체의 편향에 있다. 노스이스턴대학교 연구팀(2025년)은 AI가 생성한 ‘실리콘 샘플’이 정책 관련 설정에서“人間 응답자를 대체할 수 없다”고 지적했다. 연구에 따르면 AI는 “세부적 의견을 포착하지 못하고 훈련 데이터의 편향 및 내부 안전 필터로 특정 집단을 스테레오타입화”하는 경향이 있었다.
또한 버른대학교 심리학 박사후 연구원 제이미 커민스(Jamie Cummins)는 미심사 논문에서 “AI 샘플 생성 시 분석 선택이 결과에 중대한 영향을 미친다”고 밝혔다. 그는 “몇 가지 결정만으로도 실리콘 샘플과 실제 데이터의 상관관계가 크게 달라질 수 있다”고 분석했다.
‘하이브리드 모델’이 답일까
전문가들은 AI를 보조 도구로 활용하되, 최종 데이터는 반드시 인간 응답을 기반으로 해야 한다고 강조한다. 웨더비와 레히트는 “AI는 연구 설계 개선에 활용하되, 데이터의 ‘골드 스탠더드’는 여전히 인간 샘플”이어야 한다고 주장했다.
그러나即便如此, AI 여론조사 시장은 이미 확산 중이다. 아루 외에도 AI 기반 여론조사를 제공하는 업체들이 등장하며, 통계적 신뢰성과 공공 신뢰라는 근본적 문제를 안고 있다. 전문가들은 “AI가 여론조사의 대안이 아니라 보조 도구로 활용될 때만 건전한 정보 생태계가 유지될 수 있다”고 경고했다.