폐기된 스타트업의 디지털 잔재, AI 훈련용 데이터로 재탄생

최근 폐기된 스타트업의 슬랙 대화록과 이메일 데이터가 AI 훈련용 데이터로 거래되는 새로운 시장이 형성되고 있다. 폐업한 기업의 디지털 자산을 수집·판매하는 ‘자원화’ 산업이 급성장하면서, AI 모델 개발에 필요한 데이터 확보가 새로운 비즈니스 기회로 부상한 것이다.

AI 훈련용 ‘강화 학습 체육관(RL gym)’ 산업의 급부상

AI 모델 개발에서 가장 어려운 부분 중 하나는 질 좋은 훈련 데이터 확보다. 특히 AI 에이전트가 실제 업무 환경을 모방한 ‘강화 학습 체육관(RL gym)’에서 훈련받을 수 있도록 현실적인 데이터가 절실히 필요하다. 이러한 수요에 따라 AI 에이전트 훈련용 가상 기업을 제공하는 스타트업들이 등장했으며, 일부는 이미 수십억 달러 규모로 평가받고 있다.

예를 들어, Anthropic은 올해 RL gym 구축에 10억 달러를 투자할 계획이라고 The Information이 보도했다. 또한 Prime IntellectFleet 같은 RL gym 스타트업들도 유사한 평가를 받고 있다. 이 같은 수요 증가로 인해 폐기된 스타트업의 디지털 자산이 새로운 ‘자원’으로 주목받고 있는 것이다.

‘Asset Hub’, 폐업 기업의 디지털 자산 거래 플랫폼

폐업한 스타트업의 디지털 자산을 거래하는 중개업체들도 등장했다. 대표적인 예가 SimpleClosure로, 이 회사는 폐업 절차 자동화 서비스 ‘TurboTax of shutting down’을 표방하며 ‘Asset Hub’라는 도구를 출시했다. 이 도구를 통해 폐업 기업은 슬랙 대화록, 이메일, 코드 라이브러리 등을 판매할 수 있으며, 데이터는 ‘익명화’된다고 주장한다.

SimpleClosure의 CEO 도리 요나(Dori Yona)에 따르면, 지난 1년간 100건 이상의 거래를 처리하며 창업자들에게 100만 달러 이상의 수익을 안겨주었다고 한다. 그러나 이 과정에서 개인정보 보호와 윤리적 문제가 제기되고 있다.

개인정보 보호와 윤리적 dilemma

AI 훈련용 데이터로 폐기된 기업의 디지털 자산을 사용하는 것은 ‘현실적인 훈련 환경 제공’이라는 장점이 있지만, 동시에 심각한 개인정보 침해 위험을 내포하고 있다.

마크 로텐버그(Marc Roteberg), Center for AI and Digital Policy 설립자에 따르면, “직원들의 모든 대화를 기록해 이익을 창출하는 행위는 물리적 공간에서라면 명백한 위법 행위지만, 디지털 환경에서는 ‘합리적인 비즈니스’로 여겨지고 있다”며 우려를 표명했다. 그는 “이 데이터는 익명화되었다고 주장하지만, 실제로는 개인을 식별할 수 있는 정보가 포함되어 있을 가능성이 크다”고 지적했다.

또한, ‘익명화’가 제대로 이뤄지지 않을 경우, 데이터에 접근한 기업이 개인을 재식별할 위험도 존재한다. 이는 AI 훈련용 데이터 확보를 위한 ‘자원화’ 산업이 윤리적·법적 책임을 동반할 수밖에 없음을 시사한다.

AI 훈련 데이터 확보 전쟁, 새로운 규제 필요성 제기

AI 산업의 급속한 성장으로 인해 고품질 훈련 데이터 확보는 필수적인 과제가 되었다. 그러나 폐기된 기업의 디지털 자산을 활용하는 방식은 개인정보 보호와 윤리적 문제를 동시에 안고 있다.

전문가들은 AI 훈련용 데이터 확보를 위한 새로운 규제와 투명성 제고가 필요하다고 강조한다. 특히, ‘익명화’ 프로세스의 엄격성 강화직원 동의 절차 마련이 시급한 과제로 떠오르고 있다.

“AI 훈련용 데이터 확보를 위해 폐기된 기업의 디지털 자산을 활용하는 것은 일종의 ‘자원화’ 산업으로 볼 수 있지만, 개인정보 보호와 윤리적 책임을 간과해서는 안 된다.”
— 마크 로텐버그, Center for AI and Digital Policy 설립자

출처: Futurism