하버드대학교가 인공지능(AI) 모델 훈련을 위해 약 100만 권의 저작권이 만료된 도서를 제공한다.
지난 12일(현지시간) 하버드대학교는 저작권이 만료된 약 100만 권의 도서로 구성된 데이터 세트를 공개한다고 밝혔다.
이 프로젝트는 마이크로소프트와 오픈AI의 자금 지원을 받아 진행되며 구글 북스가 스캔한 저작권 만료 도서도 포함된다.
훈련용 도서에는 세익스피어, 찰스 디킨스, 단테의 고전 작품뿐 아니라 체코 수학 교과서와 웨일스어 포켓 사전 같은 다양한 자료가 사용된다.
AI 언어 모델은 대규모 고품질 텍스트 데이터를 필요로 한다. 그러나 데이터 부족 문제가 부각되면서 AI 기업들은 데이터 확보 과정에서 법적 갈등을 겪고 있다.
한편 월스트리트 저널(The Wall Street Journal)과 뉴욕 타임스(The New York Times)를 포함한 주요 출판사들은 허가 없이 데이터를 수집한 오픈AI와 퍼플렉시티(Perplexity) 등 경쟁사들이 허가 없이 데이터를 수집했다며 소송을 제기한 바 있다.
이러한 상황에서 일부 콘텐츠 제공자와 계약을 맺거나 광고 기반 파트너 프로그램을 도입했지만 레딧(Reddit)과 엑스(X)와 같은 플랫폼은 데이터의 가치를 인식하며 접근을 제한하는 방식을 시행하고 있다.