소설가를 비롯한 작가들이 NVIDIA를 고소했습니다. 자신의 글이 NVIDIA의 대규모 언어 모델 구축 프레임워크인 NeMo의 훈련에 사용됐다는 이유에서입니다.
NeMo는 사용자가 LLM을 빠르게 구축할 수 있게 해주는 프레임워크로, 미리 학습된 모델이 포함됩니다. 19만 6640권에 해당되는 Book3 데이터 세트를 사용해 학습을 했는데, 이 데이터 세트에는 불법 복제한 것도 포함됐다고 하네요.
Book3 데이터세트는 허깅 페이스를 통해 공유됐으나 저작권 침해로 2023년 10월에 삭제된 바 있습니다.