스탠포드 인터넷 연구소는 AI 이미지 생성 모델 훈련에 사용하는 대형 데이터 세트 LAION-5B에 아동 성 학대 자료로 의심되는 이미지 3226점이 포함됐다고 밝혔습니다.
LAION은 안정하지 않은 컨텐츠가 없는지 확인될 때까지 데이터 센트를 공개 액세스에서 제외 처리했습니다.
이 데이터 세트는 58억 개가 넘는 온라인 이미지의 주소와 캡션으로 구성됩니다. 인터넷에서 다양한 이미지를 크롤링해서 만들었습니다.
스탠포드의 연구팀은 LAION의 NSFW 분류기를 써서 데이터 세트를 필터링하고, 컨텐츠 조정에 사용하는 툴인 포토DNA를 돌렸습니다. 아동 성 학대 자료를 사람이 직접 보는 건 연구 목적이라고 해도 불법이기에, 각 이미지마다 디지털 서명을 만들고 이를 테스트 이미지와 일치하는지 확인하는 지각 해싱을 써서 찾아냈습니다.
이런게 섞이는 것도 문제고 찾는 것도 여간 복잡한 일이군요.