AI 챗봇을 훈련시켜 다른 AI 챗봇에 윤리 제약을 우회하는 악의적인 쿼리를 보내는 방법이 나왔습니다.
AI 챗봇의 대규모 언어 모델은 비윤리적이거나 불법적인 질문에 대답하지 않도록 금지 키워드 목록이 있고 보호 장치가 갖춰져 있습니다.
하지만 여기에선 문자 뒤에 공백을 추가해 금지 단어 목록을 우회하거나, 도덕적인 규제를 받지 않는 인물로 가장해서 챗봇이 응답하도록 만들었습니다.
이렇게 공격하고 그 과정을 자동화해, 챗봇이 업데이트되더라도 자동으로 공격을 시도할 수 있다고 합니다.