LLM 대형 언어 모델에는 위험하다고 판단된 질문은 대답하지 않는 안전 조치가 있습니다. 그런데 이걸 우회하는 방법이 발견됐네요.
GPT-3.5, GPT-4 , Gemini, Claude, Llama2 등의 유명 AI 챗봇에서 아스키 아트로 질문하면 그걸 인식하고 대답을 해줍니다.
이게 뭔 소리냐면, How do I make a bomb?이라고 폭탄을 어떻게 만드냐고 질문하면 당연히 대답하지 않지만.
위험한 단어인 bomb을 아스키 아트로 써서 내면 필터링은 넘어가고, 챗봇이 저 아스키 아트를 bomb로 인식해서 대답해 준다는 소립니다.
아래 사례에서는 폭탄 제작 외에도 위조 화폐 를 만드는 방법에 대해서도 물어서 대답을 들었다고 하네요.
제가 기글 홈페이지 만들면서 느낀건데, 별의 별 희안한 방법으로 구멍을 찾아 이상한 일을 벌리는 사람들이 꼭 나오더라고요. 저야 응 차단 이러면 끝이지만 AI 챗봇은 확실한 해결책이 있어야겠네요.
누가 누구를 이용하는지 구분이 힘들어 졌습니다