옥스포드 대학의 연구팀은 대규모 언어 모델에서 쓰는 언어에 따라 처리 비용과 시간에 차이가 있다는 논문을 발표했습니다.
대규모 언어 모델에 입력된 문장을 분할하는 토큰화 단계에서 언어마다 필요한 토큰의 수에 차이가 생기는데요. 최대 15배까지 토큰이 차이나기도 했습니다.
대규모 언어 모델 처리에선 토큰이나 문자의 수로 요금을 처리하기에 AI 사용 비용도 차이가 납니다. 또 토큰이 늘어날수록 처리 시간도 늘어나고요.
단순히 영어를 써서 연구가 많이 이루어져서 영어가 유리한 게 아니라, 영어가 토큰화 처리에서 효율적인 언어라고 합니다. 그래서 가격은 4배, 처리 시간은 2배 가량 차이가 나기도 한다네요.
한글이 과학적이고 효율적이며 많은 발음을 표기할 수 있다는 주장도 있었는데, AI 시대에선 그게 옛말이 될 수도 있겠군요..
영어=언어
둘은 서로 다른 비교 대상입니다.
AI시대에서 영어 대비 불리한건 한국어의 문법상 구조탓이지
한글 표기 문자와는 전혀 다른 문제입니다.