Google 내부 보고서 유출 보면, OpenAI나 Google이 AI 학습에 들어가는 자원의 소모량이 현재 Community에서 자발적으로 개발하는 것 대비해서 비용 소모가 크다고 하더군요.
특히 기업으로서는 추가적으로 정부와 같은 여러 이해 기관들의 규제에만족하기 위해서 처음부터 학습 데이터를 만들거나 이미 학습된 모델을각 규제에 맞춰서 테스트 하는 등의 여러 추가적인 비용 요소가 크다고 하네요.
반면에, 대중들이 만들 때는 자료를 학습할 때 이미 공개된 기업의 논문을 참고해서 넣기 때문에 처음 학습부터 자료를 확보하기 위한 노력이 들어가지 않았고, 이후 추가적인 자료 수집이나 학습에서 굳이 각 정부 기관의 입맞에 맞을 기업처럼검열된 정보를 걸러낸다거나 아니면 개발자들에 인건비를 지출한다거나 등의 필요가 없으니 생각 이상으로 빠르게 발전하고 있다고요.
즉, 자발적으로 참여하는 인력에 대해서 지출이 없고, 순수하게 자신만의 LLM을 소유하고자 하는 욕망에 Cloud Service를 자발적으로 이용해 서로 공유하는 상황이 일어나고 있다 보니까 기업이 지금은 우위에 있지만 이들의 발전 속도를 보면 오래 가지 않을 것이란 의견을 내놓았어요.
한편으로 Meta의 유출된 LLM을 기준으로 새로 학습을 하거나 만드는 과정을 거치기 때문에 여기서 얻은 자료들이 Meta의 LLM에도 반영될 수도 있어서 Meta가 유출이라는 이름 아래에 일부러 자신들의 LLM을 공개한 것 아닌가란 의견도 있네요.
실제로, Meta의 LLM과 논문을 분석하여 동일한 데이터로 학습한 Apache License 기반 LLM도 공개가 되었으니까요.
실제 Local 환경에서 구동되는 LLM 전부가 Meta 기반이거나 Meta LLM의 Reverse engineering 기반이라서 프롬프트나 설정값들이 Meta LLM에도 공유가 되다보니 사실상 OpenAI가 GPT API 제공하면서 얻은 젙보 기반으로 다시 GPT 학습에 이용하였건 것처럼 Meta도 그러지 않으리란 보장이 없다는 말도 나오고요...
그러서 최근에 OpenAI가 130조 투자를 받아서 연내 AGI를 도달 하겠다는 말을 하는 것이 아닌가란 생각도 들어요.
물론 모든 것은 개인적인 생각입니다.
클라우드로 충당하기에는 너무 비싸고 그렇다고 초기 투자를 늘려서 자체 클러스터를 구비하자니 너무 일이 커지니까요. 대표적인 LLM인 GPT3 175B 크기 모델을 학습할 수 있는 H/W에 접근 가능한 연구 그룹은 다들 뒷배경이 하나씩은 있....