애플이 멀티모달 대규모 언어 모델인 MM1의 논문을 공개했습니다. 최대 300억 패러미터의 LLM과 70억 패러미터의 MoE(Mixture-of-Experts)을 쓸 수 있습니다.
고성능 멀티모달 대규모 언어 모델을 구축하면서 사전 학습이나 알고리즘 설계 선택 등, 중요한 항목이 무엇인지 정리했는데요. 모델링에서 이미지 해상도, 비주얼 인코더 손실, 비주얼 인코더 사전 학습 데이터가 높지만 비주얼 데이터를 LLM에 보내는 아키텍처에는 영향이 크지 않았다고 합니다. 또 사전 학습 데이터는 이미지와 캡션, 인터리브 이미지와 텍스트, 텍스트만으로도 높은 성을을 낼 수 있었으나, 데이터 종류에 따라서 영향을 주는 성능이 다르기에 알맞는 데이터를 조합할 필요가 있습니다.