2016년에 구글 딥마인드는 인간을 넘어선 바둑 AI인 알파고를 발표했습니다. 그리고 후속작인 알파고 제로에서는 체스와 일본 장기까지 섭렵했지요. 이제는 범용 AI를 도입한 MuZero를 공개했습니다. 바둑, 체스, 일본 장기 뿐만 아니라 아타리 게임까지 플레이할 수 있다는 게 특징입니다.
지금까지는 AI가 처해진 상황의 정확한 모델을 학습하고 이걸 통해서 문제를 해결해 왔습니다. 이런 방식은 바둑이나 체스처럼 규칙이 명확하고 할 수 있는 행동이 제한된 영역에서는 효과적이었으나, 아타리 게임처럼 다양한 상황과 조건이 주어진 영역에선 쓰기 어렵습니다.
MuZero는 의사 결정 과정에서 중요한 영역만 모델링합니다. 현재의 값이 얼마나 좋은지, 이게 최선의 행동인지, 또 어떤 보상을 얻는지를 모델링해서 행동을 결정해 나갑니다. 새로운 데이터를 수집하는게 아니라 학습된 모델을 반복 사용해 계획을 개선해 나갑니다.