마이크로소프트 Suphx가 일본의 온라인 마작 대전 플랫폼인 텐호에서 10단을 달성했습니다. 10단이면 거의 최고 수준으로, 현재 10단은 12명, 한번이라도 10단을 찍었던 사람도 180명밖에 안됩니다.
5천번 이상의 대국에서 평균 8.7 이상의 단수를 유지했는데, 이 역시 사람보다 높습니다. 최고 수준의 사람도 1만번 둬서 7.4단이라네요.
마지막은 136개의 패가 있으며, 4명의 플레이어 순서가 고정되지 않습니다. 누가 쯔모를 하면 순서가 바뀌거든요. 그래서 마작은 알파고같은 일반적인 게임 AI의 몬테카를로 트리를 쓰지 못합니다.
또 체스나 바둑은 상대방의 상태가 공개됐지만 마작은 상대방의 패를 전부 보지 못합니다. 또 점수 계산도 상당히 복잡한 편에 속합니다.
그래서 전반적인 상황의 통계적인 인식을 진행하고, 불완전 정보 게임에서 적합한 선택을 위해 모르는 정보를 안다고 가정하고 연산을 수행해 나갑니다. 복잡한 점수 계산은 장기적인 보상 예측 네트워크로 계산했습니다.