구글은 스마트폰에서 실시간으로 비디오 세그먼트 처리를 수행하는 기술을 발표했습니다. 이를 사용하면 스마트폰 카메라로 촬영한 동영상에서 피사체와 배경을 실시간으로 분리해 2개의 레이어로 다루게 됩니다. 이러면 깔끔하게 주 피사체만 따던가 아니면 배경에 다른 걸 합성하기가 쉬워지지요.
기존에는 수작업으로 마스크를 처리하거나, 크로마키 배경을 깔고 사진을 찍었어야 했습니다. 아니면 듀얼 카메라로 촬영해 뎁스 맵을 검출해서 영상을 검출하는 것도 있었으나, 이번에 구글에서 개발한 기술은 머신 러닝을 이용해 싱글 카메라로도 비디오 세그먼트 처리가 가능합니다.
CNN 신경망에서 비디오 세그먼트를 실현하는데, 안정적인 프레임이 나오도록 가벼운 처리, 시간의 흐름에 따른 일관성 유지를 목표로 두고 개발했습니다. RGB의 3개 채널에서 배경과 전경을 분리하는 바이너리 마스크를 계산하고, 속도의 ResNET 개선과 검출 정확도를 위한 DenseNet 레이어 추가를 통해, 아이폰 7에서 100fps, 픽셀 2에서 40fps의 동작을 실현했습니다.