구글이 스마트폰에서 오프라인으로 실행하는 새로운 신경망 음성 기술을 발표했습니다. 왼쪽이 기존의 음성 인식, 오른쪽이 새로운 음성 인식 기술을 묘사한 이미지입니다. 이 기술은 안드로이드 IME인 Gboard에 포함돼 픽셀 스마트폰에서 제공 중입니다. 일단은 영어만.
새로운 음성 인식 기능은 회귀형 신경망 트랜스듀서(RNN-T)를 사용, 스마트폰에 훈련된 모델을 넣어 음성 인식하고, 오프라인에서도 작동하며, 보다 빠르게 실시간 입력이 가능합니다. RNN-T는 기존의 음성 인식처럼 단어 단위로 인식하는 게 아니라 글자 단위로 인식합니다. 지금까지는 단어를 다 듣고 파악했지만 이제는 한글자 한글자씩 인식해서 표시한다는 소리죠. 이쯤에서 위의 움짤이 뭐가 다른가 다시 보셔야 될듯.
기존의 음성 인식 모델은 2GB에 달하는 거대한 데이터를 검색해야 하기에 스마트폰에서 실행하는 게 아니라 클라우드에 검색 모델을 띄우고 스마트폰에선 그 결과만 받는 식이었습니다. 하지만 새로 개발한 음성 인식은 RNN-T의 크기를 450MB으로 줄이면서 기존과 같은 정밀도를 유지합니다.
구글은 450MB도 너무 크다고 판단, 텐서플로우 라이트 라이브러리를 사용해 모델 크기를 더욱 줄였습니다. 그 결과 부동소수점 모델의 1/4로 최적화하고 실행 속도가 4배 빨라져, 결과적으로 80MB 크기의 데이터를 싱글코어로 실시간 처리할 수 있는 수준이 됐습니다.
그나저나 데이터셋은 뭘썻을지 궁금하네요