구글 클라우드와 씨게이트는 머신 러닝을 사용해 데이터센터 하드디스크가 언제 고장날지를 예측합니다.
예전에는 하드디스크에 문제가 있다면 거기서 데이터를 빼고 드라이브를 분리하고 진단한 후, 데이터를 넣어서 다시 켜야 했습니다. 이 과정은 시간이 오래 걸릴 수밖에 없습니다.
여기에선 하드디스크의 기본 데이터, 기능, 라벨, 예측 결과, 메타 데이터 등 몇 TB의 데이터를 수집해 학습시켰습니다. 하드디스크의 SMART 정보, 장애 알림, 각종 로그, 하드디스크 모델명 등이 주요 학습 대상입니다.
여기에선 두 가지 모델을 테스트했는데, AutoML 테이블 분류 방식은 정밀도 70~80%에 재현율 20~25%인 반면, 커스텀 딥 트랜스포머 기반 모델은 98%의 정확도에 35%의 재현율을 달성하는데 성공했습니다.