마이크로소프트가 소프트웨어 개발 중 발생하는 버그 중에서 보안에 관련된 것들을 분류하는 머신 러닝 AI 모델을 개발했습니다.
MS 내부에선 47,000명의 개발자가 근무하며, 한 달에만 해도 3만개의 버그가 생겨납니다. AzureDevOps와 깃허브에 버그를 저장하지만, 이걸 분류하고 우선 순위를 정하는 것만 해도 보통 일이 아닙니다.
그래서 2001년부터 MS 내부에서 수집한 1300만개의 버그 데이터를 활용해 분류하는 방법을 학습시켰습니다. 우선 보안에 관련된 내용인지, 그리고 어느 정도로 심각한지를 구분합니다.
데이터 과학자가 평가한 내용을 보안 전문가가 다시 평가한 자료를 학습시켜 적용한 결과, 99%의 정확도로 보안 버그인지를 확인하고 97%의 정확도로 우선 순위를 식별해 낸다고 합니다.
이번에 사용한 방법은 앞으로 몇 달 안에 깃허브에 공개할 예정입니다.
수많은 티켓 제목들을 보면 안타깝게도 본 내용을 예상할 수 있는 제목이 없는 경우가 많아서... 저 데이터셋으로 만든 모델이 쩌어기 자연에 펼쳐진 뭐시기 오픈소스 이슈 트래커나 소규모 기업의 트래커에서도 여전히 좋은 분류 성능을 보일지는 의문부호가 붙습니다.