Stanford Question Answering Dataset (SQuAD)을 사용한 문장 독해력 테스트에서 마이크로소프트와 알리바바가 개발한 AI가 사람보다 더 높은 점수를 기록했다고 합니다.
SQuAD는 500개 이상의 위키피디아 항목을 대상으로 10만개 이상의 질문과 답변을 만들어, 이 중 하나의 단문을 읽어-이해하고-질문에 대한 답을 도출해 내는 테스트입니다.
여기서 어려운 건 AI가 동의어나 문법적인 차이를 이해해야 한다는 데 있습니다. 또 답을 내기 위해 외부의 지식을 필요로 하는 경우도 있습니다.
마이크로소프트는 82,650점, 알리바바는 82,440점을 달성했는데, 둘 다 인간의 82.304점을 넘습니다. 독해력은 인간 수준이라고 봐도 되겠지요.