클라우드플레어가 6월 21일에 있었던 장애 원인에 대해 설명했습니다. 클라우드플레어가 결함에 더 잘 버티기 위해 네트워크 설정을 바꾸다가 생긴 일이라네요.
클라우드플레어는 유지 보수를 위해 네트워크 일부를 잠시 끄거나, 장애가 발생하면 해당 부분만 무효화할 수 있도록 해서 신뢰도와 유지보수를 쉽게 만들고 있습니다. 이번에는 전세계 19개 데이터센터에서 아키텍처 변환 작업을 하고 있었습니다.
그 중에 라우팅 프로토콜의 정책이 바뀌며 경로에서 withdrawn가 발생해 인터넷 접속이 안 됐다고 합니다. 클라우드가 처리에 성공한 http 리퀘스트가 50%까지 줄어들었다고 하네요.