클라우드플레어는 센추리링크/레벨(3)의 네트워크를 사용합니다. 여기에 문제가 생기면 다른 네트워크로 대신 액세스합니다.
그런데 이 센추리링크에서 라우팅에 실수하는 바람에 유효하지 않은 BGP 업데이트가 대량으로 발생했습니다. BGP 업데이트는 라우터 경로가 바뀌거나 더 이상 쓰지 못하게 됐을 때 알려주는 신호입니다. 그 결과 이 회선을 사용하는 모든 업체가 장애를 겪었습니다.
클라우드 플레어는 다른 회선으로 교체했으나 센추리링크 회선에 서버를 올려둔 사이트는 장애가 계속 발생했습니다. 이건 클라우드 플레어에서도 어떻게 할 수 없었다고 합니다.
수습에 시간이 오래 걸린 이유는 많은 BGP 업데이트 때문에 센추리링크가 자신들의 인터페이스에 로그인하기 어려웠을 거라는 추측과, 센추리링크가 아니라 그 고객 중 하나가 잘못된 Flowspec(BGP를 사용해 네트워크에 배포하는 툴)을 사용해 추적이 어려웠을 가능성을 보고 있습니다.
https://gigglehd.com/gg/7131428