Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
책사랑벌레 https://gigglehd.com/gg/13403207
아직은 살아있는 회원입니다./사람을 관찰
조회 수 1003 댓글 5
Extra Form
참고/링크 https://if.kakao.com/2022/session/1

이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.

 

if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다.

좀 대충 요약해서 부족한 것들이 있을텐데.. 영상을 직접 보시면 더 자세하게 나옵니다.

더 잘 정리된 글은 https://it.chosun.com/site/data/html_dir/2022/12/07/2022120701641.html?fbclid=IwAR0N2jd429CvKryOqrS2FG1IB57Q_0C4BKyLdke5A0bE17wepnyrFGidRtI 여기를 참고해주세요

 

3줄 요약

- 판교데이터센터에 몰빵된 것이 있어 이중화 안 된 서비스들이 있었음

- 서비스/데이터 이중화를 강화하겠다.

- 인프라쪽에 투자 및 인원을 확충하겠다.

 

0) Our Social Mission - 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (nkay.play)

- 대표이사 -> 비상대책위원회 재발방지대책 공동 소위원장

한 달 반 정도 문제 확인

- 이중화가 안 되어있다는 것을 확인하여 원인분석/재발방지/미래투자를 할 예정

 

1) 1015 장애원인 분석 - 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO)

1.1) 발생

- 서비스 서버가 이중화 되어있었으나, 서비스 장애 발생

- 모든 서비스 복구(10.20.)될 때까지 시간이 오래 걸림

 

1.2) 원인분석

- 이중화와 위기 대응 과정에 미흡함이 있음

 

1.2.1) 원인 분석: 이중화

- 데이터센터간 이중화 미흡

ㄴ 서비스 운영에 사용하던 캐시 서버/오브젝트 스토리지 이중화가 완벽하지 않고, 판교 데이터센터에만 있음

ㄴ 카카오 로그인/ 카카오톡 사진 전송기능

- 데이터센터 문제 발생시 감지 후 데이터센터 변경 기능

ㄴ 판교 데이터센터에만 설치

ㄴ 수동으로 전환작업이 진행되 느림

 

1.2.2) 운영 관리 도구/모니터링 시스템 이중화 미흡

ㄴ 안정성 확보 소홀

ㄴ 컨테이너 저장 서버/일부 모니터링 시스템

 

1.2.3) 이중화 전환 후 가용 자원 부족

ㄴ 판교 데이터센터 전체를 대신할 만큼 가용 자원이 확보되어있지 않음

ㄴ 판교 데이터센터 전원이 들어올때까지 모든 시스템 정상화 불가

 

=> 전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감 

ㄴ 개별 시스템 미흡한 이중화 시스템 - 전체 장애

ㄴ 회사 차원에서 체계적인 이중화 준비

 

1.3) 원인 분석: 위기 대응

1.3.1) 장애복구를 위한 인력과 자원 부족

1.3.2) 장애대응 커뮤니케이션 채널 혼선

 

2) 재발방지를 위한 기술적 개선 - 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (ean.lee)

2.1) 전체 시스템 레이어에서 철저한 이중화

- 모니터링 시스템 자중화

- 메인 백본 센터 확장

- 별도 전용망 구성

 

2.2) 데이터

- RDBMS, NoSQL, 분산빅데이터 스토어

ㄴ 분산 빅데이터 스토어 중 Druid/하둡은 부족

ㄴㄴ 다중복제 구조 구성

ㄴㄴ 장애조치 즉각 실시 환경 구축

 

2.3) 운영관리도구 

- 앱 배포 도구 

ㄴ 가용성 인식 부족

ㄴ 이중화는 완료 / 삼중화 예정

 

2.4) 플랫폼

- 자체 클라우드/엘라스틱서치/레디스 등

- 엘라스틱서치/카프카

ㄴ 문제점

ㄴㄴ 이중화가 되어있지 않음

ㄴㄴ 데이터센터 전면장애 대비 구조가 아님

ㄴ 해결방법

ㄴㄴ 데이터센터 단위 삼중화

ㄴㄴ 각 도구의 목적, 영향도, 중요도 파악 프로세스 도임

- 카카오 클라우드

ㄴ 메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨

ㄴ 이로 인해 데이터 유실은 없으나 데이터 위치 못찾음

ㄴ 스토리지 시스템의 데이터센터 단위 3중화

 

2.5) 서비스

2.5.1) 다음 첫 화면

ㄴ HA 구성 / 컨테이너로 구성

ㄴ 캐시서버

ㄴㄴ HA 구성이였으나 자동 동작 실패 

ㄴㄴ 헬스체크 실패로 전부 종료

ㄴㄴ 모니터링 미동작으로 찾는데 시간 오래 걸림

 

2.5.2) 카카오톡 서버/로그인

- 문제점

ㄴ 서비스 간 의존성 문제 / 일부 페일오버 구성 미비

ㄴㄴ 서버를 바로 기동시켜도 의존성 서버가 죽어있으면 실행할 수 없었음

ㄴㄴ 이중화 및 페일오버 자동화해도 동작 이상 감지 서버 문제가 발생하면 불가

ㄴ 트래픽 쏠림시 대응 부족 / 충분치 않은 장애 시나리오

ㄴㄴ 트래픽이 다른 데이터 센터로 넘어감

ㄴㄴ 일부 서버 헬스체크 실패 - 자동 중지 -> 한 서버에 트래픽이 더 몰림

ㄴㄴ 전체 서비스 내려감

ㄴㄴ 다시 기동하려고 하였으나, 컴테이너 이미지 저장소 장애 발생

- 해결책

ㄴ 서비스 간 의존성 최소화

ㄴ 페일오버 구성 문제점 개선

ㄴ 장애 대응 시나리오 재검토

ㄴ 서버 구성정보, 배포설정 이중화

 

2.6) 실행계획

- 전체 시스템 레이어에서의 다중화

- 서비스 간 우선순위 체계화

- 장애 대빈 훈련 확대 실시

- 자체 구축 데이터센터 디자인 개선

 

3) 미래 투자와 혁신 계획 - 비상대책위원회 재발방지대책 공동 소위원장, 고우찬 (gilbert.c)

3.1) 안산 데이터 센터 시공중

ㄴ 무중단 실행

ㄴ UPS/배터리 실 이중화 및 격벽 사용

ㄴㄴ 3중 진화대책

ㄴ 재해 대비책이 있는 데이터 센터

 

3.2) IT 엔지니어링 혁신

3.2.1) 거버넌스

ㄴ IT 엔지니어링을 CEO 하위로 만들 예정

ㄴㄴ 엔지니어링 인원 공격적으로 충원

ㄴㄴ 재해복구 위원회 신설

ㄴㄴ 서비스 연속성 확보 전담 조직 신설

 

3.2.2) BCP/DR

- BCP

ㄴ 사건이 발생해도 사업이 중단되는 사항을 최소화하는 비상 대응 계획

ㄴ 외부 전문가 파트너와 준비할 예정

ㄴ 외부에서 진행하는 카오스엔지니어링 등을 위해 R&D 진행

ㄴ Opensoruce 진행

 

- DR

ㄴ 삼중화 + alpha

ㄴ 삼중화 1개 죽어도 가능

ㄴ 주요서비스는 멀티 서비스 사용하여 서비스 연속성 준비

ㄴㄴ 외부 서비스 클라우드 사용예정

ㄴㄴ 단기간에 살려야 되는 서비스(카카오톡 문자)은 원격지 DR 데이터센터 구축 방안 검토중

 

3.2.3) 투자 확대

- 5년간 투자 비용의 3배 확대



  • profile
    title: 가난한까마귀      잠을 미루는 건 내일이 오지 않길 바래서야. 2022.12.11 10:42
    '전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감'

    강의에서 (외부유출?금지) 로 들었던 내용들 그냥 푸네요
  • profile
    rnlcksk      감사합니다! 2022.12.11 11:44
    저말대로면 간단한 말로 개판이라 완전히 갈아엎어야겠는데요.
    출처 보니 혁신 이란 소리가 보이는데 이게 맞나...
  • ?
    실핀 2022.12.11 13:14
    각 서비스별 이중화 상황으로 인한 오류 내용 분석과 그에 대한 앞으로의 해결방안보단 한국에서 사업한지 10년이 넘었고 (준)공공 메신저로 사용되는 상황에서 왜 아직까지 저 모양이였냐는게 더 의문이 드는거죠.

    지금까지 수많은 장애가 있던 서비스인데, 과거에 각각의 장애 발생 시 그러한 장애를 더 이상 발생시키지 않을 어떤 대책을 강구했는지, 왜 그런 해결방안이 나왔는지, 근데 왜 이번엔 대응이 안됐던 것인지에 대한 좀 더 근원적인 내용은 안보이네요.
  • profile
    캐츄미      5700g, 5800x, 5950x 2022.12.11 13:59
    완벽한 이중화란 결국 두배의 비용을 뜻하죠
    그나저나 이사고 이후로 이중화를 구성하니 하던곳들이 요즘들어 조용한게 그냥 적당한 수준에서 넘어가나 봅니다
  • ?
    nsys 2022.12.12 04:55
    메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨
    - 미친놈들인가??

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    네이버 PC 메인 페이지의 TLS 1.2 미만 구 버전 브라우저 지원이 종료될 예정

      안녕하세요, 네이버 PC 메인 담당자입니다. ​ ​ 서비스 보안 강화 및 안정성을 위해 2023년 12월 28일부로 TLS 1.2 미만의 프로토콜을 사용하는 구 버전 브라우저 지원이 종료됩니다. (대상 브라우저: IE 7~10, Safari 5.1.9, Safari 6....
    Date2023.12.21 소식 By이틀살이 Reply4 Views767
    Read More
  2. 리눅스에서 코어 울트라 7 155H와 라이젠 7 7840U의 성능 비교

    리눅스에서 코어 울트라 7 155H와 라이젠 7 7840U의 성능을 비교한 테스트입니다. 370개의 벤치마크를 실행했는데 종합 결과만 가져오면 이렇습니다. 인텔이 모든 테스트에서 라이젠 7 7840U보다 28%씩 성능이 떨어지는 건 아니고요. 370...
    Date2023.12.21 소식 By낄낄 Reply4 Views1340 file
    Read More
  3. No Image

    마이크로소프트 실수로 DNS가 잘못 배포되는 해프닝이 있었음.

    https://news.ycombinator.com/item?id=38702783   -----------------------   2023년 12월 20일 마이크로소프트에서 microsoft.com 도메인 DNS를 192.168.1.1 로 배포하는 해프닝이 있었습니다.   약 하루가 경과하여 대부분은 해결 되었...
    Date2023.12.21 소식 Bytitle: 가난한카토메구미 Reply2 Views696
    Read More
  4. No Image

    방통위, 유튜브·넷플릭스 가격 인상에 칼 빼들었다

    방송통신위원회는 "유튜브·넷플릭스 등 주요 OTT의 요금 인상과 관련해 실태 점검에 들어가겠다"고 밝혔습니다. 방통위는 사업자별 요금 인상 내역 이용약관, 이용자 고지 등을 점검해 전기통신사업법상 금지행위 위반 행위에 해당...
    Date2023.12.21 소식 By낄낄 Reply12 Views727
    Read More
  5. No Image

    HWiNFO의 최신 버전에서 인텔 새 CPU/GPU를 지원

    HWiNFO의 최신 버전인 7.68에서 인텔 새 CPU/GPU를 지원합니다. 인텔 애로우레이크 지원 향상, 팬서레이크 사전 지원이 추가됐고요. 다음 버전에서는 팬서레이크에 이어 노바레이크를 예비 지원하고, 배틀메이지와 셀레스티얼을 예비 지원...
    Date2023.12.21 소식 By낄낄 Reply0 Views301
    Read More
  6. 벌칸 비디오 확장 프로그램엣 ㅓH.264/265 인코딩 가속, AV1 지원 예정

    크로노스는 벌칸 1.3.274에서 H.264와 H.265 비디오 인코딩/디코딩을 지원할 예정이라고 밝혔습니다. 또 AV1도 지원을 위해 작업 중입니다. AV1 디코딩 확장이 나올 예정이며 AV1 인코딩이 개발 중입니다.
    Date2023.12.21 소식 By낄낄 Reply3 Views463 file
    Read More
  7. No Image

    (유럽에서) 안 본 남자 없다는 ‘19금 사이트’ 철퇴…성인인증 등 규제 강화

    유럽연합(EU)이 세계에서 가장 큰 성인플랫폼 세 곳에 칼을 빼들었다. 엑스비디오, 폰허브, 스트립챗이다. “앞으로 이들 성인사이트가 사용자들의 나이를 확인할 수 있는 시스템을 의무적으로 확보하는 것과 함께 다양한 엄격한 조...
    Date2023.12.21 소식 By낄낄 Reply7 Views942
    Read More
  8. 카카오,방송 개선 노력시작

          출처는 카카오 티비 소식 공식블로그에요               담당자님이야 없는 자원(인적,자본적)으로 열심히 굴려본거겠지만   서비스종료 뭐종료 종료만 예고하다가 이제와서 저러는걸 보면 야 광대들 시청자 끽해야 1만명씩 나오는...
    Date2023.12.21 소식 By고자되기 Reply6 Views586 file
    Read More
  9. No Image

    ‘수수료 갑질’ 하다가 9000억 토해낼판…이용자에 돈 돌려준다는데

    구글이 자사 앱스토어 결제 방식을 둘러싸고 미국의 인기 게임 제작사 에픽게임즈와 벌인 반독점 소송을 일단락시키기 위해 미국 각 주와 소비자들에게 7억달러 합의금을 지급하기로 했다. 구글은 이번 합의를 통한 금전적 보상뿐만 아니...
    Date2023.12.20 소식 By낄낄 Reply0 Views999
    Read More
  10. No Image

    운영체제깔렸던 SSD 개인정보 문제없이 완전히 삭제할려면

      안녕하세요    제가 컴퓨터를 중고로 팔면서  운영체제깔린 nvme ssd에  파일들을 복구불가능하게 삭제할려고하는데요 SSD의경우 하드디스크와 다르게 트림?trim? 한번만 해주면 파일복구불가능하다고하는데...    혹시 저의 경우는    ...
    Date2023.12.20 질문 ByHAN3290 Reply14 Views1271
    Read More
  11. No Image

    28GHz 주파수 3개 사업자가 할당 신청

    [보도자료] 28GHz 대역 이동통신 주파수 할당신청 접수 마감 세종텔레콤, 스테이지엑스, 마이모바일 컨소시엄이 신청서를 제출했습니다. 세종텔레콤은 B2B ISP이지만 알뜰폰 사업도 합니다. 스테이지엑스는 옛 카카오 계열사 스테이지파이...
    Date2023.12.20 소식 Bytitle: 컴맹임시닉네임 Reply6 Views434
    Read More
  12. No Image

    윈도우 11 KB5033375 업데이트 설치 후 Wi-fi 연결 중단

    윈도우 11에 KB5033375나 KB50532288 업데이트를 설치하면 Wi-fi 연결이 끊기는 문제가 있다고 합니다. 다만 일반 가정에서 발생하는 문제는 아니고 ebcsecure, ubcprivate, eduroam 등의 엔터프라이즈용 무선 네트워크에서 발생하는 문제...
    Date2023.12.20 소식 By낄낄 Reply2 Views428
    Read More
  13. 마이크로소프트 이그나이트 2023 컨퍼런스 댓글 재방송 중계[3차 - AI(인공지능)를(을) 통한 미래의 보안]

      ※ 바로 시작하겠습니다. 댓글에서 뵙겠습니다.   ★ 본래 2023년 11월 17일 새벽 3시 15분부터 시작할려고 했으나, 개인 및 업무 사정으로 인하여 부득이하게 12월 연말 지나기 직전에 진행하게 되었습니다.    이 부분은 회원분들께서 ...
    Date2023.12.20 소식 By블레이더영혼 Reply41 Views170 file
    Read More
  14. No Image

    Meta, 사칭 광고 도용 피해자에 공개 사과

    [언론 보도] 백종원 사기광고는 방치하더니...메타, 카타르 억만장자엔 공개 사과 위삼 알 마나라는 카타르 억만장자가 자신의 사진이 도용되자 메타를 상대로 소송을 제기하였고, Meta는 법원에서 "진심으로 그리고 아낌없이 사과드린다"...
    Date2023.12.19 소식 Bytitle: 컴맹임시닉네임 Reply3 Views642
    Read More
  15. 윈도우 작업표시줄이 열리지 않게끔 막을 수 있나요

    윈11 돌리는 15인치 노트북 환경입니다 최대한 화면을 넓게 쓰고싶고, OLED라서 최대한 번인을 피하고싶기 때문에 작업표시줄을 숨기는 쪽을 선호합니다. 그래서 윈도우 설정에서 작업표시줄을 자동으로 숨기게끔 설정해두었는데, 이것만...
    Date2023.12.19 질문 Bytitle: 폭8이게뭘까 Reply6 Views606 file
    Read More
목록
Board Pagination Prev 1 ... 28 29 30 31 32 33 34 35 36 37 ... 578 Next
/ 578

최근 코멘트 30개

AMD
더함
한미마이크로닉스
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소