Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
책사랑벌레 https://gigglehd.com/gg/13403207
아직은 살아있는 회원입니다./사람을 관찰
조회 수 1003 댓글 5
Extra Form
참고/링크 https://if.kakao.com/2022/session/1

이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.

 

if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다.

좀 대충 요약해서 부족한 것들이 있을텐데.. 영상을 직접 보시면 더 자세하게 나옵니다.

더 잘 정리된 글은 https://it.chosun.com/site/data/html_dir/2022/12/07/2022120701641.html?fbclid=IwAR0N2jd429CvKryOqrS2FG1IB57Q_0C4BKyLdke5A0bE17wepnyrFGidRtI 여기를 참고해주세요

 

3줄 요약

- 판교데이터센터에 몰빵된 것이 있어 이중화 안 된 서비스들이 있었음

- 서비스/데이터 이중화를 강화하겠다.

- 인프라쪽에 투자 및 인원을 확충하겠다.

 

0) Our Social Mission - 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (nkay.play)

- 대표이사 -> 비상대책위원회 재발방지대책 공동 소위원장

한 달 반 정도 문제 확인

- 이중화가 안 되어있다는 것을 확인하여 원인분석/재발방지/미래투자를 할 예정

 

1) 1015 장애원인 분석 - 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO)

1.1) 발생

- 서비스 서버가 이중화 되어있었으나, 서비스 장애 발생

- 모든 서비스 복구(10.20.)될 때까지 시간이 오래 걸림

 

1.2) 원인분석

- 이중화와 위기 대응 과정에 미흡함이 있음

 

1.2.1) 원인 분석: 이중화

- 데이터센터간 이중화 미흡

ㄴ 서비스 운영에 사용하던 캐시 서버/오브젝트 스토리지 이중화가 완벽하지 않고, 판교 데이터센터에만 있음

ㄴ 카카오 로그인/ 카카오톡 사진 전송기능

- 데이터센터 문제 발생시 감지 후 데이터센터 변경 기능

ㄴ 판교 데이터센터에만 설치

ㄴ 수동으로 전환작업이 진행되 느림

 

1.2.2) 운영 관리 도구/모니터링 시스템 이중화 미흡

ㄴ 안정성 확보 소홀

ㄴ 컨테이너 저장 서버/일부 모니터링 시스템

 

1.2.3) 이중화 전환 후 가용 자원 부족

ㄴ 판교 데이터센터 전체를 대신할 만큼 가용 자원이 확보되어있지 않음

ㄴ 판교 데이터센터 전원이 들어올때까지 모든 시스템 정상화 불가

 

=> 전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감 

ㄴ 개별 시스템 미흡한 이중화 시스템 - 전체 장애

ㄴ 회사 차원에서 체계적인 이중화 준비

 

1.3) 원인 분석: 위기 대응

1.3.1) 장애복구를 위한 인력과 자원 부족

1.3.2) 장애대응 커뮤니케이션 채널 혼선

 

2) 재발방지를 위한 기술적 개선 - 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (ean.lee)

2.1) 전체 시스템 레이어에서 철저한 이중화

- 모니터링 시스템 자중화

- 메인 백본 센터 확장

- 별도 전용망 구성

 

2.2) 데이터

- RDBMS, NoSQL, 분산빅데이터 스토어

ㄴ 분산 빅데이터 스토어 중 Druid/하둡은 부족

ㄴㄴ 다중복제 구조 구성

ㄴㄴ 장애조치 즉각 실시 환경 구축

 

2.3) 운영관리도구 

- 앱 배포 도구 

ㄴ 가용성 인식 부족

ㄴ 이중화는 완료 / 삼중화 예정

 

2.4) 플랫폼

- 자체 클라우드/엘라스틱서치/레디스 등

- 엘라스틱서치/카프카

ㄴ 문제점

ㄴㄴ 이중화가 되어있지 않음

ㄴㄴ 데이터센터 전면장애 대비 구조가 아님

ㄴ 해결방법

ㄴㄴ 데이터센터 단위 삼중화

ㄴㄴ 각 도구의 목적, 영향도, 중요도 파악 프로세스 도임

- 카카오 클라우드

ㄴ 메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨

ㄴ 이로 인해 데이터 유실은 없으나 데이터 위치 못찾음

ㄴ 스토리지 시스템의 데이터센터 단위 3중화

 

2.5) 서비스

2.5.1) 다음 첫 화면

ㄴ HA 구성 / 컨테이너로 구성

ㄴ 캐시서버

ㄴㄴ HA 구성이였으나 자동 동작 실패 

ㄴㄴ 헬스체크 실패로 전부 종료

ㄴㄴ 모니터링 미동작으로 찾는데 시간 오래 걸림

 

2.5.2) 카카오톡 서버/로그인

- 문제점

ㄴ 서비스 간 의존성 문제 / 일부 페일오버 구성 미비

ㄴㄴ 서버를 바로 기동시켜도 의존성 서버가 죽어있으면 실행할 수 없었음

ㄴㄴ 이중화 및 페일오버 자동화해도 동작 이상 감지 서버 문제가 발생하면 불가

ㄴ 트래픽 쏠림시 대응 부족 / 충분치 않은 장애 시나리오

ㄴㄴ 트래픽이 다른 데이터 센터로 넘어감

ㄴㄴ 일부 서버 헬스체크 실패 - 자동 중지 -> 한 서버에 트래픽이 더 몰림

ㄴㄴ 전체 서비스 내려감

ㄴㄴ 다시 기동하려고 하였으나, 컴테이너 이미지 저장소 장애 발생

- 해결책

ㄴ 서비스 간 의존성 최소화

ㄴ 페일오버 구성 문제점 개선

ㄴ 장애 대응 시나리오 재검토

ㄴ 서버 구성정보, 배포설정 이중화

 

2.6) 실행계획

- 전체 시스템 레이어에서의 다중화

- 서비스 간 우선순위 체계화

- 장애 대빈 훈련 확대 실시

- 자체 구축 데이터센터 디자인 개선

 

3) 미래 투자와 혁신 계획 - 비상대책위원회 재발방지대책 공동 소위원장, 고우찬 (gilbert.c)

3.1) 안산 데이터 센터 시공중

ㄴ 무중단 실행

ㄴ UPS/배터리 실 이중화 및 격벽 사용

ㄴㄴ 3중 진화대책

ㄴ 재해 대비책이 있는 데이터 센터

 

3.2) IT 엔지니어링 혁신

3.2.1) 거버넌스

ㄴ IT 엔지니어링을 CEO 하위로 만들 예정

ㄴㄴ 엔지니어링 인원 공격적으로 충원

ㄴㄴ 재해복구 위원회 신설

ㄴㄴ 서비스 연속성 확보 전담 조직 신설

 

3.2.2) BCP/DR

- BCP

ㄴ 사건이 발생해도 사업이 중단되는 사항을 최소화하는 비상 대응 계획

ㄴ 외부 전문가 파트너와 준비할 예정

ㄴ 외부에서 진행하는 카오스엔지니어링 등을 위해 R&D 진행

ㄴ Opensoruce 진행

 

- DR

ㄴ 삼중화 + alpha

ㄴ 삼중화 1개 죽어도 가능

ㄴ 주요서비스는 멀티 서비스 사용하여 서비스 연속성 준비

ㄴㄴ 외부 서비스 클라우드 사용예정

ㄴㄴ 단기간에 살려야 되는 서비스(카카오톡 문자)은 원격지 DR 데이터센터 구축 방안 검토중

 

3.2.3) 투자 확대

- 5년간 투자 비용의 3배 확대



  • profile
    title: 가난한까마귀      잠을 미루는 건 내일이 오지 않길 바래서야. 2022.12.11 10:42
    '전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감'

    강의에서 (외부유출?금지) 로 들었던 내용들 그냥 푸네요
  • profile
    rnlcksk      감사합니다! 2022.12.11 11:44
    저말대로면 간단한 말로 개판이라 완전히 갈아엎어야겠는데요.
    출처 보니 혁신 이란 소리가 보이는데 이게 맞나...
  • ?
    실핀 2022.12.11 13:14
    각 서비스별 이중화 상황으로 인한 오류 내용 분석과 그에 대한 앞으로의 해결방안보단 한국에서 사업한지 10년이 넘었고 (준)공공 메신저로 사용되는 상황에서 왜 아직까지 저 모양이였냐는게 더 의문이 드는거죠.

    지금까지 수많은 장애가 있던 서비스인데, 과거에 각각의 장애 발생 시 그러한 장애를 더 이상 발생시키지 않을 어떤 대책을 강구했는지, 왜 그런 해결방안이 나왔는지, 근데 왜 이번엔 대응이 안됐던 것인지에 대한 좀 더 근원적인 내용은 안보이네요.
  • profile
    캐츄미      5700g, 5800x, 5950x 2022.12.11 13:59
    완벽한 이중화란 결국 두배의 비용을 뜻하죠
    그나저나 이사고 이후로 이중화를 구성하니 하던곳들이 요즘들어 조용한게 그냥 적당한 수준에서 넘어가나 봅니다
  • ?
    nsys 2022.12.12 04:55
    메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨
    - 미친놈들인가??

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    트위터 블루 서비스 시작. 매달 8달러, iOS는 11달러

    트위터 블루 서비스가 재개됐습니다. 구독 요금은 매달 8달러, iOS에서는 수수료까지 붙여서 11달러입니다. 구독자는 이름 옆에 파란색 체크 표시가 추가되지만, 아무한테나 주는 건 아니고 전화번호와 계정을 검토한 후에 확인해 줍니다....
    Date2022.12.12 소식 By낄낄 Reply1 Views470
    Read More
  2. '조선인이 우물에 독을 탔어요' 의 자위대 버전

      12월 9일 기사입니다. 자위대가 러시아와 중국을 보고 아 우리도 만들어야지 데헷으로 SNS에서 여론공작을 하는 AI를 개발하고 있다고 합니다.   음... Orwell: Ignorance is Strength 에 이런게 나오던데 말이죠(AI가 알아서 여론 주...
    Date2022.12.11 소식 Bytitle: 폭8책읽는달팽 Reply0 Views1200 file
    Read More
  3. No Image

    if kakao 1일차 - 카카오 서비스 장애 원인 분석과 개선사항

    이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.   if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다. 좀 대...
    Date2022.12.11 소식 By책사랑벌레 Reply5 Views1003
    Read More
  4. 로제타 2 이야기

    로제타 2는 기본적으로 x86 -> ARM 번역기입니다. 네... 물론 JIT도 있지만요. 그것보다 생각보다 왜 빠른가? 그리고 깊숙한 설명이 좀 많이 늦네요... 나온지 수년은 되었는데...   여튼 사람들은 로제타 2가 어케 작동하는지, 왜케 빨리...
    Date2022.12.10 일반 Bytitle: 폭8책읽는달팽 Reply1 Views1433 file
    Read More
  5. 과자 먹는 소리가 녹음되지 않도록 막아주는 기술

    NVIDIA RTX 보이스는 게임 스트리머들이 방송 중에 주변 소음이 녹음되지 않도록 없애주는 기술입니다. 그리고 이걸 응용한 Doritos Crunch Cancellation가 나왔습니다. 과자를 먹을 때 나은 소리가 함께 녹음되지 않도록 막아준다고 하...
    Date2022.12.10 소식 By낄낄 Reply11 Views2258 file
    Read More
  6. 데스크탑 크롬, 메모리 절약/저전력 모드 추가

    크롬 데스크탑 버전에 메모리와 전력 사용량을 절이는 모드가 추가됩니다. 메모리 절약 모드는 포그라운드에 나온 탭의 표시를 유지하면서 사용하지 않는 탭의 메모리 사용량을 줄여, 최대 40%/10GB의 메모리 사용량 절약 효과를 냅니다. ...
    Date2022.12.10 소식 By낄낄 Reply2 Views1144 file
    Read More
  7. 윈11에서 기묘한 밝기 조절 버그를 겪고 있습니다...

    레노버 씽크패드 E15 Gen 2 (AMD) 모델입니다. 라이젠 4500U 들어간 모델인데.... 장시간동안 화면을 닫아놓았다가 다시 열면, 가끔씩 밝기 조절이 제대로 안 되는 버그를 겪고 있습니다. 일단 화면을 열어보면 어둡다는 게 바로 보여요. ...
    Date2022.12.10 질문 ByCliche Reply7 Views1109 file
    Read More
  8. 2022년 한국 유튜브 인기 순위

    2022년 한국 유튜브 인기 순위입니다. 아래 검색어 순위는 그래도 알겠는데, 유튜브는 전혀 보질 않으니 아는게 아마존 영상밖에 없군요.. 인기 동영상 인기 쇼츠 영상 인기 뮤직비디오 인기 크리에이터 급성장 크리에이터
    Date2022.12.09 소식 By낄낄 Reply7 Views1781 file
    Read More
  9. No Image

    구글의 2022년 인기 검색어

    구글의 2022년 인기 검색어입니다. 한국 순위만 소개합니다. 다른 나라는 접속해서 보세요. 스포츠/연예 쪽도 직접 가서 보세요. 개인적으로 별 관심이 없어서 옮기기 귀찮네요. 종합 1 기후 변화 2 이상한 변호사 우영우 3 초단기 강수 ...
    Date2022.12.09 소식 By낄낄 Reply4 Views892
    Read More
  10. 2022년의 트위터 통계 111가지

    2022년의 트위터 통계 111가지 입니다. 트위터 사용자의 56.4%가 남성, 43.6%가 여성 소셜 미디어 플랫폼 중 사용자 수 기준으로 15위 2021년 트위터 수익은 50억 달러 일론 머스크의 트위터 인수 금액은 440억 달러 트위터에서 가장 팔로...
    Date2022.12.09 소식 By낄낄 Reply1 Views471 file
    Read More
  11. No Image

    애플, CSAM을 위해 아이클라우드 사진을 스캔하려던 계획을 포기

    애플은 CSAM(아동 성 학대 자료)를 탐지하기 위해 아이클라우드에 업로드된 사진을 스캔하려던 계획을 포기했습니다. 애플이라는 회사가 개인적인 데이터를 뒤지지 않아도 아동/청소년을 보호할 수 있도록, 관련 자료 공유를 차단하는 쪽...
    Date2022.12.09 소식 By낄낄 Reply0 Views532
    Read More
  12. iOS 16.2부터 에어드랍 시간제한 전면 적용

    애플은 iOS 16.1.1 버전부터 중국 지역에 한해 에어드랍을 모든 사람에게 배포하는 시간을 10분으로 제한했습니다. 그리고 iOS 16.2 버전부터는 중국 뿐만 아니라 모든 국가/지역에서 똑같은 제한이 걸립니다. 애플은 사람들이 많이 모이...
    Date2022.12.09 소식 By낄낄 Reply0 Views615 file
    Read More
  13. No Image

    텔레그램 최신 업데이트, 전화번호 없이 가입 가능

    텔레그램의 최신 업데이트에서 바뀐 내용입니다. 우선 유심 없이 텔레그램 가입이 가능합니다. 프래그먼트 플랫폼의 블록체인 기반 익명 번호를 써서 로그인할 수 있다고 합니다. 블록체인을 이런 데에 쓸 수도 있구뇽. 또 모든 대화에 자...
    Date2022.12.09 소식 By낄낄 Reply1 Views1078
    Read More
  14. No Image

    화재 8분만에 서버 불능…韓 데이터센터 역사상 처음

    8일 카카오는 연례 개발자 콘퍼런스 ‘이프카카오데브2022(if kakao dev 2022, 이하 이프카카오)’에서 ‘1015장애회고’를 공개했다. 1015장애회고는 ▲데이터센터 단위 다중화를 위한 고민, ▲인프라설비 ▲데이터 ▲서...
    Date2022.12.09 소식 By낄낄 Reply8 Views1073
    Read More
  15. No Image

    “급락한 비트코인, 이젠 캘수록 손해”… ‘줄도산’ 위기 맞은 채굴업체들

    8일 가상자산 업계에 따르면 이날 기준 비트코인 가격은 1만6826달러로 지난해 같은 기간보다 66.7% 하락했다. 최고점을 찍은 지난해 12월과 비교하면 73%의 하락률을 기록 중이다. 미국의 빠른 기준금리 인상과 함께 최근 세계 3위 가상...
    Date2022.12.09 소식 By낄낄 Reply9 Views915
    Read More
목록
Board Pagination Prev 1 ... 127 128 129 130 131 132 133 134 135 136 ... 579 Next
/ 579

더함
MSI 코리아
AMD
한미마이크로닉스

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소