Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
책사랑벌레 https://gigglehd.com/gg/13403207
아직은 살아있는 회원입니다./사람을 관찰
조회 수 1003 댓글 5
Extra Form
참고/링크 https://if.kakao.com/2022/session/1

이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.

 

if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다.

좀 대충 요약해서 부족한 것들이 있을텐데.. 영상을 직접 보시면 더 자세하게 나옵니다.

더 잘 정리된 글은 https://it.chosun.com/site/data/html_dir/2022/12/07/2022120701641.html?fbclid=IwAR0N2jd429CvKryOqrS2FG1IB57Q_0C4BKyLdke5A0bE17wepnyrFGidRtI 여기를 참고해주세요

 

3줄 요약

- 판교데이터센터에 몰빵된 것이 있어 이중화 안 된 서비스들이 있었음

- 서비스/데이터 이중화를 강화하겠다.

- 인프라쪽에 투자 및 인원을 확충하겠다.

 

0) Our Social Mission - 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (nkay.play)

- 대표이사 -> 비상대책위원회 재발방지대책 공동 소위원장

한 달 반 정도 문제 확인

- 이중화가 안 되어있다는 것을 확인하여 원인분석/재발방지/미래투자를 할 예정

 

1) 1015 장애원인 분석 - 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO)

1.1) 발생

- 서비스 서버가 이중화 되어있었으나, 서비스 장애 발생

- 모든 서비스 복구(10.20.)될 때까지 시간이 오래 걸림

 

1.2) 원인분석

- 이중화와 위기 대응 과정에 미흡함이 있음

 

1.2.1) 원인 분석: 이중화

- 데이터센터간 이중화 미흡

ㄴ 서비스 운영에 사용하던 캐시 서버/오브젝트 스토리지 이중화가 완벽하지 않고, 판교 데이터센터에만 있음

ㄴ 카카오 로그인/ 카카오톡 사진 전송기능

- 데이터센터 문제 발생시 감지 후 데이터센터 변경 기능

ㄴ 판교 데이터센터에만 설치

ㄴ 수동으로 전환작업이 진행되 느림

 

1.2.2) 운영 관리 도구/모니터링 시스템 이중화 미흡

ㄴ 안정성 확보 소홀

ㄴ 컨테이너 저장 서버/일부 모니터링 시스템

 

1.2.3) 이중화 전환 후 가용 자원 부족

ㄴ 판교 데이터센터 전체를 대신할 만큼 가용 자원이 확보되어있지 않음

ㄴ 판교 데이터센터 전원이 들어올때까지 모든 시스템 정상화 불가

 

=> 전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감 

ㄴ 개별 시스템 미흡한 이중화 시스템 - 전체 장애

ㄴ 회사 차원에서 체계적인 이중화 준비

 

1.3) 원인 분석: 위기 대응

1.3.1) 장애복구를 위한 인력과 자원 부족

1.3.2) 장애대응 커뮤니케이션 채널 혼선

 

2) 재발방지를 위한 기술적 개선 - 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (ean.lee)

2.1) 전체 시스템 레이어에서 철저한 이중화

- 모니터링 시스템 자중화

- 메인 백본 센터 확장

- 별도 전용망 구성

 

2.2) 데이터

- RDBMS, NoSQL, 분산빅데이터 스토어

ㄴ 분산 빅데이터 스토어 중 Druid/하둡은 부족

ㄴㄴ 다중복제 구조 구성

ㄴㄴ 장애조치 즉각 실시 환경 구축

 

2.3) 운영관리도구 

- 앱 배포 도구 

ㄴ 가용성 인식 부족

ㄴ 이중화는 완료 / 삼중화 예정

 

2.4) 플랫폼

- 자체 클라우드/엘라스틱서치/레디스 등

- 엘라스틱서치/카프카

ㄴ 문제점

ㄴㄴ 이중화가 되어있지 않음

ㄴㄴ 데이터센터 전면장애 대비 구조가 아님

ㄴ 해결방법

ㄴㄴ 데이터센터 단위 삼중화

ㄴㄴ 각 도구의 목적, 영향도, 중요도 파악 프로세스 도임

- 카카오 클라우드

ㄴ 메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨

ㄴ 이로 인해 데이터 유실은 없으나 데이터 위치 못찾음

ㄴ 스토리지 시스템의 데이터센터 단위 3중화

 

2.5) 서비스

2.5.1) 다음 첫 화면

ㄴ HA 구성 / 컨테이너로 구성

ㄴ 캐시서버

ㄴㄴ HA 구성이였으나 자동 동작 실패 

ㄴㄴ 헬스체크 실패로 전부 종료

ㄴㄴ 모니터링 미동작으로 찾는데 시간 오래 걸림

 

2.5.2) 카카오톡 서버/로그인

- 문제점

ㄴ 서비스 간 의존성 문제 / 일부 페일오버 구성 미비

ㄴㄴ 서버를 바로 기동시켜도 의존성 서버가 죽어있으면 실행할 수 없었음

ㄴㄴ 이중화 및 페일오버 자동화해도 동작 이상 감지 서버 문제가 발생하면 불가

ㄴ 트래픽 쏠림시 대응 부족 / 충분치 않은 장애 시나리오

ㄴㄴ 트래픽이 다른 데이터 센터로 넘어감

ㄴㄴ 일부 서버 헬스체크 실패 - 자동 중지 -> 한 서버에 트래픽이 더 몰림

ㄴㄴ 전체 서비스 내려감

ㄴㄴ 다시 기동하려고 하였으나, 컴테이너 이미지 저장소 장애 발생

- 해결책

ㄴ 서비스 간 의존성 최소화

ㄴ 페일오버 구성 문제점 개선

ㄴ 장애 대응 시나리오 재검토

ㄴ 서버 구성정보, 배포설정 이중화

 

2.6) 실행계획

- 전체 시스템 레이어에서의 다중화

- 서비스 간 우선순위 체계화

- 장애 대빈 훈련 확대 실시

- 자체 구축 데이터센터 디자인 개선

 

3) 미래 투자와 혁신 계획 - 비상대책위원회 재발방지대책 공동 소위원장, 고우찬 (gilbert.c)

3.1) 안산 데이터 센터 시공중

ㄴ 무중단 실행

ㄴ UPS/배터리 실 이중화 및 격벽 사용

ㄴㄴ 3중 진화대책

ㄴ 재해 대비책이 있는 데이터 센터

 

3.2) IT 엔지니어링 혁신

3.2.1) 거버넌스

ㄴ IT 엔지니어링을 CEO 하위로 만들 예정

ㄴㄴ 엔지니어링 인원 공격적으로 충원

ㄴㄴ 재해복구 위원회 신설

ㄴㄴ 서비스 연속성 확보 전담 조직 신설

 

3.2.2) BCP/DR

- BCP

ㄴ 사건이 발생해도 사업이 중단되는 사항을 최소화하는 비상 대응 계획

ㄴ 외부 전문가 파트너와 준비할 예정

ㄴ 외부에서 진행하는 카오스엔지니어링 등을 위해 R&D 진행

ㄴ Opensoruce 진행

 

- DR

ㄴ 삼중화 + alpha

ㄴ 삼중화 1개 죽어도 가능

ㄴ 주요서비스는 멀티 서비스 사용하여 서비스 연속성 준비

ㄴㄴ 외부 서비스 클라우드 사용예정

ㄴㄴ 단기간에 살려야 되는 서비스(카카오톡 문자)은 원격지 DR 데이터센터 구축 방안 검토중

 

3.2.3) 투자 확대

- 5년간 투자 비용의 3배 확대



  • profile
    title: 가난한까마귀      잠을 미루는 건 내일이 오지 않길 바래서야. 2022.12.11 10:42
    '전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감'

    강의에서 (외부유출?금지) 로 들었던 내용들 그냥 푸네요
  • profile
    rnlcksk      감사합니다! 2022.12.11 11:44
    저말대로면 간단한 말로 개판이라 완전히 갈아엎어야겠는데요.
    출처 보니 혁신 이란 소리가 보이는데 이게 맞나...
  • ?
    실핀 2022.12.11 13:14
    각 서비스별 이중화 상황으로 인한 오류 내용 분석과 그에 대한 앞으로의 해결방안보단 한국에서 사업한지 10년이 넘었고 (준)공공 메신저로 사용되는 상황에서 왜 아직까지 저 모양이였냐는게 더 의문이 드는거죠.

    지금까지 수많은 장애가 있던 서비스인데, 과거에 각각의 장애 발생 시 그러한 장애를 더 이상 발생시키지 않을 어떤 대책을 강구했는지, 왜 그런 해결방안이 나왔는지, 근데 왜 이번엔 대응이 안됐던 것인지에 대한 좀 더 근원적인 내용은 안보이네요.
  • profile
    캐츄미      5700g, 5800x, 5950x 2022.12.11 13:59
    완벽한 이중화란 결국 두배의 비용을 뜻하죠
    그나저나 이사고 이후로 이중화를 구성하니 하던곳들이 요즘들어 조용한게 그냥 적당한 수준에서 넘어가나 봅니다
  • ?
    nsys 2022.12.12 04:55
    메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨
    - 미친놈들인가??

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    인텔 그래픽 드라이버 패키지 통합

    인텔이 그래픽 드라이버 패키지 통합 작업을 진행 중입니다. 31.0.101.4032 드라이버에서 아크, 11세대, 12세대, 13세대 코어 프로세서의 내장 그래픽을 모두 지원합니다. 또 아크 모바일 그래픽카드와 데스크탑 그래픽카드를 모두 지원합...
    Date2023.01.09 소식 By낄낄 Reply2 Views845
    Read More
  2. No Image

    NVIDIA, AI 최적화 드라이버를 출시?

    NVIDIA가 2023년 1분기 중에 AI 최적화 작업을 거친 드라이버를 출시할 수 있다고 합니다. 명령, 처리량, 하드웨어 활용, 스레드 처리, 설정 등에 최적화가 이루어지며, 최고 30%, 평균 10%의 효과가 있을 거라고 하네요.
    Date2023.01.09 소식 By낄낄 Reply1 Views591
    Read More
  3. No Image

    MSI의 애프터버너 지원 중단. 프로젝트가 끝날 수 있음

    MSI 애프터버너 프로젝트가 끝날 수 있습니다. 애프터버너의 개발자는 러시아에 있는데, 러시아가 우크라니아를 침공하면서 MSI가 러시아 쪽에 송금을 하기 곤란한 상황이라고 합니다. 그래서 11개월 동안 별도 지원 없이 프로젝트를 진행...
    Date2023.01.09 소식 By낄낄 Reply10 Views671
    Read More
  4. No Image

    [언론 보도] [단독] “나 알뜰폰으로 갈래”…SKT 점유율 40% 첫 붕괴

    8일 매일경제신문이 과학기술정보통신부의 ‘무선통신서비스 가입 현황’을 분석한 결과 지난해 11월 기준 통신 3사의 무선통신 점유율은 SK텔레콤 39.9%, KT 23.9%, LG유플러스 20.8% 등으로 각각 조사됐다.   kt 23.9 %도 충격입니다.
    Date2023.01.09 소식 Bytitle: 컴맹임시닉네임 Reply13 Views1192
    Read More
  5. 구글 계정 때문에 게임 계정이 날아갔어요

    길어서 음슴체로 씁니다. 1. 안드로이드 스마트폰을 쓰면서 구글 계정을 만듬. 계정명은 네이버 메일 2. 로스트 아크를 벤치마크용으로 돌리면서 구글 계정으로 가입함 3. 카카오 서비스가 날아갔을 때 안되겠다 싶어서 구글 워크스페이스...
    Date2023.01.08 일반 By낄낄 Reply11 Views1738 file
    Read More
  6. 티피링크 BE24000 쿼드밴드 Wi-Fi 7 공유기

    티피링크 BE24000 쿼드밴드 Wi-Fi 7 공유기입니다. 중국에서 가격은 19999위안. 한화 370만원. 생긴 것도 그렇고 가격도 그렇고 뭐 이런게 있나 싶어서 올려봅니다. 쿼드밴드, 24Gbps의 무선 전송 속도, 2개의 10기가비트 랜 포트, 광 케...
    Date2023.01.08 소식 By낄낄 Reply5 Views733 file
    Read More
  7. 아이폰13 iOS 15.7.1 로 다운그레이드 해보니 좋은 점

    1. 서드파티 키보드 이용시 키보드 가출현상 사라짐   순정 키보드 안 쓰고 서드파티 키보드를 이용하는 네가 잘못 아니냐라고 할 수 있는데 화면이 이렇게나 커졌는데도 순정 키보드에 5줄 키보드를 옵션을 안 넣어주는 애플이 잘못한 거...
    Date2023.01.07 일반 Bytitle: AI이루샤 Reply7 Views1093 file
    Read More
  8. Apple Books. AI 가 읽어주는 오디오북 선보여

    나레이터가 소멸할까요? 모르겠습니다.     애플이 제대로 AI가 읽어주는 오디오북을 선보였습니다. 이미 어거지로 나레이션을 읊게 만드는 건 있지만(손쉬운 사용으로 내장 TTS에서 읊어주기), 애플은 이걸 돈주고 팔아먹으려고 하네요. ...
    Date2023.01.07 소식 Bytitle: 폭8책읽는달팽 Reply2 Views603 file
    Read More
  9. No Image

    iOS 16에서 iOS 15로 다운그레이드 하기

    iOS 16 올라와서 서드파티 키보드가 불안정해지고 iOS15 보다 배터리가 빠르게 소모되어 다운그레이드 알아봤는데   아직 iOS 15.6 베타 서버 사이닝이 안 닫혔다고 하네요.   이를 이용해 iOS 15.6RC → 15.7.1 → 16.0.2 → 16.1.2 이렇게 ...
    Date2023.01.07 일반 Bytitle: AI이루샤 Reply3 Views984
    Read More
  10. No Image

    카카오톡 톡서랍 논란일자 해지예약기능 알림

    카카오에서 자동결제 때문에 욕먹던 전국민 사과용 톡서랍플러스의 해지예약 기능을 기재 했습니다
    Date2023.01.06 소식 By공탱이 Reply3 Views1139 file
    Read More
  11. 카카오 대국민 보상 중 톡서랍 플러스 자동결제 '논란'

    카카오는 5일부터 ‘카카오 전 국민 마음 패키지’라는 이름으로 일반 이용자 4800만명에 이모티콘 3종(영구 이용 1종, 90일 이용 2종), 카카오메이커스 5000원 쿠폰팩, 톡서랍 플러스 1개월 이용권(선착순 300만명)을 지급하...
    Date2023.01.05 소식 By낄낄 Reply22 Views2182 file
    Read More
  12. 트위치에서 LCK 중계 안한다

    트위치가 다시보기를 없애고 화질 제한을 하는 걸 보고, 국내 가이드에 맞춰서 남아 있으려는 노력이라고 평가하는 의견도 있던데요. 이런 대형 컨텐츠까지 포기한다면 주도적인 사업이 이루어질 거라고는 기대할 수 없을 것 같습니다.
    Date2023.01.05 소식 By낄낄 Reply7 Views800 file
    Read More
  13. 카카오: 우리가 전 국민의 일상을 지키고 있다

    카카오가 장애 보고서를 냈습니다 https://b.kakao.com/views/promise-report 구구절절이 명문이네요. 자뻑도 저렇게 싸지르면 예술이라고 인정해 줘야 합니다. 특히 마지막의 '우리의 다짐' 부분은 꼭 보여드리고 싶은데, 치졸하...
    Date2023.01.05 소식 By낄낄 Reply42 Views3071 file
    Read More
  14. No Image

    이제 아이튠즈에서 구입항목 삭제가 안되네요.

    예전에는 필요없는 앱이 계정 구입항목에 남아있으면 숨기기 설정 후 아이튠즈에서 구입목록으로 들어가 삭제가 가능했었는데 오랜만에 삭재하려고 들어가보니 가린걸 복구하는것 말고는 다른 선택지가 없네요.   그리고 예나 지금이나 윈...
    Date2023.01.04 일반 Bytitle: 몰?루먀먀먀 Reply1 Views564
    Read More
  15. ASUS의 Wi-Fi 7 지원 무선랜 공유기

    ASUS의 Wi-Fi 7 지원 무선랜 공유기 2개입니다. Wi-Fi 7은 Wi-Fi 6E의 두배인 320Mhz 대역폭, 1024 QAM보다 데이터 전송 속도가 20% 오른 4096 QAM, 멀티 링크 오퍼레이션, 16x16 MU-MIMO 등을 지원합니다. ROG Rapture GT-BE98. 최고 115...
    Date2023.01.04 소식 By낄낄 Reply4 Views1188 file
    Read More
목록
Board Pagination Prev 1 ... 120 121 122 123 124 125 126 127 128 129 ... 579 Next
/ 579

더함
MSI 코리아
한미마이크로닉스
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소