Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
책사랑벌레 https://gigglehd.com/gg/13403207
아직은 살아있는 회원입니다./사람을 관찰
조회 수 998 댓글 5
Extra Form
참고/링크 https://if.kakao.com/2022/session/1

이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.

 

if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다.

좀 대충 요약해서 부족한 것들이 있을텐데.. 영상을 직접 보시면 더 자세하게 나옵니다.

더 잘 정리된 글은 https://it.chosun.com/site/data/html_dir/2022/12/07/2022120701641.html?fbclid=IwAR0N2jd429CvKryOqrS2FG1IB57Q_0C4BKyLdke5A0bE17wepnyrFGidRtI 여기를 참고해주세요

 

3줄 요약

- 판교데이터센터에 몰빵된 것이 있어 이중화 안 된 서비스들이 있었음

- 서비스/데이터 이중화를 강화하겠다.

- 인프라쪽에 투자 및 인원을 확충하겠다.

 

0) Our Social Mission - 비상대책위원회 재발방지대책 공동 소위원장, 남궁훈 (nkay.play)

- 대표이사 -> 비상대책위원회 재발방지대책 공동 소위원장

한 달 반 정도 문제 확인

- 이중화가 안 되어있다는 것을 확인하여 원인분석/재발방지/미래투자를 할 예정

 

1) 1015 장애원인 분석 - 비상대책위원회 원인조사 소위원장, 이확영 (Grepp CEO)

1.1) 발생

- 서비스 서버가 이중화 되어있었으나, 서비스 장애 발생

- 모든 서비스 복구(10.20.)될 때까지 시간이 오래 걸림

 

1.2) 원인분석

- 이중화와 위기 대응 과정에 미흡함이 있음

 

1.2.1) 원인 분석: 이중화

- 데이터센터간 이중화 미흡

ㄴ 서비스 운영에 사용하던 캐시 서버/오브젝트 스토리지 이중화가 완벽하지 않고, 판교 데이터센터에만 있음

ㄴ 카카오 로그인/ 카카오톡 사진 전송기능

- 데이터센터 문제 발생시 감지 후 데이터센터 변경 기능

ㄴ 판교 데이터센터에만 설치

ㄴ 수동으로 전환작업이 진행되 느림

 

1.2.2) 운영 관리 도구/모니터링 시스템 이중화 미흡

ㄴ 안정성 확보 소홀

ㄴ 컨테이너 저장 서버/일부 모니터링 시스템

 

1.2.3) 이중화 전환 후 가용 자원 부족

ㄴ 판교 데이터센터 전체를 대신할 만큼 가용 자원이 확보되어있지 않음

ㄴ 판교 데이터센터 전원이 들어올때까지 모든 시스템 정상화 불가

 

=> 전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감 

ㄴ 개별 시스템 미흡한 이중화 시스템 - 전체 장애

ㄴ 회사 차원에서 체계적인 이중화 준비

 

1.3) 원인 분석: 위기 대응

1.3.1) 장애복구를 위한 인력과 자원 부족

1.3.2) 장애대응 커뮤니케이션 채널 혼선

 

2) 재발방지를 위한 기술적 개선 - 비상대책위원회 재발방지대책소위원회 부위원장, 이채영 (ean.lee)

2.1) 전체 시스템 레이어에서 철저한 이중화

- 모니터링 시스템 자중화

- 메인 백본 센터 확장

- 별도 전용망 구성

 

2.2) 데이터

- RDBMS, NoSQL, 분산빅데이터 스토어

ㄴ 분산 빅데이터 스토어 중 Druid/하둡은 부족

ㄴㄴ 다중복제 구조 구성

ㄴㄴ 장애조치 즉각 실시 환경 구축

 

2.3) 운영관리도구 

- 앱 배포 도구 

ㄴ 가용성 인식 부족

ㄴ 이중화는 완료 / 삼중화 예정

 

2.4) 플랫폼

- 자체 클라우드/엘라스틱서치/레디스 등

- 엘라스틱서치/카프카

ㄴ 문제점

ㄴㄴ 이중화가 되어있지 않음

ㄴㄴ 데이터센터 전면장애 대비 구조가 아님

ㄴ 해결방법

ㄴㄴ 데이터센터 단위 삼중화

ㄴㄴ 각 도구의 목적, 영향도, 중요도 파악 프로세스 도임

- 카카오 클라우드

ㄴ 메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨

ㄴ 이로 인해 데이터 유실은 없으나 데이터 위치 못찾음

ㄴ 스토리지 시스템의 데이터센터 단위 3중화

 

2.5) 서비스

2.5.1) 다음 첫 화면

ㄴ HA 구성 / 컨테이너로 구성

ㄴ 캐시서버

ㄴㄴ HA 구성이였으나 자동 동작 실패 

ㄴㄴ 헬스체크 실패로 전부 종료

ㄴㄴ 모니터링 미동작으로 찾는데 시간 오래 걸림

 

2.5.2) 카카오톡 서버/로그인

- 문제점

ㄴ 서비스 간 의존성 문제 / 일부 페일오버 구성 미비

ㄴㄴ 서버를 바로 기동시켜도 의존성 서버가 죽어있으면 실행할 수 없었음

ㄴㄴ 이중화 및 페일오버 자동화해도 동작 이상 감지 서버 문제가 발생하면 불가

ㄴ 트래픽 쏠림시 대응 부족 / 충분치 않은 장애 시나리오

ㄴㄴ 트래픽이 다른 데이터 센터로 넘어감

ㄴㄴ 일부 서버 헬스체크 실패 - 자동 중지 -> 한 서버에 트래픽이 더 몰림

ㄴㄴ 전체 서비스 내려감

ㄴㄴ 다시 기동하려고 하였으나, 컴테이너 이미지 저장소 장애 발생

- 해결책

ㄴ 서비스 간 의존성 최소화

ㄴ 페일오버 구성 문제점 개선

ㄴ 장애 대응 시나리오 재검토

ㄴ 서버 구성정보, 배포설정 이중화

 

2.6) 실행계획

- 전체 시스템 레이어에서의 다중화

- 서비스 간 우선순위 체계화

- 장애 대빈 훈련 확대 실시

- 자체 구축 데이터센터 디자인 개선

 

3) 미래 투자와 혁신 계획 - 비상대책위원회 재발방지대책 공동 소위원장, 고우찬 (gilbert.c)

3.1) 안산 데이터 센터 시공중

ㄴ 무중단 실행

ㄴ UPS/배터리 실 이중화 및 격벽 사용

ㄴㄴ 3중 진화대책

ㄴ 재해 대비책이 있는 데이터 센터

 

3.2) IT 엔지니어링 혁신

3.2.1) 거버넌스

ㄴ IT 엔지니어링을 CEO 하위로 만들 예정

ㄴㄴ 엔지니어링 인원 공격적으로 충원

ㄴㄴ 재해복구 위원회 신설

ㄴㄴ 서비스 연속성 확보 전담 조직 신설

 

3.2.2) BCP/DR

- BCP

ㄴ 사건이 발생해도 사업이 중단되는 사항을 최소화하는 비상 대응 계획

ㄴ 외부 전문가 파트너와 준비할 예정

ㄴ 외부에서 진행하는 카오스엔지니어링 등을 위해 R&D 진행

ㄴ Opensoruce 진행

 

- DR

ㄴ 삼중화 + alpha

ㄴ 삼중화 1개 죽어도 가능

ㄴ 주요서비스는 멀티 서비스 사용하여 서비스 연속성 준비

ㄴㄴ 외부 서비스 클라우드 사용예정

ㄴㄴ 단기간에 살려야 되는 서비스(카카오톡 문자)은 원격지 DR 데이터센터 구축 방안 검토중

 

3.2.3) 투자 확대

- 5년간 투자 비용의 3배 확대



  • profile
    title: 가난한까마귀      잠을 미루는 건 내일이 오지 않길 바래서야. 2022.12.11 10:42
    '전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라감'

    강의에서 (외부유출?금지) 로 들었던 내용들 그냥 푸네요
  • profile
    rnlcksk      감사합니다! 2022.12.11 11:44
    저말대로면 간단한 말로 개판이라 완전히 갈아엎어야겠는데요.
    출처 보니 혁신 이란 소리가 보이는데 이게 맞나...
  • ?
    실핀 2022.12.11 13:14
    각 서비스별 이중화 상황으로 인한 오류 내용 분석과 그에 대한 앞으로의 해결방안보단 한국에서 사업한지 10년이 넘었고 (준)공공 메신저로 사용되는 상황에서 왜 아직까지 저 모양이였냐는게 더 의문이 드는거죠.

    지금까지 수많은 장애가 있던 서비스인데, 과거에 각각의 장애 발생 시 그러한 장애를 더 이상 발생시키지 않을 어떤 대책을 강구했는지, 왜 그런 해결방안이 나왔는지, 근데 왜 이번엔 대응이 안됐던 것인지에 대한 좀 더 근원적인 내용은 안보이네요.
  • profile
    캐츄미      5700g, 5800x, 5950x 2022.12.11 13:59
    완벽한 이중화란 결국 두배의 비용을 뜻하죠
    그나저나 이사고 이후로 이중화를 구성하니 하던곳들이 요즘들어 조용한게 그냥 적당한 수준에서 넘어가나 봅니다
  • ?
    nsys 2022.12.12 04:55
    메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 - 이중화 안 됨
    - 미친놈들인가??

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 윈도우 11 프리뷰 빌드 25262. 스니핑 툴로 녹화 가능

    윈도우 11 프리뷰의 빌드 25262가 발표됐습니다. 스니핑 툴에 화면 녹화 버튼이 추가됐습니다. 녹화 영역을 지정. 로그인을 하지 않고 위젯 보드를 쓸 수 있습니다. 미디어 플레이어에서 영상의 폴더 재생이 가능합니다. 그 외에 explore...
    Date2022.12.13 소식 By낄낄 Reply0 Views616 file
    Read More
  2. No Image

    Adguard VPN 참 괜찮긴 한데 말이죠..

    Adguard VPN 가성비도 좋고 연결성도 괜찮고 여러모로 괜찮은 VPN이라고 느낍니다.   특히 VPN으로만 동작하는게 아니라 Socks5모드로도 동작하는데 이렇게되면 VPN을 쓰고 싶은 CLI기반 앱이나 브라우저에서만 사용할 수도 있습니다.   ...
    Date2022.12.13 일반 ByNWJ_ Reply0 Views741
    Read More
  3. 윈도우 파일탐색기에서 시스템 폴더만 안보이게 할 수 있나요?

    그냥 수동으로 개인 파일만 옮기면 되는 문제긴 한데 정말 질문 차원에서 올려봅니다.  파일 탐색기에서 시스템 폴더만 안보이게 (EX : WINDOWS PROGRAM FILES 등등) 하는 필터 옵션이 존재하나요?
    Date2022.12.13 질문 ByTundraMC Reply4 Views631 file
    Read More
  4. No Image

    CERN과 페르미 국립 가속기 연구소, 알마리눅스에 기웃

    CERN과 페르미 국립 가속기 연구소가 알마 리눅스를 선택했습니다.   이 둘은 Scientific Linux 라는 RHEL 기반의 리눅스 배포판을 따로 썼다가, 현재는 CentOS Stream을 쓰고 있습니다. 그러나, 역시 RHEL 사이트 라이선스 기간이 7년 남...
    Date2022.12.12 일반 By책읽는달팽 Reply3 Views907
    Read More
  5. 샤오미 10기가비트 라우터 발표

    샤오미가 10기가비트 라우터를 발표했습니다. NFC를 통해 샤오미 미지아 제품군과 페어링이 가능합니다. 겉보기엔 안테나가 4개만 있는 것처럼 보이지만 실제로는 12개의 안테나가 있고, 퀄컴의 고성능 프로세서를 탑재했다고 설명합니다...
    Date2022.12.12 소식 By낄낄 Reply13 Views1324 file
    Read More
  6. No Image

    일론 머스크: 트위터 글자 제한을 4천자로 늘리겠다

    일론 머스크가 트위터의 글자 수 제한을 4천자로 늘리겠다고 말했습니다. 트위터는 원래 140자 제한이 있었으나 2017년에 280자로 늘어난 바 있습니다.
    Date2022.12.12 소식 By낄낄 Reply3 Views684
    Read More
  7. No Image

    트위터 블루 서비스 시작. 매달 8달러, iOS는 11달러

    트위터 블루 서비스가 재개됐습니다. 구독 요금은 매달 8달러, iOS에서는 수수료까지 붙여서 11달러입니다. 구독자는 이름 옆에 파란색 체크 표시가 추가되지만, 아무한테나 주는 건 아니고 전화번호와 계정을 검토한 후에 확인해 줍니다....
    Date2022.12.12 소식 By낄낄 Reply1 Views461
    Read More
  8. '조선인이 우물에 독을 탔어요' 의 자위대 버전

      12월 9일 기사입니다. 자위대가 러시아와 중국을 보고 아 우리도 만들어야지 데헷으로 SNS에서 여론공작을 하는 AI를 개발하고 있다고 합니다.   음... Orwell: Ignorance is Strength 에 이런게 나오던데 말이죠(AI가 알아서 여론 주...
    Date2022.12.11 소식 By책읽는달팽 Reply0 Views1197 file
    Read More
  9. No Image

    if kakao 1일차 - 카카오 서비스 장애 원인 분석과 개선사항

    이 글(https://gigglehd.com/gg/soft/13394843 )을 보고. 제가 아는 바랑 달라서 소식 글을 적어봅니다.   if kakao 1일차(2022.12.07)에 발표된 첫 키노트 - 2022년 10월 15일 발생한 서비스 장애 원인 분석과 개선 사항- 입니다. 좀 대...
    Date2022.12.11 소식 By책사랑벌레 Reply5 Views998
    Read More
  10. 로제타 2 이야기

    로제타 2는 기본적으로 x86 -> ARM 번역기입니다. 네... 물론 JIT도 있지만요. 그것보다 생각보다 왜 빠른가? 그리고 깊숙한 설명이 좀 많이 늦네요... 나온지 수년은 되었는데...   여튼 사람들은 로제타 2가 어케 작동하는지, 왜케 빨리...
    Date2022.12.10 일반 By책읽는달팽 Reply1 Views1428 file
    Read More
  11. 과자 먹는 소리가 녹음되지 않도록 막아주는 기술

    NVIDIA RTX 보이스는 게임 스트리머들이 방송 중에 주변 소음이 녹음되지 않도록 없애주는 기술입니다. 그리고 이걸 응용한 Doritos Crunch Cancellation가 나왔습니다. 과자를 먹을 때 나은 소리가 함께 녹음되지 않도록 막아준다고 하...
    Date2022.12.10 소식 By낄낄 Reply11 Views2257 file
    Read More
  12. 데스크탑 크롬, 메모리 절약/저전력 모드 추가

    크롬 데스크탑 버전에 메모리와 전력 사용량을 절이는 모드가 추가됩니다. 메모리 절약 모드는 포그라운드에 나온 탭의 표시를 유지하면서 사용하지 않는 탭의 메모리 사용량을 줄여, 최대 40%/10GB의 메모리 사용량 절약 효과를 냅니다. ...
    Date2022.12.10 소식 By낄낄 Reply2 Views1125 file
    Read More
  13. 윈11에서 기묘한 밝기 조절 버그를 겪고 있습니다...

    레노버 씽크패드 E15 Gen 2 (AMD) 모델입니다. 라이젠 4500U 들어간 모델인데.... 장시간동안 화면을 닫아놓았다가 다시 열면, 가끔씩 밝기 조절이 제대로 안 되는 버그를 겪고 있습니다. 일단 화면을 열어보면 어둡다는 게 바로 보여요. ...
    Date2022.12.10 질문 Bytitle: 폭8Cliche Reply7 Views1052 file
    Read More
  14. 2022년 한국 유튜브 인기 순위

    2022년 한국 유튜브 인기 순위입니다. 아래 검색어 순위는 그래도 알겠는데, 유튜브는 전혀 보질 않으니 아는게 아마존 영상밖에 없군요.. 인기 동영상 인기 쇼츠 영상 인기 뮤직비디오 인기 크리에이터 급성장 크리에이터
    Date2022.12.09 소식 By낄낄 Reply7 Views1765 file
    Read More
  15. No Image

    구글의 2022년 인기 검색어

    구글의 2022년 인기 검색어입니다. 한국 순위만 소개합니다. 다른 나라는 접속해서 보세요. 스포츠/연예 쪽도 직접 가서 보세요. 개인적으로 별 관심이 없어서 옮기기 귀찮네요. 종합 1 기후 변화 2 이상한 변호사 우영우 3 초단기 강수 ...
    Date2022.12.09 소식 By낄낄 Reply4 Views892
    Read More
목록
Board Pagination Prev 1 ... 120 121 122 123 124 125 126 127 128 129 ... 572 Next
/ 572

최근 코멘트 30개
까르르
19:16
uss0504
19:14
메이드아리스
19:14
uss0504
19:12
툴라
19:11
노예MS호
19:09
메이드아리스
19:03
까마귀
19:02
미쿠미쿠
19:02
ㅇ마당ㅇ
19:01
니즛
18:48
노예MS호
18:46
mnchild
18:46
메이드아리스
18:45
노예MS호
18:44
아이들링
18:39
아이들링
18:36
0.1
18:34
0.1
18:33
아이들링
18:33
빈도
18:29
Normie
18:25
K_mount
18:23
아이들링
18:19
아이들링
18:17
툴라
18:14
0.1
18:08
슬렌네터
18:07
툴라
18:05
슬렌네터
18:05

MSI 코리아
한미마이크로닉스
AMD
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소