카카오, ‘먹통 사태’ 재발방지 대책 공개…“시스템 전체 다중화”
  • 장지현 디지털팀 기자 (vemile4657@naver.com)
  • 승인 2022.12.07 12:45
이 기사를 공유합니다

“서비스 안정화가 최우선 과제…설비·서비스 모두 철저히 이중화”
남궁훈 비상대책위원회 재발 방지대책 공동 소위원장이 7일 열린 카카오 ‘이프 카카오 데브 2022’에서 발언하고 있다. ⓒ이프카카오 홈페이지
남궁훈 비상대책위원회 재발 방지대책 공동 소위원장이 7일 열린 카카오 ‘이프 카카오 데브 2022’에서 발언하고 있다. ⓒ이프카카오 홈페이지

지난 10월 판교 SK C&C 데이터센터 화재로 전국적인 서비스 장애를 발생시켰던 카카오가 내부적으로 분석한 서비스 장애의 구체적 원인과 재발방지대책을 공개했다.

카카오는 7일 연례 계발자 콘퍼런스인 ‘이프 카카오 데브 2022’(이프카카오)를 열어 시스템 전체 다중화 등을 골자로 한 재발방지 대책을 세부적으로 발표했다. 지난 10월15일 서비스 먹통 사태가 발생한 지 약 2개월 만이다.

행사 첫 연사로 나선 남궁훈 비상대책위원회 재발방지 대책 공동 소위원장은 “지금이라도 우리는 반성하고 개선해나가려고 한다”며 “미래에는 이런 사고가 발생하지 않도록 최선을 다하겠다”는 다짐을 밝혔다. 남궁 소위원장은 “카카오 서비스의 안정화가 우리의 최우선 과제이며 사회적 책임이라는 것을 항상 명심할 것”이라면서, 인프라 개선을 위해 △과거 사태의 원인 분석 △현재의 재발방지책 △미래의 투자라는 3가지 관점에서 실천 과제를 세우겠다고 설명했다.

서비스 먹통 사태의 주요 원인으로는 △데이터센터와 운영관리 도구의 이중화 미흡 △가용 자원 부족의 두 가지가 꼽혔다. 원인조사 소위원장을 맡은 이확영 그렙 대표는 ‘1015 장애원인 분석’ 키노트에서 카카오 서비스 장애 원인을 제3자 관점으로 분석해 이같이 밝히고, 운영관리 도구를 이중화하지 않아 비상시 쓰도록 대기 중인 서버를 가동하지 못해 서비스 복구에 시간이 소요된 것이라고 설명했다.

이에 카카오는 향후 데이터센터와 운영관리도구를 비롯한 시스템 전체의 다중화 방침을 내놨다. 이채영 재발방지 대책 소위원회 부위원장은 “데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영도구 이중화 등 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체에 철저한 이중화를 적용하겠다”고 밝혔다. 이어 모니터링 시스템 다중화, 데이터 다중 복제구조 구성, 운영관리 도구 삼중화 등 구체적인 개선 사항도 제시했다.

앞으로 유사한 상황을 방지하고 IT 엔지니어링을 혁신하기 위한 향후 5년간의 투자 계획도 공개됐다. 고우찬 재발방지 대책 공동소위원장은 자체 데이터센터 방재 대책 및 향후 5년간의 관련 계획을 발표했다. 총 4600억원의 예산을 투입해 내년 9월 완공을 목표로 시공 중인 안산 데이터센터의 운영 안정성, IT 엔지니어링 전담 조직과 인재 확보, 자연재해와 사건·사고로 사업을 중단하는 상황을 최소화하기 위한 비상 대응계획 및 데이터센터 DR(재해복구) 체계 구축 등이 설명됐다.

한편 카카오는 이날을 시작으로 9일까지 이프 카카오 행사를 개최한다. 사흘간 이어지는 행사에서는 카카오 공동체 소속 개발자 120여 명이 연사로 나서 △1015 데이터센터 화재 회고 △인공지능(AI) △백엔드 △클라우드 △데브옵스(개발-운영 통합) △블록체인 △데이터 △프론트엔드 △모바일 △ESG △문화 총 12개 트랙에서 106개의 발표 세션을 진행한다.

관련기사
이 기사에 댓글쓰기펼치기