2024년 11월 22일 금요일

  • 서울 7℃

  • 인천 6℃

  • 백령 7℃

  • 춘천 6℃

  • 강릉 7℃

  • 청주 8℃

  • 수원 7℃

  • 안동 8℃

  • 울릉도 9℃

  • 독도 9℃

  • 대전 9℃

  • 전주 9℃

  • 광주 9℃

  • 목포 10℃

  • 여수 12℃

  • 대구 11℃

  • 울산 10℃

  • 창원 11℃

  • 부산 10℃

  • 제주 12℃

IT 비싼 수업료 낸 카카오 "장애 컨트롤타워 신설, 투자 3배 늘린다"(종합)

IT IT일반

비싼 수업료 낸 카카오 "장애 컨트롤타워 신설, 투자 3배 늘린다"(종합)

등록 2022.12.07 15:41

임재덕

  기자

공유

7일 연례 개발자 콘퍼런스서 '재발 방지 대책' 발표먹통 장기화 배경 '부족한 이중화·컨트롤타워 부재'5년간 서비스 안정화 투자 3배↑·재해복구 위원회 신설

지난 10월 판교 데이터센터 화재로 대규모 서비스 장애를 일으킨 카카오가 앞으로 5년간 서비스 안정화 투자를 기존보다 3배 늘린다. 또 대규모 장애에 대비한 컨트롤타워인 '재해복구 위원회'를 신설, 사고 대응력을 높인다.

카카오는 7일 연례 개발자 콘퍼런스 '이프 카카오 데브 2022'(이하 이프 카카오)를 온라인으로 열어 이런 내용의 재발 방지 대책을 발표했다.

이날 첫 번째 키노트를 맡은 남궁훈 재발방지대책 공동 소위원장(前 카카오 대표)은 "카카오 ESG 최우선 과제를 '서비스를 안정적으로 제공하는 것'으로 설정하고 인프라 개선을 위해 ▲과거 원인 분석 ▲현재 재발방지책 ▲미래 투자 등 크게 3가지 관점에서 실천과제를 세우겠다"고 말했다.

카카오가 7일 연례 개발자 콘퍼런스 '이프 카카오 데브 2022'를 온라인으로 열어 지난 10월 발생한 대규모 먹통 사태의 재발 방지 대책을 발표했다. 사진=카카오 제공카카오가 7일 연례 개발자 콘퍼런스 '이프 카카오 데브 2022'를 온라인으로 열어 지난 10월 발생한 대규모 먹통 사태의 재발 방지 대책을 발표했다. 사진=카카오 제공

앞서 지난 10월 15일 오후 3시 19분경 카카오가 이용 중인 SK C&C 판교 데이터센터에서 화재가 발생했다. 이는 곧 카카오 서비스 전반의 장애로 이어졌다. 카카오는 즉시 장애 복구에 나섰지만, 같은 데이터센터를 쓰는 네이버(12시간)와 달리 127시간 30분가량이나 제대로 된 서비스를 제공하지 못했다.

◇카카오 장애는 왜 길어졌나=카카오는 이날 서비스 장애가 길어질 수밖에 없던 이유부터 공개했다. 역대급 사고의 치부를 가감없이 공개해, 관련 업계에 또 다시 이런 사태가 발생하지 않도록 하기 위함이다.

가장 큰 배경은 '미흡한 이중화'다. 객관성을 담보하고자 외부 인사로서 원인조사 소위원장을 맡은 이확영 그렙 공동대표는 "데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면, 빠르게 복구됐을 것"이라며 "일부 시스템이 판교 데이터센터 내에서만 이중화돼 장애 복구가 늦어졌다"고 분석했다.

그러면서 "서로 다른 데이터센터에 이중화가 돼 있는 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교데이터 센터에만 설치, 수동으로 전환 작업을 진행할 수밖에 없었다"고 덧붙였다.

카카오의 잘못된 위기 대응 방법도 먹통사태 장기화에 영향을 줬다. 장애 복구를 위한 인력과 자원은 부족했고, 사내 커뮤니케이션은 카카오톡과 카카오워크로만 진행해 장애 대응을 위한 소통에 혼선이 있었다고 이 소위원장은 설명했다.

컨트롤타워 부재도 사태의 장기화를 이끈 주요인이었다. 그는 "카카오와 공동체, 그리고 개별 조직이 동시 다발적으로 장애에 대응했다"면서도 "전체적인 조율과 협업을 지원하는 전사 조직이 사전에 세팅돼 있지 않았고, 서비스별로 개발자들이 최선을 다했지만, 그것만으로는 부족했다"고 지적했다.

19일 오전 경기도 성남시 카카오 판교아지트에서 남궁훈(왼쪽), 홍은택 대표가 최근 발생한 판교 데이터센터 화재로 인한 장애 관련 기자회견에 참석해 사과 인사를 하고 있다. 2022. 10. 19 남궁훈 홍은택 카카오 각자대표 데이터 센터 화재 대규모 먹통 사태 대국민사과 기자회견. 사진=이수길 기자 leo2004@newsway.co.kr19일 오전 경기도 성남시 카카오 판교아지트에서 남궁훈(왼쪽), 홍은택 대표가 최근 발생한 판교 데이터센터 화재로 인한 장애 관련 기자회견에 참석해 사과 인사를 하고 있다. 2022. 10. 19 남궁훈 홍은택 카카오 각자대표 데이터 센터 화재 대규모 먹통 사태 대국민사과 기자회견. 사진=이수길 기자 leo2004@newsway.co.kr

◇투자 늘리고, 컨트롤타워 만든다=카카오는 이번 사고를 교훈삼아 재발 방지 대책을 마련했다. 우선 재난복구(DR) 시스템을 데이터센터 3개가 연동되는 삼중화 이상으로 고도화한다.

고우찬 비상대책위원회 재발방지대책 공동 소위원장은 "이 경우 3개 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보되는 안정성을 갖추게 된다"며 "여기에 주요 서비스는 멀티 클라우드를 활용, 서비스 연속성을 더욱 강화할 수 있도록 하겠다"고 말했다.

국내 최고의 IT 엔지니어링 전문가들을 영입해 대표이사(CEO) 직할 IT 엔지니어링 전담 조직도 편성한다. 대규모 장애에 대비한 컨트롤타워 '재해복구 위원회'도 신설한다. 고 소위원장은 "책임있는 인력으로 구성된 위원회에서 즉각적인 대규모 장애에 대한 대응을 할 수 있도록 하겠다"고 강조했다.

서비스 안정화를 위한 투자도 대폭 늘린다. 고 소위원장은 "서비스 안정화를 위한 인재 확보와 기술 개발, 삼중화 이상의 재난복구(DR) 구현 등에 지난 5년간 투자한 금액의 3배 이상을 향후 5년간 투입하겠다"고 말했다.

2024년 완공을 목표로 구축 중인 안산 데이터센터와 관련해서는 전력, 냉방, 통신 등 3개 영역에서 24시간 무중단 운영을 위한 이중화 인프라를 구축하고 있다고 밝혔다.

고 소위원장은 "안산 데이터센터는 판교 데이터센터에서 화재 발화지점으로 지목된 배터리실과 무정전전원장치(UPS)를 방화 격벽으로 분리, 배터리실에서 불이 나도 삼중의 진화 방식이 작동하게 된다"고 설명했다.
ad

댓글