2024년 11월 23일 토요일

  • 서울 3℃

  • 인천 3℃

  • 백령 5℃

  • 춘천 -1℃

  • 강릉 5℃

  • 청주 3℃

  • 수원 2℃

  • 안동 2℃

  • 울릉도 8℃

  • 독도 8℃

  • 대전 2℃

  • 전주 4℃

  • 광주 3℃

  • 목포 7℃

  • 여수 8℃

  • 대구 5℃

  • 울산 8℃

  • 창원 7℃

  • 부산 8℃

  • 제주 7℃

IT "카카오, 이중화 미흡에 인력·자원 부족···컨트롤타워도 없었다"

IT IT일반

"카카오, 이중화 미흡에 인력·자원 부족···컨트롤타워도 없었다"

등록 2022.12.07 13:43

임재덕

  기자

공유

7일 이프 카카오 데브 2022 개최···장애 원인 공개

지난 10월 판교 데이터센터 화재로 촉발된 '카카오 먹통사태'가 장기화 될 수밖에 없던 원인이 공개됐다. 다양한 요소의 이중화가 미흡했고, 장애 복구를 위한 인력과 자원도 부족했다. 심지어 카카오 공동체를 조율해 빠르게 위기를 관리해야 할 컨트롤타워조차 없었다.

이확영 카카오 비상대책위원회 원인조사 소위원장은 7일 개발자 컨퍼런스 '이프 카카오 데브 2022'(이하 이프 카카오)에서 이같은 내용의 장애 원인 분석 결과를 발표했다. 이 소위원장은 그렙 공동대표다. 카카오 서비스 장애의 원인을 보다 객관적으로 규명하고자 외부 인사로서 원인조사 소위를 맡게 됐다.

이확영 카카오 비상대책위원회 원인조사 소위원장. 사진=카카오 제공이확영 카카오 비상대책위원회 원인조사 소위원장. 사진=카카오 제공

우선 데이터센터 간 이중화가 미흡했다. 이 소위원장은 "데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면, 빠르게 복구가 됐을 것"이라며 "일부 시스템이 판교 데이터센터 내에서만 이중화돼 장애 복구가 늦어졌다"고 말했다.

또 "서로 다른 데이터센터에 이중화가 돼 있는 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교데이터 센터에만 설치, 수동으로 전환 작업을 진행할 수밖에 없었다"고 덧붙였다.

서비스 개발과 관리를 위한 운영 관리 도구의 이중화도 부족했다. 일례로 컨테이너 이미지를 저장하고 관리하는 시스템이나, 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 돼 복구에 상당한 어려움을 겪었다.

이중화 전환 후에는 가용 자원이 부족했다. 판교 데이터센터 전체를 대신할만큼의 가용자원이 확보돼 있지 않아, 판교쪽 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다.

이 소위원장은 "전체 시스템 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라간다"면서 "개별 시스템의 미흡한 이중화가 전체적인 장애를 유발한 것"이라고 설명했다. 그러면서 "개별 부서나 시스템마다 다른 이중화 수준 및 체계, 부족한 상면 등으로 문제가 생기지 않도록, 회사 차원에서 체계적인 이중화를 준비했어야 한다"고 꼬집었다.

카카오의 잘못된 위기 대응 방법도 먹통사태 장기화에 영향을 줬다. 장애 복구를 위한 인력과 자원은 부족했고, 사내 커뮤니케이션을 카카오톡과 카카오워크로만 진행해 장애 대응을 위한 소통에 혼선이 있었다고 이 소위원장은 설명했다.

그는 "끝으로, 재해 초기 컨트롤타워 부재에 대해 지적하고 싶다"면서 "카카오와 공동체, 그리고 개별 조직이 동시 다발적으로 장애에 대응했다. 그런데 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 세팅돼 있지 않았고, 서비스별로 개발자들이 최선을 다했지만, 그것만으로는 부족했다"고 지적했다.

그러면서 "저는 제 삼자로서 이번 카카오 서비스 장애의 원인을 분석하고 진단할 수 있을 뿐, 실제로 같은 문제가 재발하지 않도록 대책을 세우고, 행동에 옮기는 것은 카카오의 역할과 책임"이라며 "카카오는 많은 이들의 아픈 경험으로부터 알게 된 것을, 진중하게 받아들여야 한다"고 힘줘 말했다.
ad

댓글