네트워크 장비 교체 설정 시 명령어 ‘exit’ 단 한줄 누락야간작업 오전 변경, 협력사만 작업···검증시스템도 無
야간에 해야할 업무를 주간에 하다 사고가 발생했으며 관리자 없이 협력사 직원들끼리만 작업을 수행한 사실도 적발됐다. 네트워크가 연결된 채로 작업이 이뤄져 사고를 키운 것으로 나타났다. 오류를 사전에 발견할 수 있는 시스템 마저 없던 것으로 드러났다.
과학기술정보통신부는 지난 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사, 분석한 결과를 29일 발표했다.
이번 KT 네트워크 장애 사고는 25일 11시16분경부터 시작돼 12시 45분경 KT의 복구조치가 완료, 약 89분의 서비스 장애가 발생했다.
조사반이 로그 기록을 분석한 결과 부산국사에서 기업망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고 이루 라우팅 오류로 인해 전국적인 인터넷 장애가 발생한 것으로 분석됐다.
인터넷 서비스가 제공될 때 PC와 스마트폰 등 개인의 접속 단말은 지역 라우터, 센터 라우터를 거쳐 국내외 네트워크와 연결된다. 정상 연결을 위해서는 이용자 단말과 접속 대상 인터넷 주소 사이에 다수의 라우터 경로정보가 필요하다.
라우터는 네트워크 경로정보를 구성하기 위해 최신 경로정보를 라우터끼리 교환하는 통신규약(프로토콜)을 사용한다. KT 네트워크와 외부 네트워크 경로 구성에는 통상 수십만개 수준의 경로 정보를 교환하는 BGP라는 프로토콜을 사용한다. KT 내부 네트워크 경로 구성에는 1만개 이하의 경로 정보를 교환하는 IS-IS 프로토콜을 사용한다.
라우터는 BGP, IS-IS 등의 프로토콜을 통해 교환된 경로 정보를 종합해 최종 라우팅 경로를 설정하게 되고 이를 통해 사용자들이 인터넷을 원활하게 사용할 수 있다.
조사반이 작업 내역을 확인한 결과 사고발생 라우터에 설정 명령어를 입력하는 과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어 단 한줄을 누락한 것으로 나타났다. 이로 인해 내부 경로 정보 뿐 아니라 수십만개의 외부 정보가 잘못 전송됐다.
IS-IS 프로토콜을 활용하는 라우터들은 최신정보 제공을 위해 자동으로 데이터를 주고 받는다. 부산 지역 라우터에 잘못 입력된 라우팅 정보는 다른 지역의 IS-IS 라우터 등에도 전송됐고 이는 연쇄적으로 퍼져 전국단위의 장애로 확산됐다.
조사반은 IPTV망과 음성망은 인터넷과 별도로 구성됐지만 인터넷 장애로 인해 전화 및 문자 이용이 늘었고 단말의 전원을 리셋한 이용자들로 인한 트래픽 증가로 인해 일부 서비스에 장애가 발생한 것으로 추정했다.
이번 사고는 명확한 인재다.
조사반의 조사 결과 라우팅 장비 교체 작업은 당초 야간에 진행됐어야 하는 작업이다. KT네트워크 관제센터는 새벽 1시부터 아침 6시까지 야간작업을 승인했지만 주간에 작업을 진행하는 과정에서 장애가 발생했다.
또한 작업관리자 없이 KT 협력사 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업 오류를 방지하기 위한 관리체계가 부실했으며 네트워크가 연결된 채로 작업이 이뤄지면서 사고가 발생한 것으로 나타났다.
기술적 측면에서 검증 시스템 등의 부재도 드러났다. 명령어 스크립트 작성 과정 및 사전검증 과정에서 명령어 누락을 발견하지 못했다. 1~2차에 걸친 사전검증 작업은 사람이 직접 검토하는 체계여서 오류를 잡아내기 어렵다.
더군다나 네트워크가 차단된 가상상태에서 오류를 사전에 발견하기 위한 가상의 테스트베드가 없었고 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했던 것으로 드러났다.
과기정통부는 이번 조사 결과를 바탕으로 주요 통신사업자 네트워크 안정성 확보 방안을 마련한다는 방침이다.
뉴스웨이 이어진 기자
lej@newsway.co.kr
저작권자 © 온라인 경제미디어 뉴스웨이 · 무단 전재 및 재배포 금지
댓글