2023년 11월 17일 국가정보자원관리원의 네트워크 장비 이상으로 국가 행정 전산망이 마비됐을 당시, 장비에 이상이 있다는 알림이 떴는데도 담당자들이 이를 알아차리지 못했던 것으로 드러났다. 모니터링 화면의 알림창을 닫아뒀기 때문이었다. 이들은 전산망이 마비된 채로 오전 9시 주민센터를 비롯한 정부 기관의 정규 운영 시간이 시작돼 ‘민원 대란’이 발생했는데도, 상급자를 소집하기 부담된다는 이유 등으로 장애 대응팀 소집을 미뤘고, 뒤늦게 대응에 나선 뒤에도 한동안 엉뚱한 장비의 재가동만 반복하고 있었던 것으로 조사됐다.
감사원이 29일 공개한 ‘대국민 행정 정보 시스템 구축·운영 실태’ 감사 보고서에 따르면, 2023년 11월 17일 새벽 1시 42분 국가정보자원관리원이 운영하는 네트워크 장비 가운데 L3 라우터에서 장애가 발생했다. 전송되는 데이터 대부분이 부품 불량으로 손실되고 있었다.
국가정보자원관리원 대전 본원의 종합 상황실과 서울청사 상황실의 관제 시스템에는 곧바로 이 부품에서 데이터 전송 오류가 발생했다는 알림 메시지가 나왔다. 그러나 종합 상황실에 근무 중이었던 8명은 이 메시지를 보지 못했는데, 네트워크 장비 장애 관련 알림창을 관행적으로 닫아두고 있었기 때문이다.
서울청사 상황실에서 근무하던 2명은 메시지를 봤고, 이례적인 오류라고 판단했다. 그러나 오류 발생 사실을 종합 상황실 당시 근무자들이 아니라 낮에 근무하고 퇴근한 직원에게 알렸다. 이 직원은 당일에 휴가를 갈 예정이었는데, 나중에 확인해 보겠다고만 답하고 그대로 휴가를 갔다. 서울청사 근무자들은 대전 본원의 다른 주간 근무자 2명에게도 오류 발생을 알리는 이메일을 보내뒀고, 이들은 이날 아침 출근해 메일을 봤다. 그러나 이들은 관련 명령어를 잘 알지 못해 외부 기술 지원 업체에 문의했고, 업체로부터 ‘오류 메시지가 반복되지 않는다면 이상이 없다’는 답변을 받자 이를 그대로 뒀다. 비상 소집된 장애 대응팀 관계자들에게 이 오류 발생 사실을 전달하지도 않았다.
그동안 정부의 행정 정보 시스템 189개가 마비돼 있었고, 오전 8시 40분부터 일선 공무원들로부터 전산망에 접속할 수 없다는 신고가 들어오기 시작했다. 그런데도 종합 상황실의 담당자는 한 시간 넘게 장애 대응팀 소집을 주저했는데, 7급 공무원이었던 담당자 본인보다 직급이 높은 5급 팀장들을 소집하기가 부담스럽다는 것이 이유였다.
비상 소집 문자메시지는 이날 오전 10시 14분에야 처음 발송됐다. 그러나 메시지에는 무슨 장애 상황인지, 누구누구더러 오라는 것인지 구체적으로 적혀 있지 않았고, 그래서 메시지를 받은 351명 가운데 아무도 응하지 않았다. 11시 23분에 다시 보낸 메시지를 받고서야 팀장급 4명이 모였다.
장애 대응팀은 장애 발생 전날 L4 스위치라는 장비에 대한 작업이 있었다는 이유로, L4 스위치가 잘못돼 장애가 발생한 것이라고 추정했다. 그때부터 이들은 이날 저녁까지 L4 스위치 점검만 반복했다. 다른 팀 관계자들이 ‘L4 스위치 문제가 아닌 것 같다’는 의견을 냈지만 받아들여지지 않았다.
장애 대응팀은 그날 밤새 L4 스위치를 교체하고 테스트를 진행했다. L4 스위치의 문제가 아니었으므로 테스트 결과는 ‘이상 없음’이었다. 그러자 국가정보자원관리원은 각 정부 기관에 ‘18일 오전 10시부로 장애가 해결됐다’는 문자 메시지를 보냈다. 그러나 실제로 전산망은 계속 먹통이었다.
장애 발생 지점을 찾아낸 것은 국가정보자원관리원 광주센터 직원들이었다. 이들은 18일 저녁 대전 본원과 광주센터 사이에서 접속 지연이 발생하고 있다는 것을 확인했고, 이를 대전 본원에 알려 밤새 이 구간을 점검해 19일 새벽 3시 30분에야 L3 라우터의 문제라는 것을 알아냈다. 전산망 먹통 사태는 19일 오전 6시쯤 통신선이 불량 부품을 우회하도록 조치하면서 해결됐다. 장애 발생 52시간여 만이었다.
감사원은 종합 상황실 근무자들이 장애가 발생하자마자 나온 알림 메시지를 무시하지 않았다면 장애가 쉽게 해결됐을 것이라고 지적했다. 감사원은 “국가정보자원관리원이 (알림 메시지를 무시해) 일과가 시작돼 시스템 사용량이 폭증, 혼란이 커지기 전에 문제 장비를 점검·조치할 수 있었던 골든타임을 상실했다”고 평가했다. 감사원은 특히 “국가정보자원관리원은 관제 시스템에서 체계적으로 알려주는 오류 이벤트(알림 메시지)의 중요성을 간과하고, 시스템 운용 과정이 체계적으로 기록된 로그 등 단서들을 외면한 채, 심증에 기반해 L4 스위치에만 집착한 결과, 이 장비에 문제가 없다는 사실을 수차례 점검·확인하고도 과학적인 근거에 기반해 다른 원인을 찾는 장애 재진단을 하지 않았다”고 비판했다.
다만 감사원은 이 마비 사태 전후 3개월 동안 국가정보자원관리원이 관리하는 전산 장비에서 52만6398건의 알림 메시지가 나왔고, 이 가운데 근무자의 즉각적인 확인·조치가 필요한 메시지가 4618건에 달했다는 점도 짚었다. 감사원은 “매시간 238.4건의 (오류 알림 등) 이벤트가 발생하는 상황에서 2.1건의 중요 이벤트를 찾아내 즉각적인 확인·조치를 해야 하는 상황”이라며, 이를 감당할 수 있는 충분한 인력이 배치돼야 한다고 지적했다. 상황실 근무에 최소 24명이 필요한데, 야간·휴일에는 단 9명만이 근무하고 있다는 것이다.
이번 감사는 이 2023년 11월 17~19일 전산망 마비 사태를 계기로 지난해 초부터 이뤄진 것이다. 감사 보고서는 지난달 29일 확정됐고 오는 30일 공개될 예정이었으나, 이달 26일 국가정보자원관리원 화재로 발생한 새로운 전산망 마비 사태로 하루 앞당겨 공개됐다.