[행정망 마비]민원 업무 '올스톱', 피해 왜 커졌나
자유인37
IT과학
23
569
2023.11.19 18:32
'행정전산망 마비'일지
각종 행정 서류 발급을 중단시킨 행정 전산망 장애가 통상 지침인 '3시간 이내 복구'를 넘겨 장기화된 것은 문제 원인이 복합적이기 때문이다. 단순 네트워크 장비, 인증 서버뿐만 아니라 노후화된 공무원 전용 행정 전산망 '새올' 시스템과 재해복구(DR) 시스템까지 총체적 문제가 한 번에 표출됐다는 게 전문가들 분석이다.
정부는 네트워크 장비를 교체하고 인증 서버를 일일이 들여다보는 등 문제를 하나씩 개선해가며 복구를 진행했다.
정부 목표대로 주말 사이 복구가 완료된다 해도 트래픽이 몰리는 월요일에 민원 업무가 100% 운영될 지는 미지수다.
◇현재까지 드러난 장애 원인은?
민원 업무 셧다운은 지난 17일 새올에서 사용자 인증 문제 장애가 발생한 것을 시작으로 온라인 정부 민원 서비스 '정부24'까지 확대되며 불거졌다.
첫 원인으로는 정부 인증시스템과 연결된 네트워크 장비 장애가 지목됐다. 새올과 정부24 서버·네트워크 장비 등은 대전광역시에 위치한 행정안전부 산하 국가정보자원관리원(국자원) 안에 있다.
특히 부하 분산(로드 밸런싱)을 처리하는 L4가 원인으로 특정됐다. L4는 네트워크 트래픽을 여러 장비로 분산한다. 전국에서 민원 발급 요청이 들어오면 트래픽을 분산시켜 특정 서버에 부하가 몰리는 것을 막는다.
정부와 IT 서비스 업체는 L4 등 네트워크 장비를 교체했지만, 문제를 잡는 데 실패했다.
현장에 있었던 한 업체 관계자는 “장애 초기에는 기존 네트워크 장비보다 고성능 장비로 교체해 문제를 해결하려고 했다”면서 “하지만 네트워크 장비 교체로 손쉽게 해결할 수 있을 거라는 예상과 달리 문제 해결에 난항을 겪으면서 현장에 있던 전문가 상당수가 패닉에 빠졌다”고 말했다.
정부는 차선책으로 네트워크 장비와 연동되는 인증 서버 문제를 들여다보기 시작했다. 연결 속도 등이 문제가 될 수도 있다고 판단해 포트까지 교체한 것으로 알려졌다. 이후 행정 전산망 문제는 하나둘씩 잡혔다. 다만 19일 오후 정부는 별도 발표자료를 내고 행정망 마비 원인으로 네트워크 장비(L4)를 지목했다. 행안부는 18일 새벽 L4 장비를 교체한 이후 테스트를 거쳐 지방행정전산서비스가 정상 재개됐다고 밝혔다.
◇드러난 복합 문제, 모든 가능성 놓고 원인 파악 필요
하지만 IT 서비스·보완 업계 등은 정부 발표와 달리 네트워크 장비와 인증 서버 외에 노후화된 새올 시스템도 문제의 한 원인일 수 있다는 분석을 내놓고 있다.
새올 시스템은 지난 2007년 도입돼 15년 이상 전국 시·군·구에서 운영됐다. 중소 IT 업체가 유지보수를 맡았다.
정부는 노후화된 새올 시스템을 차세대 시스템으로 구축하기 위해 예비타당성조사(예타)를 추진했지만, 보완 필요성에 따라 발표 시점을 내년 이후로 연기한 상황이다.
한 IT 업체 관계자는 “지금까지는 새올 시스템을 단순 유지보수해왔는데, 노후화를 이유로 차세대 시스템으로 근본 개선해야 한다는 목소리가 컸다”면서 “정부 또한 차세대 새올 시스템 도입을 검토하다가 여러 가지 이유로 결정을 미룬 것이 사태를 키우지 않았나 생각한다”고 말했다.
실제 민원 업무 셧다운 직전에 국자원은 새올 서버 업데이트 작업을 진행한 것으로 알려졌다. 새올시스템은 아직 정상화 및 안정화가 진행 중이다. 특히 DR 시스템까지 정상 작동하지 않았다. 통상 서버 업데이트 등 문제가 생기면 백업 서버 등이 작동한다. 하지만 백업 서버가 정상 작동하지 않았고, 테스트 없이 전산망을 가동하면서 시스템 일부가 손상됐을 가능성도 나온다.
권헌영 고려대학교 정보보호대학원 교수는 “은행의 경우에는 시스템 업그레이드와 패치를 위해 최소 한 달 전부터 공지하고, 중단되는 서비스 내용을 미리 공지한다”면서 “하지만 정부는 365일 24시간 무중단 서비스를 포기하면 안 되는 가치로 여기고 충분한 작업 시간을 갖고 업그레이드 등을 하지 않아 문제가 생긴 것”이라고 말했다. 쫓기듯 시스템을 점검하고 작업을 진행하다 보니 문제가 커졌다는 것이다.
◇근본적 대책 마련해야
전문가들은 정부가 진상을 제대로 조사해 근본적인 대책을 마련해야 한다고 입을 모은다.
김진형 KAIST 명예교수(전산학 박사)는 “공무원이나 산하기관이 (행정 시스템 등을) 운영하는 데는 한계가 있지 않을까 싶다”면서 “민간 전문기업이 관련 업무를 맡고, 정부가 감독하는 체제로 가는 것을 검토할 필요가 있다”고 말했다.
문송천 KAIST 명예교수(전산학 박사)는 “민간업체 인력 100여명이 투입돼도 문제가 쉽게 잡히지 않는 것을 보면 네트워크 장비 등 하드웨어 문제를 넘어 데이터 문제인 것이 유력하다”면서 “행정 전산시스템에 대한 데이터 통합 설계도를 구축해야만 문제가 발생했을 때 즉각 원인을 파악하고 대처할 수 있을 것”이라고 말했다.
각종 행정 서류 발급을 중단시킨 행정 전산망 장애가 통상 지침인 '3시간 이내 복구'를 넘겨 장기화된 것은 문제 원인이 복합적이기 때문이다. 단순 네트워크 장비, 인증 서버뿐만 아니라 노후화된 공무원 전용 행정 전산망 '새올' 시스템과 재해복구(DR) 시스템까지 총체적 문제가 한 번에 표출됐다는 게 전문가들 분석이다.
정부는 네트워크 장비를 교체하고 인증 서버를 일일이 들여다보는 등 문제를 하나씩 개선해가며 복구를 진행했다.
정부 목표대로 주말 사이 복구가 완료된다 해도 트래픽이 몰리는 월요일에 민원 업무가 100% 운영될 지는 미지수다.
◇현재까지 드러난 장애 원인은?
민원 업무 셧다운은 지난 17일 새올에서 사용자 인증 문제 장애가 발생한 것을 시작으로 온라인 정부 민원 서비스 '정부24'까지 확대되며 불거졌다.
첫 원인으로는 정부 인증시스템과 연결된 네트워크 장비 장애가 지목됐다. 새올과 정부24 서버·네트워크 장비 등은 대전광역시에 위치한 행정안전부 산하 국가정보자원관리원(국자원) 안에 있다.
특히 부하 분산(로드 밸런싱)을 처리하는 L4가 원인으로 특정됐다. L4는 네트워크 트래픽을 여러 장비로 분산한다. 전국에서 민원 발급 요청이 들어오면 트래픽을 분산시켜 특정 서버에 부하가 몰리는 것을 막는다.
정부와 IT 서비스 업체는 L4 등 네트워크 장비를 교체했지만, 문제를 잡는 데 실패했다.
현장에 있었던 한 업체 관계자는 “장애 초기에는 기존 네트워크 장비보다 고성능 장비로 교체해 문제를 해결하려고 했다”면서 “하지만 네트워크 장비 교체로 손쉽게 해결할 수 있을 거라는 예상과 달리 문제 해결에 난항을 겪으면서 현장에 있던 전문가 상당수가 패닉에 빠졌다”고 말했다.
정부는 차선책으로 네트워크 장비와 연동되는 인증 서버 문제를 들여다보기 시작했다. 연결 속도 등이 문제가 될 수도 있다고 판단해 포트까지 교체한 것으로 알려졌다. 이후 행정 전산망 문제는 하나둘씩 잡혔다. 다만 19일 오후 정부는 별도 발표자료를 내고 행정망 마비 원인으로 네트워크 장비(L4)를 지목했다. 행안부는 18일 새벽 L4 장비를 교체한 이후 테스트를 거쳐 지방행정전산서비스가 정상 재개됐다고 밝혔다.
◇드러난 복합 문제, 모든 가능성 놓고 원인 파악 필요
하지만 IT 서비스·보완 업계 등은 정부 발표와 달리 네트워크 장비와 인증 서버 외에 노후화된 새올 시스템도 문제의 한 원인일 수 있다는 분석을 내놓고 있다.
새올 시스템은 지난 2007년 도입돼 15년 이상 전국 시·군·구에서 운영됐다. 중소 IT 업체가 유지보수를 맡았다.
정부는 노후화된 새올 시스템을 차세대 시스템으로 구축하기 위해 예비타당성조사(예타)를 추진했지만, 보완 필요성에 따라 발표 시점을 내년 이후로 연기한 상황이다.
한 IT 업체 관계자는 “지금까지는 새올 시스템을 단순 유지보수해왔는데, 노후화를 이유로 차세대 시스템으로 근본 개선해야 한다는 목소리가 컸다”면서 “정부 또한 차세대 새올 시스템 도입을 검토하다가 여러 가지 이유로 결정을 미룬 것이 사태를 키우지 않았나 생각한다”고 말했다.
실제 민원 업무 셧다운 직전에 국자원은 새올 서버 업데이트 작업을 진행한 것으로 알려졌다. 새올시스템은 아직 정상화 및 안정화가 진행 중이다. 특히 DR 시스템까지 정상 작동하지 않았다. 통상 서버 업데이트 등 문제가 생기면 백업 서버 등이 작동한다. 하지만 백업 서버가 정상 작동하지 않았고, 테스트 없이 전산망을 가동하면서 시스템 일부가 손상됐을 가능성도 나온다.
권헌영 고려대학교 정보보호대학원 교수는 “은행의 경우에는 시스템 업그레이드와 패치를 위해 최소 한 달 전부터 공지하고, 중단되는 서비스 내용을 미리 공지한다”면서 “하지만 정부는 365일 24시간 무중단 서비스를 포기하면 안 되는 가치로 여기고 충분한 작업 시간을 갖고 업그레이드 등을 하지 않아 문제가 생긴 것”이라고 말했다. 쫓기듯 시스템을 점검하고 작업을 진행하다 보니 문제가 커졌다는 것이다.
◇근본적 대책 마련해야
전문가들은 정부가 진상을 제대로 조사해 근본적인 대책을 마련해야 한다고 입을 모은다.
김진형 KAIST 명예교수(전산학 박사)는 “공무원이나 산하기관이 (행정 시스템 등을) 운영하는 데는 한계가 있지 않을까 싶다”면서 “민간 전문기업이 관련 업무를 맡고, 정부가 감독하는 체제로 가는 것을 검토할 필요가 있다”고 말했다.
문송천 KAIST 명예교수(전산학 박사)는 “민간업체 인력 100여명이 투입돼도 문제가 쉽게 잡히지 않는 것을 보면 네트워크 장비 등 하드웨어 문제를 넘어 데이터 문제인 것이 유력하다”면서 “행정 전산시스템에 대한 데이터 통합 설계도를 구축해야만 문제가 발생했을 때 즉각 원인을 파악하고 대처할 수 있을 것”이라고 말했다.