이프카카오 컨퍼런스, 남궁훈 위원장 등 4명 발표남궁훈 “원인 분석, 재발 방지, 미래 투자 실천과제 수립”기술 개선·투자 계획·개선사항 공유 IT업계 성장 디딤돌
  • ▲ ⓒ카카오
    ▲ ⓒ카카오
    카카오가 데이터센터로 인한 서비스 장애 재발방지 대책과 미래 인프라 투자 계획을 발표했다.

    카카오는 7일 개발자 컨퍼런스 ‘이프 카카오’를 통해 키노트 세션을 진행했다. 키노트는 ▲Our Social Mission ▲1015 장애원인 분석 ▲달라지는 카카오 : 재발방지를 위한 기술적 개선 ▲ 달라지는 카카오 : 미래 투자와 혁신 계획 등 총 4개 주제로 구성됐다.

    남궁훈 카카오 비상대책위원회 재발방지대책 소위원장은 카카오의 사고 재발 방지를 위한 각오를 밝혔다. 남 위원장은 “과거 사고 발생 원인을 분석하고, 현재에 대한 재발방지 대책을 세우며 미래에 대한 투자를 하도록 하겠다”며 “카카오의 서비스 안정화가 최우선 과제이며 사회적 책임이라는 것을 항상 명심하겠다”고 말했다.

    이어 이확영 비상대책위원회 원인조사 소위원장은 서비스 장애 원인을 객관적으로 분석했다. 이 위원장은 카카오의 이중화 조치와 위기 대응 과정에 미흡함이 있었다고 설명했다. 그는 “일부 시스템이 판교 데이터센터 내에서만 이중화 돼 장애복구가 늦어졌다”며 “캐시 서버와 오브젝트 저장소가 완벽하게 이중화되지 않아 서비스 복구하는 데 오래 걸렸다”고 전했다.

    서비스의 개발과 관리를 위한 운영관리 도구가 필요한 데 도구들의 이중화가 미흡했고, 이중화 전환 후 가용자산도 부족했다는 전언이다. 이 위원장은 “이미지를 저장하고 관리하는 시스템이나 모니터링 도구등은 화재 여파로 사용할 수 없게돼 복구에 어려움을 겪었다”며 “판교 데이터센터 전체를 대신할만큼 가용자원이 확보되지 않아 시스템 정상화까지 복구할 수 없었다”고 말했다.

    위기 대응 관점에서도 장애복구를 위한 인력과 자원, 장애 대응을 위한 소통 채널에 혼선이 있었다고 진단했다. 재해 초기 컨트롤타워 부재가 장애에 대응하는 데 어려움을 키웠다는 지적이다.

    이 위원장은 “운영관리 도구에 복구 인력이 부족했고, 이중화에 필요한 상면도 부족했다”며 “사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 사용하기 때문에 해달 채널을 사용할 수 없을 때 중요 상황 전파와 의사결정을 위한 커뮤니케이션 채널이 부재했다”고 설명했다.

    이채영 비상대책위원회 재발방지대책 소위원회 부위원장은 시스템 전체에 철저한 이중화를 적용하겠다고 강조했다. 기술적 개선 사항으로 ▲모니터링 시스템 다중화 ▲데이터 다중 복제 구조 구성 ▲운영관리도구 삼중화를 제시했다.

    이 부위원장은 “서버 이동과 재설치에 필요한 환경 구성 정보가 판교 데이터센터 시스템에 있어서 모니터링과 장애 탐지가 잘 동작하지 않았다”며 “늘어날 트래픽에 확장성을 고려한 설비투자를 진행하고, 대용량 트래픽 전송이 필요한 서비스의 데이터센터 간 삼중화를 위해 별도 전용망을 구성하겠다”고 말했다.

    모든 형태의 데이터를 일대일 복제를 넘어 데이터센터 간 이중화 이상의 다중 복제로 구성해 장애복구 조치시 즉각 실행할 환경을 구축한다는 방침이다. 이어 그는 “일시에 수많은 서비스가 발생했을 때 어떤 서비스를 먼저 복구할지 우선순위 판단도 쉽지 않았다”며 “클러스터별 중요도를 정기적으로 파악하는 프로세스를 도입하고, 특정 시스템 장애시 영향 받는 대상에 대한 공지를 자동화하겠다”고 피력했다.

    다음 첫 화면과 카카오톡 서버 로그인 등 카카오 서비스의 문제와 해결 방안에 대해서도 발표했다. 다음 첫 화면은 데이터센터 장애 시 캐시서버를 통해 자동 제어하는 방식으로 구성돼있었지만, 로직이 정상 작동하지 않았다고 전했다. 카카오톡 서버와 로그인 등 서비스는 서비스 간 의존성 문제와 서버의 불완전한 구성 등 문제가 있었다고 진단했다.

    이 부위원장은 “현재 서비스 간 의존성과 연동을 최대한 줄이고 중요 서비스 기능을 단독 실행 가능한 구조로 변경하는 작업 구성에서 문제점을 개선하고 있다”며 “사용자 데이터 뿐만 아니라 서버 구성 정보나 배포 설정에 대해서도 철저히 이중화 하는 작업을 진행 중이다”라고 강조했다.

    상설 기구를 통해 장애 대비 훈련도 강화하겠다는 복안이다. 그는 “구성원 모두가 체계적으로 이슈를 파악하고 해결하겠다, 장애 대비 훈련을 확대하고 강화하겠다”며 “사회 전반에 미치는 영향이 큰 서비스인 만큼 철저한 훈련을 계획하고 수행해 서비스가 견고해질 수 있도록 노력하겠다”고 덧붙였다.

    다음 발표에 나선 고우찬 비상대책위원회 재발방지대책 공동 소위원장은 새로 구축할 카카오 자체 데이터센터의 운영 안전성과 IT 엔지니어링에 대해 설명했다. 현재 자체 데이터센터로 시공 중인 안산 데이터센터의 운영 안정성과 IT 엔지니어링 전담 조직과 인재 확보, 각종 자연 재해와 인위적 사건 사고로 사업을 중단하는 상황을 최소화하기 위한 비상대응계획과 데이터센터 DR 체계 구축 등에 대해 설명했다.

    고우찬 위원장은 “서비스 안전성을 담보하기 위한 기술적 접근들은 아직 국내에 보편화되지 않았지만 글로벌 기업들이 도입해 효과를 보고 있는 영역에서 DR체계를 구축할 것”이라며 “개발한 툴을 오픈 소스로 공개해 업계에 기여할 수 있도록 노력하겠다. DR의 아키텍처는 기본적으로는 삼중화 플러스 알파의 구조로 개선하겠다”고 말했다.

    고 위원장은 “여러 개선 사항은 IT 엔지니어 입장에서는 획기적인 아이템은 아닐 수 있다”며 “하지만 과감한 투자결정이 있어야 가능한 것들로, 개선 사항을 추가하기 위해 향후 5년간 지난 5년 투자금액의 3배 이상 규모로 투자를 확대하겠다”고 역설했다.