코스피
4,885.75
(18.91
0.39%)
코스닥
976.37
(8.01
0.83%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

"고장 한 번 났을 뿐인데 67억 날려"…리스크 '눈덩이' [안정훈의 DC인사이드]

입력 2026-01-20 11:34   수정 2026-01-20 13:20


인공지능(AI) 데이터센터에서 장애가 치명적인 이유는 손실 규모가 상상을 뛰어넘기 때문이다. 미국 정보기술산업위원회(ITIC)에 따르면 대형 AI 모델 학습이 이뤄지는 데이터센터에서 시스템 장애나 다운타임이 발생할 경우 시간당 손실액이 최대 500만달러(약 67억원)에 달한다. 수천 개 이상의 그래픽처리장치(GPU)가 동시에 돌아가는 대규모언어모델(LLM) 학습 환경에서는 장애가 발생하는 순간 마지막으로 저장된 지점 이후에 수행된 연산 결과를 더 이상 사용할 수 없기 때문이다.

데이터가 사라지는 것은 아니지만 이미 막대한 비용을 들여 계산한 결과가 무효 처리되면서 연산을 처음부터 다시 반복해야 하는 셈이다.

이 때문에 최근 데이터센터 시장의 경쟁 기준도 빠르게 바뀌고 있다. ‘고장이 나기 전 사전에 장애를 막을 수 있느냐’가 곧 경쟁력을 좌우하는 요소로 떠오르고 있다. 서버를 얼마나 많이 깔 수 있느냐를 따지던 ‘규모의 경제’에서 서비스를 얼마나 안정적으로 유지하느냐를 가르는 ‘품질의 경제’로 무게중심이 옮겨가고 있다는 평가가 나온다.

20일 정보기술(IT) 업계에 따르면 AI 데이터센터의 구조는 과거와 비교할 수 없을 만큼 복잡해지고 있다. 중앙처리장치(CPU) 중심이던 데이터센터가 그래픽처리장치(GPU)·그래픽처리가속기(DPU)·초고속 네트워크가 결합한 구조로 진화했고, 여러 지역의 데이터센터를 하나의 클러스터처럼 운영하는 사례도 늘고 있다.

하지만 여전히 운영·유지보수(O&M) 방식은 여전히 분산형 모니터링과 수작업 대응에 머물러 있다는 게 업계의 설명이다.

특히 고전력·고밀도 환경에서 GPU나 스토리지의 고장 가능성을 사전에 예측하기가 쉽지 않다는 분석이다. 예컨대 GPU 메모리 누수나 인피니밴드(InfiniBand)의 미세한 패킷 손실이 발생해도 이 문제가 실제로 어떤 AI 학습 작업을 얼마나 망치고 있는지를 즉각적으로 파악하기 어렵다는 게 업계의 공통된 설명이다.

전문 인력 부족 속에 수작업 대응이 반복되면서 평균 복구 시간(MTTR)은 늘어나고 운영 리스크는 눈덩이처럼 커지고 있다.

한국 시장의 조건은 더욱 까다롭다. 전력 비용이 높고 수도권 중심으로 데이터센터 부지가 제한적인 데다 글로벌 최고 수준의 24시간 무중단 서비스 요구가 맞물려 있어서다. 좁은 공간에 고밀도 GPU 서버를 집적해야 하는 한국형 AI 데이터센터에서는 작은 전력·냉각 이상도 곧바로 장애로 이어질 수 있다.

이 같은 흐름 속에서 엔드투엔드 AI 및 액체 냉각 솔루션 기업 케이투스(KAYTUS)가 AI 데이터센터 운영·관리 플랫폼 ‘KSManage’를 전면 업그레이드하며 해법을 제시했다. 케이투스는 싱가포르에 본사를 둔 글로벌 AI 인프라 기업으로, 서버·액체 냉각 등 하드웨어 공급을 넘어 데이터센터 운영 소프트웨어까지 사업 영역을 확장하고 있다. 케이투스는 생성형 AI 확산 이후 데이터센터의 진짜 병목이 GPU 성능이나 수급이 아니라 운영 복잡성에 있다고 진단한다. “칩은 멀쩡한데 학습이 멈춘다”는 현장의 문제를 정면으로 겨냥했다는 설명이다.

업그레이드된 케이투스 KSManage의 핵심은 부품?서버·캐비닛?클러스터?AI 학습·추론 작업으로 이어지는 4단계 통합 가시성이다. GPU 오류나 네트워크 지연, 전력 이상이 발생했을 때, 이 문제가 어떤 LLM 학습을 중단시키고 있는지를 한 화면에서 바로 보여준다. 단순히 인프라 상태를 나열하는 것이 아니라 장애가 실제 AI 작업에 미치는 영향을 직관적으로 드러내는 구조다.

실시간 3차원(3D) 시각화 기능을 통해 GPU·CPU 사용률, 전력 소비, 네트워크 트래픽을 통합 분석하고 AI 워크로드의 흐름을 자동으로 추적한다. 케이투스는 "이를 통해 장애 원인 분석과 문제 해결 효율을 최대 90%까지 끌어올릴 수 있다"고 설명했다. 여기에 AI 기반 분석을 적용해 GPU와 스토리지 등 핵심 부품의 이상 징후를 감지하고, 최대 7일 전에 고장 가능성을 예측하는 기능도 강화했다. 돌발 장애 대응 중심이던 운영 방식을 사전 예방형으로 바꾸겠다는 구상이다.

특히 네트워크 지연이나 패킷 손실 같은 인프라 문제를 단순 수치가 아니라 특정 AI 학습·추론 작업의 성능 저하로 직접 연결해 보여준다는 점을 강조한다. 이를 통해 학습 중단이나 재시작, 롤백 과정에서 발생하는 보이지 않는 연산 낭비를 줄일 수 있다는 설명이다. 케이투스는 KSManage를 앞세워 한국 시장 공략을 본격화할 계획이다. 국내 주요 클라우드 사업자와 AI 인프라 운영 기업과의 협력을 확대해 한국 AI 데이터센터의 운영 효율을 글로벌 수준으로 끌어올리겠다는 목표다.

안정훈 기자 ajh6321@hankyung.com


관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!