[테크리포트]서버 업계 ‘AI 인프라 자체 구축’ 시장 눈독

클라우드 AI 서비스에도 자체 구축 요구 높아
효성인포메이션, 한국HPE 등 턴키 솔루션으로 맞춤 제안

바야흐로 인공지능(AI)의 시대다. 업종과 업무 분야를 막론하고 AI가 쓰이지 않거나 필요하지 않은 곳을 찾아보기 어려울 정도다. 전 세계 많은 기업이 AI를 사용해 새로운 통찰력, 수익 및 효율성을 발견하고 있다.

이렇다 보니 클라우드 서비스 사업자들도 앞다퉈 AI 기반 머신러닝 및 딥러닝 서비스를 내놓고 있으며, 클라우드 서비스용 데이터센터는 GPU가 점령한 지 오래다. GPU는 비디오 게임 가속기로 출발해 현재는 슈퍼컴퓨팅, AI 훈련과 추론 등 고성능 연산 워크로드로 클라우드 데이터센터에서의 수요가 폭증하고 있다.

글로벌 AI 기반 하드웨어 시장 성장 추이 (자료:스테이티스타 2022년 5월)

AI는 GPU에 새로운 판로를 제공했지만 또 다른 과제 또한 던지고 있다. AI 서비스 수요에 대응하고 시장을 선점하려는 하이퍼스케일러들이 앞다퉈 AI 강화 칩셋의 자체 개발에 나서고 있기 때문이다. 구글 TPU(Tensor Processing Units)가 대표적이다.

클라우드 서비스 센터에서 GPU 사용 분야가 AI에만 국한된 것은 아니지만 많은 비중을 차지하고 있기에 하이퍼스케일러들의 자체 AI 칩셋 개발은 GPU 업계로 하여금 새로운 수요 창출의 필요성을 높이고 있다. 그 중 하나가 직접 AI 인프라를 구축하는 기업 시장이다. 이 시장을 공략하려는 서버 및 플랫폼 업체들의 움직임도 분주하다.

효성인포 통합AI 플랫폼, AI 자원 효율적 활용 강조

효성인포메이션시스템은 지난해 AI 사업 TF를 조직해 AI 비즈니스 시장 환경과 사업화를 검토했고 올 초 신설한 HPC사업팀에서 AI 통합 인프라 비즈니스를 수행하고 있다. AI와 ML의 예측분석 업무를 위한 슈퍼컴퓨팅, AI클라우드 GPU 구축, 데이터 레이크 연계 AI 업무용 GPU 서버 수요를 타깃으로 ‘효성 AI 플랫폼’ 서비스를 제공하고 있다.

여기에는 효성인포메이션시스템의 고성능 병렬 파일 스토리지(HCSF), 슈퍼마이크로 GPU 서버(엔비디아 GPU, 엔비디아의 GPU 다이렉트 기술로 서버와 스토리지 연계), 엔비디아 DGX 서버, 래블업의 컨테이너 기반 AI 연구&개발 플랫폼 등이 해당된다. 특히 파트너사인 래블업의 AI 분석 플랫폼 ‘백엔드.AI’는 아태지역 최초로 엔비디아 DGX-레디 소프트웨어 인증을 받았으며 GPU 분할 가상화로 AI 연산 자원을 효율적으로 사용할 수 있게 해준다고 강조했다.

한국HPE는 최근 AI에 최적화된 머신러닝 개발 시스템(HPE Machine Learning Development System)을 발표했다. 지난해 6월 인수한 디터민드 AI(Determined AI)의 머신러닝 소프트웨어 플랫폼, 컴퓨팅, 가속기, 네트워킹을 통합한 엔드-투-엔드 솔루션으로, 머신러닝 모델 구축 및 학습 기반 데이터 분석에 걸리는 고객의 시간을 현재의 수 주~수 개월에서 수일 내로 단축할 수 있게 해준다고 주장했다.

이와 함께 에지AI 솔루션 HPE 스웜 러닝도 발표했다. 데이터 보안을 우려하는 기업들을 겨냥해 에지 혹은 분산 위치에서 사용 가능한 머신러닝 프레임워크로, HPE 스웜 API를 활용해 AI 모델과 신속 통합되는 컨테이너를 제공한다. 질병 진단부터 신용카드 사기 탐지까지 고객은 실제 데이터를 공유하지 않고도 조직 내외부 관계자들과 AI 모델 러닝을 공유하며 트레이닝을 개선할 수 있다.

김영채 한국HPE 지사장은 “HPE의 검증된 딥러닝용 AI 솔루션은 고객의 가치 창출 시간 및 결과를 가속화해준다”며 “한국HPE는 기업 고객이 윤리, 데이터와 개인 정보 보호 및 거버넌스 표준을 유지하며 협업, 혁신 및 AI 모델의 성능을 가속화할 수 있도록 지원할 예정”이라고 말했다.

BMW도 투자한 AI 전용 프로세서 그래프코어 IPU

지난해 한국 지사를 설립한 슈퍼마이크로의 행보도 심상치 않다. 본사 차원에서는 GPU 기반 AI 최적화 서버의 표준이다시피 한 엔디비아와의 긴밀한 협력, 국내에서는 디앤지, 슈퍼솔루션 등과 같은 총판은 물론 효성인포메이션시스템과의 협력 등으로 GPU 기반 AI 서버 시장을 적극 공략하고 있다.

슈퍼마이크로 본사 관계자는 “한국 기업들은 디지털 트랜스포메이션의 일환으로 AI, IoT, 빅데이터와 같은 혁신 기술을 빠르게 채택하고 있어 슈퍼마이크로에게 가능성이 매우 큰 시장”이라며 “한국 지사와 파트너사를 통해 보다 신속한 서비스도 제공할 수 있을 것”으로 강조했다.

슈퍼마이크로는 증가하는 한국 시장의 수요에 대응할 수 있는 가장 포괄적이고 광범위한 AI 서버 솔루션 포트폴리오를 갖추고 있다는 점을 자사 경쟁우위로 설명한다. 업계 최대 엔비디아 인증 시스템 포트폴리오와 함께 최근에는 인텔 및 인텔 하바나와 협력해 인텔 기반 최신 AI 액셀러레이터 ‘아크틱 사운드-M(Arctic Sound M)’과 ‘가우디2(Gaudi2)’를 업계 최초로 지원하고 있다.

슈퍼마이크로나 HPE 등 국내 AI 최적화 서버들이 대부분 엔비디아 GPU로 AI 가속 기능을 제공하는 데 반해 그래프코어코리아는 자체 개발 AI 전용 프로세서로 시장을 공략 중이다.

영국 기업 그래프코어의 IPU(Intelligence Processing Unit)는 대용량 메모리 대역폭과 함께 대규모 컴퓨팅 병렬 처리 구조의 머신러닝 및 AI 애플리케이션 전용 프로세서로, 자연어처리 머신러닝 모델 BERT, 컴퓨터 비전 머신러닝 모델 ResNet-50 등에서 테스트한 결과 엔비디아 GPU보다 동일 비용 당 1.3배 및 1.6배 높은 성능을 보여주었다.

강민우 그래프코어코리아 지사장은 “초기에는 GPU 최적화 모델과 비교되는 경향이 있었으나 보다 고도화된 AI 모델이 등장하면서 AI 전용 IPU가 다른 프로세서 아키텍처를 빠르게 앞서 나가고 있다”고 주장했다. 1472개의 병렬처리 프로세싱 코어, 1GB에 달하는 온보드 SRAM 등 IPU 고유 특성을 통해 5~10배 뛰어난 성능 이점을 제공한다는 설명이다.

그래프코어가 삼성전자와 마이크로소프트, 미국 벤처 캐피털인 세콰이어 캐피탈 외에 자동차 제조사인 BMW로부터도 투자를 유치한 것이 흥미롭다.

협력사인 메가존클라우드를 통해 딥러닝 기반 자연어처리(NLP) 스타트업 트위그팜에 그래프코어 IPU 기반 AI 서버를 구축했지만 국내 사업의 최우선 목표는 클라우드 역량 강화다.

이를 위해 KT(하이퍼스케일 AI 서비스), NHN 클라우드와 협력하고 있다. 하지만 클라우드 서비스 사업자 환경에서 베어메탈 셋업을 적용해 기업 단독형(전용)으로 구축하는 것도 가능하다고 강조한다. 클라우드 사업자의 데이터센터에서 호스팅하지만 특정 사용자가 독점하는 형태다.

퍼블릭 클라우드 혹은 자체 구축(온프레미스 및 프라이빗 클라우드) 중 어떤 환경에서 AI 인프라를 구축할지 정답은 없다. 하지만 IDC가 올 2월 발표한 ‘AI 인프라스트럭처 뷰(AI Infrastructure View’ 보고서에 따르면 AI를 본격 가동하고 있다는 응답자는 31%, 나머지 대부분의 기업들은 여전히 실험, 평가/테스트 또는 프로토타입 단계에 있으며 “AI 프로젝트 실패의 원인은 적절하지 못하거나 목적에 부합하지 못한 AI 인프라”에 있다. 이에 IDC는 AI 인프라는 기업의 미래를 위한 의사결정에서 가장 중요한 인프라이자 가장 미성숙한 인프라로 남아 있다고 주장했다.

퍼블릭 클라우드 대신 자체 AI 인프라 구축 왜?

초기 투자 비용과 번거로운 구현 과정이 필요 없다는 점에서 클라우드 기반 AI 머신러닝 서비스들이 인기를 끌고 있지만 여러 가지 이유로 온프레미스나 프라이빗 클라우드 등 자체 구축형 AI 인프라에 대한 수요는 존재한다.

우선 커스터마이징 필요성 때문이다. 플랫폼 사업자가 제공하는 SaaS 혹은 PaaS 플랫폼을 그대로 사용하는 대신, 업무에 맞춰 변경하길 원하는 기업들이 자체 구축에 나서고 있다.

또 의외의 복병이 비용이다. 퍼블릭 클라우드 서비스가 초기 비용 부담을 줄이고 사용한 만큼의 과금으로 비용 효과가 높다고 하지만 에지 등에서 발생된 대량의 데이터를 수집, 클라우드 서비스로 전송할 경우 네트워크 비용에 큰 부담을 느끼게 된다. 네트워크 통신 기반 퍼블릭 클라우드의 과금 체계 때문에 과다한 사용 비용이 발생하는 것이다.

서버 업계 관계자는 “CPU 사용 외에도 스토리지, 클라우드 서비스 내 네트워크 트래픽, 가용 영역, 클라우드 데이터센터와 고객 간의 데이터 송수신 등에 대한 비용 때문에 대부분의 환경 및 워크로드에서 온프레미스 혹은 프라이빗 클라우드 비용이 퍼블릭 클라우드 비용보다 약 30~50% 저렴한 것으로 나타난다”고 말한다. 비용뿐 아니라 원격 통신 시 지연(latency) 시간도 퍼블릭 AI 서비스보다 자체 구축을 선호하게 만든다.

데이터 보안 우려도 기업이 자체 AI 인프라 구축을 검토하는 이유다. 클라우드 서비스가 더 강력한 보안을 제공한다고 주장하지만 기업들은 민감한 내부 데이터를 외부 퍼블릭 클라우드에 노출하는 것을 여전히 꺼려한다.“AI 분석을 위해서는 데이터가 중요한데 기업들은 정확한 분석을 위해 믿을 수 있는 데이터를 보안 유지되는 환경에서 저장, 운영하기 위한 방안으로 자체 구축을 많이 고려하고 있다”고 효성인포메이션시스템 관계자는 전했다.

상단영역

본문영역