KT Cloud는 크롬(Chrome), 엣지(Edge) 브라우저에 최적화 되어 있습니다.
인터넷 익스플로러(IE)에서는 사용상 불편할 수 있으므로 크롬이나 엣지에서 접속해 주세요!

Hyperscale AI Computing

대규모 클러스터링이 가능한 완전한 종량제 GPU 서비스

  • 상품상세
  • 요금정보
  • 이용방법
  • Q&A

서비스 개요

kt cloud Hyperscale AI Computing은 독자적인 SW 기술을 기반으로 대규모의 GPU Cluster를 가상화하여 사용자가 연산을 실행할 때 Cluster 내의 GPU 자원을 on-demand 할당하는 서비스입니다. Hyperscale AI Computing은 가상화 기술을 통해 대규모 클러스터링을 지원하는 동시에 GPU가 실행된 시간 동안만 요금을 부과하는 완전한 종량제 서비스로, 합리적인 비용으로 GPU 자원을 제공하는 최초의 클라우드 서비스입니다.

서비스 특징

1. 대규모 GPU 자원 활용 가능

AI 모델은 점차 대형화되고 있으나, 종래의 Cloud향 GPU Server는 Pass-through방식으로
구현되어 각 VM에 개별 물리 장비에 실장된 수량 이상의 GPU 할당이 어려운 한계가 있었습니다.
반면 Hyperscale AI Computing는 가상화 기술을 통해 GPU Farm에 분산된 다량의 GPU를
클러스터링하여 연산에 활용할 수 있습니다. 현재 GPU 전용 데이터센터 상에 대규모의 GPU
인프라가 구축되어 있으며, 자연어 모델 등 초대형 모델 학습도 지원 가능합니다

2. 실 사용량 기반의 종량제 서비스

기존 Pass-through 방식의 GPU VM과 달리 GPU를 실제 사용하는 시간 동안만 요금이 부과되는
완전한 종량제 방식으로 설계되어, 이용자의 사용 패턴에 맞추어 기존 대비 대규모의 비용 절감이 가능합니다.
연산이 수행되는 시점에 on-demand로 Hyperscale AI Computing 자원이 할당되어 합리적인
비용으로 GPU 컴퓨팅 자원을 활용할 수 있습니다.

Hyperscale AI Computing VM 요금은 Hyperscale AI Computing의 요금과 VM 요금으로 구분되어 부과됩니다.

AI 가속기

시간요금제, GPU 실사용 시간만 요금 부과

VM 요금

시간요금제, 정지 시 정지요금 부과

3. 모델 프로그래밍 호환성

기존에는 Single GPU를 기준으로 개발된 서비스의 규모를 후속 확장할 경우,
각각의 GPU에서 처리할 연산을 Multi-GPU 기준으로 배분하는 재설계 및 코드 수정이 필요했습니다.
Hyperscale AI Computing은 가상화된 1 GPU 단위로 제공되므로, 사용자가 분산 처리에 대한
개발을 고려하지 않아도 Hyperscale AI Computing 내 컴파일러가 자동으로 GPU 자원의 분산 처리를 수행합니다.

또한 Hyperscale AI Computing은 GPU의 모델에 따른 종속성을 최소화하고
기존 코드의 변경 없이 모델을 개발할 수 있는 환경을 지원합니다. 가장 널리 쓰이는 AI 모델을 대상으로 연중 Pytorch와
TensorFlow를 100% 완벽하게 지원할 예정입니다. (각각 6월, 11월)

4. 개발의 유연성 및 연속성 제고

AI 모델에 필요한 GPU 리소스의 규모는 개발 단계에 따라 지속적으로 변동될 수 있는 요소입니다.
기존의 GPU server는 모델 개발 과정에서 불가피하게 GPU 자원 규모를 변경해야 할 경우, GPU VM 삭제 후
재생성하여 다시 데이터를 업로드하는 번거로운 환경 세팅을 반복해야 하는 불편함이 있었습니다.
Hyperscale AI Computing은 할당 받은 자원의 규모를 사용자의 필요에 따라
VM 종료/재생성 없이 자원 Live 상태에서 탄력적으로 변경 가능한 편의성을 제공합니다.

서비스 주요 기능

AS-IS
(Pass-through GPI VM)
TO-BE
(Hyperscale AI Computing VM)
GPU 공급GPU 실물 카드를 VM/특정 고객에 귀속하는 Pass-through(Dedicated) 형태로, 연산 작업에 투입되지 않은 GPU를 활용할 수 없는 비효율성
GPU 가상화를 통한 Pooled 제공 구조로,
프로그램 실행 시에만 GPU 자원을 할당
요금 체계VM 및 GPU에 대한 통합 과금
GPU의 실 사용 여부와 무관하게 정액 과금
VM 및 GPU(AI 가속기)를 분리 과금
GPU는 실 사용 시간만 수집하여 분 단위 종량 과금
개발 편의성모델이 커지면 Multi-GPU 기준 코드 수정 필요, 연산 비효율성 증가분산 처리 개발 없이도 컴파일러가 Multi-GPU 분산 수행 가능
유연한 규모GPU 자원 규모 변경 시 GPU VM 삭제 후 재생성, 환경 세팅을 반복해야 하는 불편함 발생VM 종료/재생성 없이 즉각 GPU 자원 규모 변경 가능
대규모 연산실장 수량에 따라 VM 당 최대 8개 수준 GPU 규모 연산 가능
모델 대형화에 대응할 수 있는
수십~수백의 대규모 GPU 연산 가능

Hyperscale AI Computing 레퍼런스 모델

제공되는 레퍼런스 모델 종류

PyTorch

VisionNLP기타
ResNet, SSD, VGG, SqueezeNet, Inception V3,
Mask R-CNN, ArcFace, 3D U-Net, AlexNet, GoogLeNet,
ResNet 3D, DenseNet, ShuffleNet V2, MobileNet V2, MobileNet V3,
ResNeXt, LR-ASPP, FCN ResNet, MNASNet,
ResNet (2+1)D, Wide ResNet, ResNet MC
Yolov5, YoloR, STDC
GPT-2, Transformer, BERT, RNN-T, Tacotron2, GPT, NCF, T5, RoBERTa, GNMTDLRM
  • 3개의 분야에서 가장 사용 빈도가 높은 모델 총 41종을 순차적으로 지원할 예정입니다. (매월 업데이트)
  • 각 모델별로 Training 및 infrence를 위한 PyTorch Reference Code, 실행 방법이 적힌 Readme 파일, 예시 데이터를 제공합니다.
  • Tensorflow 또한 추가 지원될 예정입니다. (22년 연중)

레퍼런스 모델 관련 주요 기능

Training주어진 샘플 데이터로 학습하고 주기적으로 checkpoint 저장
Fine Tuning특정 checkpoint 상태를 불러와서 주어진 샘플 데이터로 학습 재개
Test특정 checkpoint의 모델 정보를 불러오고 특정 데이터로 학습의 quality 확인
Inference특정 checkpoint의 모델 정보를 불러오고 특정 데이터로 모델에 입력을 넣어 각각에 대한 추론 결과 계산

연관 상품 (2)

전하고 싶은 포스트

[상품 소개] KT DX Platform 소개 : 상세 소개

[상품 소개] KT DX Platform 소개 : 인프라 관점

[KT Cloud 발표 영상] 국내 DaaS 시장 현황 및 코로나19 환경에서 업무혁신 전략

[상품 소개] KT DX Platform 소개 : 상세 소개

[상품 소개] KT DX Platform 소개 : 인프라 관점

클라우드 콘솔로그인 / 회원가입
클라우드 콘솔은 PC에서 접근하면 훨씬 편리합니다. 모바일에서 계속 이동하시겠습니까?