KT Cloud는 크롬(Chrome), 엣지(Edge) 브라우저에 최적화 되어 있습니다.
인터넷 익스플로러(IE)에서는 사용상 불편할 수 있으므로 크롬이나 엣지에서 접속해 주세요!
대규모 클러스터링이 가능한 완전한 종량제 GPU 서비스
kt cloud Hyperscale AI Computing은 독자적인 SW 기술을 기반으로 대규모의 GPU Cluster를 가상화하여 사용자가 연산을 실행할 때 Cluster 내의 GPU 자원을 on-demand 할당하는 서비스입니다. Hyperscale AI Computing은 가상화 기술을 통해 대규모 클러스터링을 지원하는 동시에 GPU가 실행된 시간 동안만 요금을 부과하는 완전한 종량제 서비스로, 합리적인 비용으로 GPU 자원을 제공하는 최초의 클라우드 서비스입니다.
1. 대규모 GPU 자원 활용 가능
AI 모델은 점차 대형화되고 있으나, 종래의 Cloud향 GPU Server는 Pass-through방식으로
구현되어 각 VM에 개별 물리 장비에 실장된 수량 이상의 GPU 할당이 어려운 한계가 있었습니다.
반면 Hyperscale AI Computing는 가상화 기술을 통해 GPU Farm에 분산된 다량의 GPU를
클러스터링하여 연산에 활용할 수 있습니다. 현재 GPU 전용 데이터센터 상에 대규모의 GPU
인프라가 구축되어 있으며, 자연어 모델 등 초대형 모델 학습도 지원 가능합니다
2. 실 사용량 기반의 종량제 서비스
기존 Pass-through 방식의 GPU VM과 달리 GPU를 실제 사용하는 시간 동안만 요금이 부과되는
완전한 종량제 방식으로 설계되어, 이용자의 사용 패턴에 맞추어 기존 대비 대규모의 비용 절감이 가능합니다.
연산이 수행되는 시점에 on-demand로 Hyperscale AI Computing 자원이 할당되어 합리적인
비용으로 GPU 컴퓨팅 자원을 활용할 수 있습니다.
Hyperscale AI Computing VM 요금은 Hyperscale AI Computing의 요금과 VM 요금으로 구분되어 부과됩니다.
AI 가속기
시간요금제, GPU 실사용 시간만 요금 부과
VM 요금
시간요금제, 정지 시 정지요금 부과
3. 모델 프로그래밍 호환성
기존에는 Single GPU를 기준으로 개발된 서비스의 규모를 후속 확장할 경우,
각각의 GPU에서 처리할 연산을 Multi-GPU 기준으로 배분하는 재설계 및 코드 수정이 필요했습니다.
Hyperscale AI Computing은 가상화된 1 GPU 단위로 제공되므로, 사용자가 분산 처리에 대한
개발을 고려하지 않아도 Hyperscale AI Computing 내 컴파일러가 자동으로 GPU 자원의 분산 처리를 수행합니다.
또한 Hyperscale AI Computing은 GPU의 모델에 따른 종속성을 최소화하고
기존 코드의 변경 없이 모델을 개발할 수 있는 환경을 지원합니다. 가장 널리 쓰이는 AI 모델을 대상으로 연중 Pytorch와
TensorFlow를 100% 완벽하게 지원할 예정입니다. (각각 6월, 11월)
제공되는 레퍼런스 모델 종류
PyTorch
Vision | NLP | 기타 |
---|---|---|
ResNet, SSD, VGG, SqueezeNet, Inception V3, Mask R-CNN, ArcFace, 3D U-Net, AlexNet, GoogLeNet, ResNet 3D, DenseNet, ShuffleNet V2, MobileNet V2, MobileNet V3, ResNeXt, LR-ASPP, FCN ResNet, MNASNet, ResNet (2+1)D, Wide ResNet, ResNet MC Yolov5, YoloR, STDC | GPT-2, Transformer, BERT, RNN-T, Tacotron2, GPT, NCF, T5, RoBERTa, GNMT | DLRM |
레퍼런스 모델 관련 주요 기능
Training | 주어진 샘플 데이터로 학습하고 주기적으로 checkpoint 저장 |
---|---|
Fine Tuning | 특정 checkpoint 상태를 불러와서 주어진 샘플 데이터로 학습 재개 |
Test | 특정 checkpoint의 모델 정보를 불러오고 특정 데이터로 학습의 quality 확인 |
Inference | 특정 checkpoint의 모델 정보를 불러오고 특정 데이터로 모델에 입력을 넣어 각각에 대한 추론 결과 계산 |