AWS, 머신러닝 용 ‘P3 인스턴스’ 공개

- 머신 러닝과 고성능 컴퓨팅에 최적화 된 차세대 GPU 인스턴스  

아마존웹서비스(Amazon Web Services, AWS)는 차세대 아마존 EC2 GPU 인스턴스, P3 인스턴스를 공개했다. 

P3 인스턴스는 머신 러닝, 전산 유체 역학, 전산 금융, 지진파 분석, 분자 모델링, 유전체학 및 자율주행차 시스템 등과 같이 뛰어난 병렬적 부동 소수점 연산 성능을 요하는, 연산 집약적 애플리케이션을 위해 설계되었다.
 
인스턴스 최초로 엔비디아 테슬라 V100 GPU가 내장된 P3 인스턴스는, 현재 클라우드에서 사용 가능한 GPU 인스턴스 중 최강의 성능을 자랑한다. P3 인스턴스 사용 신청은 크 https://aws.amazon.com/ec2/instance-types/p3/ 를 통해 할 수 있다.
 

AWS우선 P3 인스턴스를 사용하면 이전 세대의 아마존 EC2 GPU 컴퓨팅 인스턴스보다 최대 14배 우수한 성능으로 고급 애플리케이션을 구축 및 배포할 수 있다. 또한 수일 소요되던 머신 러닝 애플리케이션 트레이닝도 단 몇 시간 안에 할 수 있게 된다. 최대 8개의 NVIDIA 테슬라 V100 GPU가 내장된 P3 인스턴스는 1페타플롭의 혼합 정밀도(mixed-precision), 125 테라플롭의 단일 정밀도(single-precision), 그리고 62 테라플롭의 부동 소수점 배정밀도(double-precision) 성능을 제공한다. 

엔비디아의 제2세대 NV링크 인터커넥트(NVLink interconnect)는 용량이 300 GB/s이며, GPU간 고속, 로우 레이턴시(low-latency) 통신을 지원한다. P3 인스턴스는 맞춤형 인텔 제온 E5 프로세서(브로드웰)와 488GB D램을 바탕으로 최대 64개의 vCPU를 갖추고 있으며, ENA(Elastic Network Adapter)를 통해 25 Gbps 전용 네트워크 대역폭을 제공한다. 
 
매트 가먼(Matt Garman) AWS의 아마존 EC2 부문 부사장은 “지난해에 P2 인스턴스를 출시했을 때 사람들이 아주 빠른 속도로 이를 채택하고 사용하는 것을 보고 무척 놀랐다. 현재 클라우드 내에서 이뤄지는 머신 러닝은 대부분 P2 인스턴스에서 처리되고 있는데, 사실 소비자들은 더욱 강력한 인스턴스를 원한다”며, “P2 인스턴스에 비해 최대 14배 우수한 성능을 갖춘 P3 인스턴스는 머신 러닝 모델 학습에 소요되는 시간을 대폭 단축해 준다. 이를 통해 개발자들은 신속하게 실험할 수 있게 되며, 온프레미스 GPU 클러스터에 많은 자본을 투자하지 않고도 머신 러닝을 최적화할 수 있도록 한다. 또한 고성능 컴퓨팅 애플리케이션에도 최대 2.7배 향상된 배정밀도 부동 소수점 성능을 활용할 수 있다”고 말했다.
 
숙박 공유 플랫폼 에어비앤비(Airbnb)의 커뮤니티 마켓 플레이스는 전 세계 191개 국가, 6만 5천여 도시에 위치한 독특한 숙박 시설과 그곳에서 할 수 있는 현지 체험 활동을 제공한다. 닉 핸델(Nick Handel) 에어비앤비 관계자는 “에어비앤비는 머신 러닝을 활용하여 추천 검색 시스템을 최적화하고, 호스트를 위한 동적 가격 책정(dynamic pricing) 지침을 개선하였다. 두가지의 결과 예약 전환이 증가하였다. 이러한 사용 사례는 우리 업계에서만 찾아볼 수 있는 고유한 특징으로, 게스트와 호스트의 선호도, 숙박 위치와 조건, 계절적 요인 및 가격 등 여러 다른 유형의 데이터 소스를 사용하는 머신 러닝 모델을 필요로 한다. 아마존 EC2 P3 인스턴스를 활용해 우리는 학습 워크로드를 더욱 빠르게 구동하여 더 많은 반복 작업을 수행할 수 있게 되었고, 머신 러닝 모델 개선 및 비용 절감 등의 효과를 이룰 수 있었다”고 전했다. 
 
소프트웨어 개발업체 슈뢰딩거(Schrödinger)는 과학자들이 치료제나 소재(material)를 설계하는 방식을 획기적으로 변화시킬 고급 연산 방식을 개발해 사람들의 건강을 증진하고 삶의 질을 향상시키고자 하는 사명을 가지고 있다. 로버트 아벨(Robert Abel) 슈뢰딩거 과학부 수석부사장은 “우리 업계는 발견과 최적화의 범위를 확장하고 기존 실험 방식을 보완할 수 있는, 성능이 우수하고 정확하며 예측 가능한 모델을 절실히 필요로 하고 있다. 고성능 GPU를 갖춘 아마존 EC2 P3 인스턴스를 사용하면 P2 인스턴스를 사용할 때보다 하루 최대 네 배 이상의 시뮬레이션을 수행할 수 있다. 이러한 성능 향상뿐만 아니라 우리는 새롭고 복잡한 아이디어에 대해 빠르게 대응하고 확장하는 능력을 달성하였다. 이로써 더 신속하게 사람들의 생명을 구할 의약품을 출시할 수 있게 되었다”고 전했다.
 
현재 AMI(AWS Deep Learning Machine Images)는 AWS 마켓플레이스(Marketplace)에서 제공되고 있으며, 작업을 시작하는 데 단 몇 분이면 충분하다. 딥 러닝 AMI에는 테슬라 V100 GPU를 지원하는 최신 아파치 MXNet(Apache MXNet)과 카페2(Caffe2), 텐서플로(TensorFlow)가 설치되어 있다. 또한 마이크로소프트 코그너티브 툴키트(Microsoft Cognitive Toolkit)와 파이토치(PyTorch) 등 다른 머신 러닝 프레임워크가 테슬라 V100 GPU를 지원하게 된다면, 그 즉시 딥 러닝 AMI를 업데이트하여 P3 인스턴스를 지원할 예정이다. 

사용자들은 엔디비아 GPU 클라우드의 딥 러닝 프레임워크 컨테이너를 통합하는 엔디비아 볼타 딥 러닝 AMI(NVIDIA Volta Deep Learning AMI)를 사용하거나, 아마존 리눅스(Amazon Linux), 우분투 16.04(Ubuntu 16.04), 윈도우 서버 2012 R2(Windows Server 2012 R2)나 윈도우 서버 2016(Windows Server 2016)를 통해 AMI 작업을 시작할 수 있다. 
 
P3 인스턴스를 사용하는 고객은 각자 애플리케이션에 맞는 최적의 프레임워크를 자유롭게 선택할 수 있다. 양징 지아(Yangqing Jia) 페이스북 리서치 사이언티스트 매니저(Research Scientist Manager)는 “카페2(Caffe2)를 새로이 출시된 아마존 EC2 P3 인스턴스에서 지원하게 되어 매우 기쁘다. P3 인스턴스가 가진 압도적인 성능과 기능은 개발자들이 대량의 모델을 효율적으로 훈련하고 구동할 수 있도록 해 준다. 카페 2의 확장 가능한 모듈식 딥 러닝 프레임워크와 P3의 속도의 융합을 통해 며칠이 소요되던 작업을 단 몇 시간 만에 해낼 수 있는 새로운 혁신을 고객들에게 선보이게 되었다”라고 말했다.
 
고객들은 AWS 매니지먼트 콘솔(Management Console), AWS 커맨드 라인 인터페이스(Command Line Interface), 그리고 AWS SDK를 통해 P3 인스턴스를 사용할 수 있다. 아마존 EC2 P3 인스턴스는 현재 미국 동부(버지니아), 미국 서부(오레곤), EU 서부(아일랜드), 아시아태평양(도쿄) 리전에서 사용 가능하며, 향후 더 많은 리전에서 사용할 수 있도록 지원할 예정이다. 아마존 EC2 P3 인스턴스는 1, 4, 8개의 GPU를 지원하는 총 3가지 크기로 제공되며 온디맨드(On-deman), 예약 (Reserved) 또는 스팟(Spot) 인스턴스로 사용이 가능하다.
 
[김한비 기자  ebiz@itnews.or.kr]