CNET Korea뉴스인터넷

AWS, 차세대 AI 위한 'P6e-GB200 울트라서버' 출시

고밀도 GPU 성능, AWS의 보안·네트워킹 기술이 결합된 환경서 다양한 AI 워크로드 실행 가능

IRHX 리퀴드 냉각 시스템 내부 (사진=AWS)

(씨넷코리아=신동민 기자) 아마존웹서비스(이하 AWS)는 추론 모델과 에이전틱 AI 시스템(Agentic AI systems) 등 새로운 생성형 AI 발전을 가속화하기 위해, 엔비디아 그레이스 블랙웰 슈퍼칩(NVIDIA Grace Blackwell Superchips)으로 구동되는 P6e-GB200 울트라서버(P6e-GB200 UltraServers)를 출시했다고 15일 밝혔다. 

P6e-GB200 울트라서버는 현재까지 AWS가 제공하는 가장 강력한 GPU 제품으로, 최대 72개의 엔비디아 블랙웰 GPU를 탑재하고, 5세대 엔비디아 NV링크(NVIDIA NVLink)를 통해 상호 연결된 단일 컴퓨팅 유닛으로 작동한다. 

P6-B200 인스턴스는 다양한 AI 활용 사례에 유연하게 대응할 수 있는 옵션이다. 각 인스턴스는 NV링크로 상호 연결된 8개의 엔비디아 블랙웰 GPU와 1.4TB의 고대역폭 GPU 메모리, 최대 3.2Tbps의 EFAv4 네트워킹, 5세대 인텔 제온 스케일러블 프로세서(Intel Xeon Scalable processors)를 제공한다. 또한, P6-B200 인스턴스는 P5en 인스턴스와 비교하여 최대 2.25배 향상된 GPU 테라플롭스(TFLOPs) 연산 성능, 1.27배의 GPU 메모리 크기, 1.6배의 GPU 메모리 대역폭을 제공한다. 

엔비디아 블랙웰을 AWS에 도입하는 것은 단일 기술적 돌파구에 관한 것이 아니라, 인프라의 여러 계층에 걸친 지속적인 혁신의 결과이다. 컴퓨팅, 네트워킹, 운영 및 관리형 서비스 전반에 걸친 수년간의 경험과 혁신을 바탕으로, AWS는 고객들이 AWS에서 기대하는 안정성과 성능과 함께 엔비디아 블랙웰의 모든 역량을 제공한다.

고객들이 AWS를 선택해 GPU 워크로드를 운영하는 이유를 말할 때마다 공통적으로 언급되는 핵심 요소가 있다. 바로 클라우드 환경에서 인스턴스의 보안성과 안정성에 집중하는 AWS의 접근 방식이다. AWS 니트로 시스템(AWS Nitro system) 전용 하드웨어, 소프트웨어 및 펌웨어는 AWS 직원을 포함한 누구도 고객의 민감한 AI 워크로드와 데이터에 접근할 수 없도록 엄격한 제한을 적용하도록 설계되었다. 

AI 인프라의 과제는 단순히 대규모에 도달하는 것이 아니라, 그 규모에서 일관된 성능과 안정성을 제공하는 것이다. AWS는 3세대 EC2 울트라클러스터(EC2 UltraClusters)에 P6e-GB200 울트라서버를 배포하여, 이는 가장 큰 데이터 센터들을 포괄할 수 있는 단일 패브릭을 구현했다. 3세대 울트라클러스터는 전력 소모를 최대 40% 줄이고 케이블링 요구사항을 80% 이상 줄여 효율성을 높이는 동시에, 장애 가능성을 유발하는 요소들을 획기적으로 감소시킨다.

이러한 대규모 환경에서 일관된 성능을 제공하기 위해, AWS는 SRD(Scalable Reliable Datagram) 프로토콜을 사용하는EFA(Elastic Fabric Adapter)를 활용한다. 여러 네트워크 경로를 지능적으로 활용해 트래픽을 분산시켜, 혼잡이나 장애 상황에서도 원활한 운영을 유지한다. AWS는 4세대에 걸쳐 EFA의 성능을 지속적으로 개선해 왔다. EFAv4를 사용하는 P6e-GB200과 P6-B200 인스턴스는 EFAv3을 사용하는 P5en 인스턴스와 비교하여 분산 훈련에서 최대 18% 더 빠른 집합 통신 성능을 보여준다.

AWS는 여러 배포 경로를 통해 P6e-GB200 울트라서버와 P6-B200 인스턴스를 간편하게 시작할 수 있도록 했으며, 조직에 가장 적합한 운영 모델을 유지하면서 블랙웰 GPU 사용을 신속하게 시작할 수 있다.

AI 개발을 가속화하면서 인프라 및 클러스터 운영 관리에 소요되는 시간을 줄이고 싶다면, 아마존 세이지메이커 하이퍼팟(Amazon SageMaker HyperPod)이 탁월하다. 대규모 GPU 클러스터의 프로비저닝과 관리를 자동으로 처리하는 탄력적인 관리형 인프라를 제공한다. AWS는 예측 가능한 학습 일정 수립과 예산 내 운영을 지원하기 위해, 유연한 학습 계획(flexible training plans) 등 다양한 기능을 지속적으로 추가하며 세이지메이커 하이퍼팟을 고도화하고 있다.

세이지메이커 하이퍼팟은 P6e-GB200 울트라서버와 P6-B200 인스턴스 모두를 지원하며, 워크로드를 동일한 NV링크 도메인 내에 유지하여 최대 성능을 낼 수 있도록 최적화되어 있다. 또한 포괄적인 다층 복구 시스템을 구축해, 세이지메이커 하이퍼팟이 동일한 NV링크 도메인 내에서 오류가 발생한 인스턴스를 사전 구성된 예비 인스턴스로 자동 대체할 수 있도록 지원한다. 내장된 대시보드는 GPU 사용률과 메모리 사용량부터 워크로드 메트릭과 울트라서버 상태를 보여준다.

신동민 기자shine@cnet.co.kr

다양하고 흥미로운 기사를 찾아 재미있게 전달 드리겠습니다.