(씨넷코리아=신동민 기자) 아마존웹서비스(Amazon Web Services, 이하 AWS)는 오늘 AWS 리인벤트 2025(AWS re:Invent 2025)에서 트레이니움3(Trainium3) 칩 기반 ‘아마존 EC2 Trn3 울트라서버(Amazon EC2 Trn3 UltraServers)’의 출시를 3일 발표했다.AI 모델의 규모와 복잡성이 증가함에 따라 컴퓨팅 및 네트워킹 인프라의 한계에 도달하고 있으며, 고객들은 AI 시스템이 입력을 받아 해당 출력을 생성하기까지 걸리는 추론 지연 시간과 훈련 시간을 줄이고자 한다. 이제 최첨단 모델을 훈련시키기 위해서는 극소수의 조직만이 감당할 수 있는 규모의 인프라 투자가 필요하며, AI 애플리케이션을 대규모로 제공하는 데 필요한 컴퓨팅 리소스는 비용과 규모가 빠르게 커질 수 있다.현재 이용 가능한 가장 빠른 가속 인스턴스를 사용하더라도 병렬화 제약으로 인해 클러스터 크기를 단순히 늘리는 것만으로는 훈련 시간을 단축할 수 없으며, 실시간 추론 요구 사항은 단일 인스턴스 아키텍처의 한계를 넘어선다.AWS는 고객이 이러한 제약을 극복할 수 있게 지원하고자 아마존 EC2 Trn3 울트라서버를 정식 출시했다. 3나노미터(nm) 공정으로 제작된 새로운 트레이니움3 칩을 탑재한 Trn3 울트라서버는 모든 규모의 조직이 더 큰 AI 모델을 더 빠르게 훈련시키고 더 많은 사용자에게 더 낮은 비용으로 서비스를 제공할 수 있도록 지원한다.Trn3 울트라서버는 최대 144개의 트레이니움3 칩으로 확장 가능하며, 최대 362 FP8 페타플롭스(PFLOPs)의 성능을 제공하고 지연 시간을 4배 줄였다. 또한 트레이니움2 울트라서버 대비 최대 4.4배 향상된 컴퓨팅 성능과 4배 높은 에너지 효율성, 약 4배 많은 메모리 대역폭을 제공한다. 이를 통해 모델 훈련 시간을 몇 개월에서 몇 주로 단축하고, 더 많은 사용자의 추론 요청을 동시에 처리하며, 출시 기간과 운영 비용을 모두 절감함으로써 이전에는 비실용적이거나 너무 고비용이었던 AI 프로젝트를 수행할 수 있게 됐다.오픈AI(OpenAI)의 공개 가중치(open weight) 모델인 GPT-OSS를 활용해 Trn3 울트라서버를 테스트한 결과, 고객들은 Trn2 울트라서버 대비 3배 향상된 칩당 처리량과 4배 빠른 응답 속도를 달성할 수 있었다. 이는 기업이 더 적은 인프라로도 AI 애플리케이션을 확장해 피크(peak) 수요를 처리할 수 있고, 추론 요청당 비용을 절감하는 동시에 사용자 경험을 직접적으로 개선할 수 있음을 의미한다.이러한 개선은 트레이니움3의 맞춤형 칩 설계에서 비롯된다. 이 칩은 첨단 설계 혁신, 칩 간 데이터 이동을 가속화하는 최적화된 연결 구조, 대규모 AI 모델 처리 시 병목 현상을 제거하는 향상된 메모리 시스템을 통해 획기적인 성능을 구현한다. 단순한 성능 향상뿐 아니라, 트레이니움3는 이전 세대 대비 40% 향상된 에너지 효율성을 통해 상당한 에너지 절감 효과를 제공한다. 이러한 효율성은 대규모 환경에서 중요하며, AWS가 데이터 센터 전반에 걸쳐 환경 영향을 줄이면서 더욱 비용 효율적인 AI 인프라를 제공할 수 있도록 한다.AWS는 칩 아키텍처부터 소프트웨어 스택에 이르는 수직 통합 시스템으로 Trn3 울트라서버를 설계했다. 이 통합의 핵심은 일반적으로 분산 AI 컴퓨팅을 제한하는 통신 병목 현상을 제거하도록 설계된 네트워킹 인프라다. 새로운 뉴런스위치-v1(NeuronSwitch-v1)은 각 울트라서버 내에서 2배 많은 대역폭을 제공하며, 향상된 뉴런 패브릭(Neuron Fabric) 네트워킹은 칩 간 통신 지연을 10마이크로초 미만으로 줄인다.에이전틱 시스템, 혼합 전문가(Mixture-of-Experts, MoE) 모델, 강화 훈련 애플리케이션을 포함한 미래의 AI 워크로드를 구현하려면 프로세서 간에 막대한 양의 데이터가 원활하게 흐를 수 있어야 한다. AWS가 설계한 이 네트워크를 통해 이전에는 불가능했던 즉각에 가까운(nearinstantaneous) 응답 속도를 제공하는 AI 애플리케이션을 구축할 수 있다. 이로써 데이터를 즉시 처리하고 조치를 취하는 실시간 의사결정 시스템, 지연 없이 자연스럽게 응답하는 유연한 대화형 AI와 같은 새로운 사용 사례를 실현할 수 있다.확장이 필요한 고객을 위해 EC2 울트라클러스터(UltraCluster) 3.0은 수천 대의 Trn3 울트라서버를 연결해 최대 100만 개의 트레이니움 칩을 탑재할 수 있다. 이는 이전 세대 대비 10배 향상된 규모로 차세대 파운데이션 모델(foundation model)을 훈련시킬 수 있는 인프라를 제공한다. 이러한 규모는 조 단위 토큰 데이터 세트에서 멀티모달 모델을 훈련시키는 것에서부터 수백만 명의 동시 사용자를 위한 실시간 추론 실행에 이르기까지 이전에는 불가능했던 프로젝트를 가능하게 한다.앤트로픽(Anthropic), 카라쿠리(Karakuri), 메타지노믹스(Metagenomics), 네토닷에이아이(Neto.ai), 리코(Ricoh), 스플래시뮤직(Splashmusic)과 같은 고객사들은 이미 트레이니움을 통해 가치를 실현 중이며, 대체 솔루션 대비 훈련 비용을 최대 50% 절감했다. AWS의 파운데이션 모델 관리형 서비스인 아마존 베드록(Amazon Bedrock)은 이미 트레이니움3에서 프로덕션 워크로드를 운영하고 있어, 트레이니움3 칩이 기업 규모 배포에 적합함을 입증한다.실시간 인터랙티브 경험을 제공하는 효율적이고 최적화된 생성형 AI 영상 및 이미지 모델을 전문으로 하는 AI 연구소 디카트(Decart)를 비롯한 선도적인 AI 기업들은 실시간으로 영상을 생성하는 고부하 워크로드에 트레이니움3을 활용하고 있으며, GPU 대비 절반의 비용으로 4배 빠르게 프레임을 생성하고 있다. 이는 컴퓨팅 집약적인 애플리케이션을 대규모로 실용화하여, 개인화된 라이브 경험부터 대규모 시뮬레이션에 이르기까지 완전히 새로운 범주의 인터랙티브 콘텐츠를 가능하게 한다.프로젝트 레이니어(Project Rainier)를 통해 AWS는 앤트로픽과 협력하여 50만 개 이상의 트레이니움2 칩을 세계 최대 규모의 AI 컴퓨팅 클러스터로 연결했다. 이는 앤트로픽의 이전 세대 모델 훈련에 사용된 인프라보다 5배 큰 규모다. 트레이니움3는 이러한 검증된 기반을 바탕으로 울트라클러스터 아키텍처를 확장함으로써 차세대 대규모 AI 컴퓨팅 클러스터와 프런티어(frontier) 모델을 위한 더욱 뛰어난 성능을 제공한다.AWS는 이미 트레이니움4 개발에 착수했으며, 이 칩은 차세대 프런티어 훈련 및 추론을 지원하기 위해 최소 6배의 처리 성능(FP4), 3배의 FP8 성능, 4배의 메모리 대역폭 등 모든 영역에서 상당한 성능 개선을 이루도록 설계되고 있다. 하드웨어 및 소프트웨어 최적화를 지속적으로 결합함으로써, 기본적인 개선을 훨씬 뛰어넘는 수준의 성능 향상을 기대할 수 있다. 트레이니움4의 3배 향상된 FP8 성능은 근본적인 도약을 의미하며, 이를 통해 AI 모델을 최소 3배 빠르게 훈련시키거나 최소 3배 많은 추론 요청을 처리할 수 있다. 또한, 지속적인 소프트웨어 개선 및 워크로드별 최적화를 통해 추가적인 성능 향상을 실현할 수 있다. FP8은 현대 AI 워크로드에서 모델 정확성과 컴퓨팅 효율성을 균형 있게 제공하는 업계 표준 정밀도 형식이다.트레이니움4는 더욱 향상된 스케일업 성능을 제공하기 위해 엔비디아 NV링크 퓨전(NVIDIA NVLink Fusion) 고속 칩 연결 기술을 지원하도록 설계되고 있다. 이러한 통합을 통해 트레이니움4, 그래비톤(Graviton), EFA(Elastic Fabric Adapter)가 공통 MGX 랙(rack) 내에서 원활하게 작동할 수 있으며, GPU 및 트레이니움 서버를 모두 지원하는 비용 효율적인 랙 규모의 AI 인프라를 제공한다. 그 결과 고부하 AI 모델 훈련과 추론 워크로드에 최적화된 유연하고 고성능의 플랫폼을 구현할 수 있다.