엔비디아 블랙웰 아키텍처

11/18/2025 12:01:00 오후

블랙웰(Blackwell)은 어떤 것인가 ?

블랙웰(Blackwell)은 주로 엔비디아(NVIDIA)에서 개발한 차세대 그래픽 처리 장치(GPU) 마이크로아키텍처를 의미합니다.

호퍼(Hopper)의 후속작: 기존 엔비디아의 AI 및 데이터 센터용 GPU 아키텍처인 '호퍼'와 게이밍 GPU 아키텍처인 '에이다 러브레이스'의 뒤를 잇는 차세대 기술입니다.

AI에 최적화: 젠슨 황 엔비디아 CEO는 블랙웰을 "새로운 산업 혁명의 엔진"이라 부르며, 모든 산업의 인공지능화를 뒷받침할 것이라고 강조했습니다. 거대 언어 모델(LLM) 추론 워크로드에서 이전 세대 대비 최대 30배의 성능 향상을 제공할 수 있습니다.

블랙웰(Blackwell) 엔비디아 블랙웰 아키텍처

주요 특징:

멀티 칩 디자인: TSMC 4나노미터(4N) 공정으로 제조된 두 개의 레티클 제한형 다이를 고속의 칩 간 상호 연결(10 TB/s)을 통해 하나의 통합 GPU처럼 작동시킵니다.

2세대 트랜스포머 엔진: 새로운 4비트 부동 소수점(FP4) AI를 위한 마이크로 텐서 스케일링 기술이 적용되어 성능과 정확도를 최적화합니다.

고성능 및 효율: AI 성능이 크게 향상되었으며, 에너지 소비를 최대 25배까지 줄일 수 있습니다.

적용 제품: 데이터 센터용 AI 칩(B100, B200, GB200 등)과 함께, 2025년에 출시된 지포스 RTX 50 시리즈 게이밍 GPU에도 사용되었습니다.

명칭의 유래

이 아키텍처의 이름은 게임 이론, 확률 이론, 통계학에 중요한 공헌을 한 미국의 저명한 통계학자이자 수학자인 **데이비드 해럴드 블랙웰(David Harold Blackwell)**의 이름에서 따왔습니다.

엔비디아의 새로운 블랙웰(Blackwell) 인프라는 생성형 AI 및 고성능 컴퓨팅(HPC)의 급증하는 요구 사항을 처리하도록 설계된 획기적인 GPU 아키텍처 및 플랫폼입니다. 이는 이전 세대 대비 성능, 에너지 효율성 및 확장성에서 상당한 개선을 제공하며, 조 단위 매개변수(trillion-parameter) AI 모델 학습을 가속화할 수 있습니다.

주요 특징 및 구성 요소

가장 강력한 칩: 블랙웰 아키텍처 GPU는 2,080억 개의 트랜지스터를 탑재하고 있으며, TSMC의 맞춤형 4NP 공정을 사용해 제조됩니다. 고대역폭 칩 간 인터페이스(NV-HBI)를 통해 두 개의 다이(die)가 하나의 통합 GPU처럼 작동합니다.

2세대 트랜스포머 엔진: 새로운 4비트 부동 소수점(FP4) AI 추론 기능을 지원하여, LLM(대규모 언어 모델) 학습 및 추론 처리량을 최적화하고 연산 및 모델 크기를 두 배로 늘릴 수 있습니다.

5세대 NVLink: GPU 간 고속 통신을 위해 GPU당 1.8TB/s의 양방향 처리량을 제공하며, 최대 576개의 GPU를 원활하게 연결하여 복잡한 LLM 성능을 가속화합니다.

고대역폭 메모리(HBM3e): 최대 192GB 또는 288GB의 HBM3e 메모리를 탑재하여, 방대한 데이터 세트에 대한 빠른 액세스를 지원하고 메모리 병목 현상을 줄여줍니다.

시스템 확장: GB200 Grace Blackwell 슈퍼칩은 액체 냉각 방식의 랙 스케일 시스템인 GB200 NVL72에 통합되어 최대 30배의 LLM 추론 성능 향상을 제공하며, 단일 가상 GPU처럼 작동합니다.

안전한 AI(Confidential Computing): 강력한 하드웨어 기반 보안 기능을 포함하여 중요한 데이터와 AI 모델을 무단 액세스로부터 보호합니다.

압축 해제 엔진: 데이터 처리 및 분석 속도를 향상시키기 위한 전용 엔진이 포함되어 있습니다.

인프라의 영향 및 도입

AI 및 HPC 가속화: 블랙웰 인프라는 생성형 AI, 데이터 분석, HPC, 양자 컴퓨팅 통합 등 광범위한 애플리케이션에서 획기적인 발전을 지원합니다.

글로벌 도입: AWS, Google, Microsoft 등 주요 클라우드 서비스 제공업체와 국내 SK텔레콤 등이 블랙웰 기반 AI 인프라를 도입하거나 계획 중입니다.

한국 내 영향: 엔비디아는 새로운 블랙웰 인프라 도입으로 한국의 전체 AI GPU 수량이 크게 증가할 것으로 전망하며, 국내 기업들과의 협력을 통해 한국의 AI 인프라 허브 도약을 지원하고 있습니다.

Supermicro의 NVIDIA B300 AI 솔루션

Supermicro의 NVIDIA B300 AI 솔루션은 최신 NVIDIA Blackwell Ultra GPU를 기반으로 하며, 시스템 구성(HGX B300 NVL16 또는 GB300 NVL72 랙 솔루션)에 따라 세부 스펙이 달라집니다.

주요 사양.

Supermicro HGX B300 NVL16 시스템 (노드/서버 레벨)

이 시스템은 일반적으로 8개의 GPU로 구성된 4U 또는 8U 폼 팩터의 서버입니다.
GPU: 8 x NVIDIA Blackwell Ultra GPU (GPU당 288GB HBM3e)
GPU 메모리: 시스템당 총 2.3TB HBM3e 메모리
CPU: 듀얼 Intel Xeon 6700 시리즈 프로세서 또는 듀얼 AMD EPYC 9004/9005 시리즈

프로세서

시스템 메모리: 최대 8TB DDR5-5200/6400 (32 DIMM 슬롯) 또는 최대 6TB DDR5 (24 DIMM 슬롯, AMD 모델)
NVLink 인터커넥트: 5세대 NVLink 및 NVSwitch를 통해 GPU 간 최대 1.8TB/s 대역폭 제공

네트워킹: 8 x 통합 NVIDIA ConnectX-8 SuperNIC (최대 800Gb/s 노드 간 연결), 2 x 듀얼 포트 NVIDIA BlueField-3 DPU (옵션)

스토리지: 전면 핫스왑 E1.S NVMe 드라이브 베이 8개, M.2 NVMe 부트 드라이브 2개
냉각 방식: 공랭식 또는 액체 냉각식 옵션 제공

전원 공급 장치: 4개 또는 6개의 6600W 이중화 티타늄 레벨 (96%) 파워 서플라이
Supermicro GB300 NVL72 랙 솔루션 (랙 레벨)
이 솔루션은 랙 단위의 통합 시스템으로, 72개의 B300 GPU와 36개의 Grace CPU를 결합합니다.

GPU: 72 x NVIDIA Blackwell Ultra B300 GPU
CPU: 36 x NVIDIA 72코어 Grace Arm Neoverse V2 CPU

총 GPU 메모리: 최대 21TB HBM3e (GPU당 약 288GB)

총 시스템 메모리: 최대 17TB LPDDR5X

NVLink 인터커넥트: 72개의 GPU와 36개의 CPU가 단일 NVLink 패브릭으로 연결되어 총 130TB/s의 NVLink 대역폭 제공

성능: 약 1.1~1.4 엑사플롭스 (FP4 기준) AI 성능 제공

냉각 방식: 완전 액체 냉각 방식
이 솔루션들은 대규모 AI 훈련 및 추론 워크로드를 위해 설계되었으며, 높은 컴퓨팅 밀도와 에너지 효율성을 제공합니다.

#NVIDIA-B300 #블랙웰 #블랙웰아키텍처 #블랙웰스펙

Blog Sense