2024. 5. 13. 14:10ㆍ🗞️ AI News
AI 업계에는 물론 소프트웨어적인 개발 수요도 굉장히 많지만, 이를 위해서는 학습용 연산기 인프라가 충분히 구축되어 있어야 한다. 때문에 전 세계적으로 현재 GPU 품귀 현상으로, GPU 가격이 계속해서 증가세를 보이고 있다. 이러한 GPU 업계의 독보적인 선두주자가 바로 NVIDIA다. NVIDIA는 기존 그래픽 처리용 GPU (Graphic Processing Unit)를 이러한 AI 학습용 연산에 활용할 수 있게 해주는 소프트웨어 CUDA와 함께 AI용 연산기 시장의 대부분을 독점하고 있다. 지난 3월, NVIDIA는 GTC Keynote에서 자체 AI 학습용 가속기 플랫폼 Blackwell을 공개하여 이 독점 시장을 굳히고 새로운 GPU 패러다임을 개척하고자 했다. 이러한 NVIDIA의 움직임에서 볼 수 있듯, 앞으로의 AI 개발 시장에는 GPU/연산 가속기가 필수적으로 요구될 것이며 기반 산업 또한 가파른 성장세를 보일 것으로 예상된다. 본 기사에서는 AI 개발에 수반되는 대표적인 하드웨어 (GPU)와, GPU의 발전을 가속화하는 DRAM (HBM)을 다루고, 현재의 산업 동향을 보았을 때, 앞으로 AI 개발자로서 가져야할 자세에 대해 고민해본다.
Why NVIDIA? - CUDA, Blackwell
CUDA(Calculate Unified Device Architecture)는 NVIDIA가 2007년에 개발하여 출시한 소프트웨어 개발 플랫폼으로, 병렬 컴퓨팅의 성능을 가속화하는 데 사용된다. CUDA는 NVIDIA GPU에서 실행되는 프로그램을 작성하기 위한 특수 프로그래밍 언어를 제공하며, 대부분의 운영 체제와 호환된다. CUDA는 하나의 작업을 수천 개의 더 작은 "스레드"로 분할하여 병렬 처리를 가능하게 함으로써, NVIDIA GPU의 성능을 크게 향상시킬 수 있다. 뿐만 아니라, CUDA 프로그래밍 모델은 개발자가 C, C++, Python 등의 인기 있는 프로그래밍 언어를 사용하여 GPU를 직접 프로그래밍할 수 있도록 설계되어 개발 환경 확장성 또한 굉장히 우수하다.
NVIDIA CUDA를 통해, NVIDIA GPU가 단순히 그래픽 장치가 아닌, 범용 병렬 연산 처리 장치로 확장할 수 있다. 이는 기존에도 이미 GPU 산업 선구자였던 NVIDIA가 AI 반도체 시장의 절대적인 강자가 될 수 있게 하는 가장 핵심적인 요소였다. NVIDIA는 Blackwell을 출시하기 전 시점에서도, AI 연산용 GPU (A8000, T100 등) 분야 절대 강자로 군림하였고, Blackwell을 통해 완전 독식 체제를 굳히고자 한다.
이미 GPU 시장을 독식하고 있는 NVIDIA는 Blackwell이라는 독자 ‘플랫폼’을 개발하여 AI 클라우드 서비스 혹은 자체 개발중인 기업에 공급하려는 계획을 발표했다.
NVIDIA의 Blackwell 아키텍처는 AI 및 가속 컴퓨팅 분야에서 혁신적인 성능과 효율성을 제공하기 위해 개발된 최신 GPU 마이크로아키텍처이다. Blackwell은 AI 연산에 최적화되어, 이전 세대와 비교하여 월등히 향상된 연산 처리 능력을 제공한다. 예를 들어, Blackwell의 GB200 Superchip은 두 개의 Blackwell GPU와 72코어의 Grace CPU를 통합하여 최대 40 PFLOPS의 계산 성능을 달성할 수 있다.
Blackwell의 기술적인 특징 중 하나는 새로운 Transformer Engine을 포함하고 있다는 점이다. 이 엔진은 더 낮은 정밀도(FP4 등)에서 AI 모델에 최적화되어 있어, 메모리 요구 사항을 줄이고 처리량을 향상시킨다. Blackwell은 또한 매우 높은 대역폭과 메모리 용량을 갖춘 HBM3e 메모리를 사용하여 데이터 센터의 AI 연산 작업에 필요한 대규모 병렬 처리 능력을 갖추고 있다.
NVIDIA DGX SuperPOD는 NVIDIA GB200 Grace Blackwell 칩으로 구동되어, Trillion 단위 파라미터 모델을 처리하기 위해 설계되었다. (LLAMA3 기준 80B 파라미터) DGX SuperPOD는 액체 냉각식 랙 스케일 아키텍처를 기반으로 하고 있으며, PP4 밀도에서 11.5 엑사 (100경) 플롭스의 AI 슈퍼컴퓨팅 성능과 240TB의 빠른 메모리를 제공한다.
새로운 DGX GB200 시스템은 각각 36개의 NVIDIA GB200 슈퍼칩을 탑재하고 있으며, 이는 36개의 NVIDIA Grace CPU와 72개의 NVIDIA Blackwell GPU로 구성되어 있다. 이들은 5세대 NVIDIA NVLink를 통해 하나의 슈퍼컴퓨터로 연결되어진다. 또한, 이 시스템은 NVIDIA Quantum InfiniBand을 통해 수천 개의 GB200 슈퍼칩을 연결하여, 대규모 공유 메모리 공간을 제공할 수 있다. 이러한 데이터센터 용 Blackwell 기반 시스템은 NVIDIA로 하여금 기존의 데이터센터 GPU 시장 독점을 굳히게 함과 동시에, 미래 AI 산업을 선도할 수 있도록 한다.
GPU (Graphic Processing Unit)
GPU vs CPU
CPU는 일반적인 계산을 담당하며, 다양한 종류의 명령을 빠르게 처리하는 데 적합하다. 반면, GPU는 복잡한 이미지 처리와 같은 특정 작업에 최적화된 설계로, 수천 개의 작은 코어를 이용한 병렬 처리를 통해 이러한 작업에 대응할 수 있다. 이는 특히 AI 분야에서의 딥러닝과 같은 데이터 및 연산 집약적인 작업에 매우 유용하며, 대규모 데이터셋과 복잡한 수학적 연산을 신속하게 처리하는 데에 적합하다. GPU와 CPU는 제어 단위 (Control), 캐시 (Cache), 그리고 산술 논리 장치(Arithmetic and Logical Unit, ALU)의 관점에서 각자 다른 특징을 가진다.
제어 단위 (Control)
- CPU: CPU의 제어 단위는 다양한 종류의 연산과 태스크를 관리하도록 설계되어 있다. 일련의 작업을 순차적 혹은 멀티태스킹 환경에서 처리할 수 있는데, 이 때에 높은 수준의 제어 능력과 유연성을 필요로 한다.
- GPU: GPU의 제어 단위는 주로 이미지 처리 등 특정화된 작업에 최적화되어 있다. GPU는 동일하거나 유사한 연산을 수천 개의 데이터에 동시에(병렬적으로) 적용해야 하는 작업에 적합하며, 그렇기 때문에 CPU에 비해 단순한 연산 로직을 사용한다.
캐시 (Cache)
- CPU: CPU는 비교적 더 크고 복잡한 캐시 시스템을 사용하여, 작업의 다양성과 복잡성에 잘 대응할 수 있다.
- GPU: GPU가 처리하는 작업은 대체로 매우 반복적이며, 대량의 데이터를 동일한 방식으로 처리해야 하기 때문에, 캐시 구조도 비교적 단순화되어 있다.
산술 논리 장치 (Arithmetic and Logical Unit, ALU)
- CPU: 다양한 종류의 데이터 타입과 복잡한 연산에 대응할 수 있으며, 명령어 사이를 빠르게 전환할 수 있는 유연성을 가지고 있다.
- GPU: GPU의 ALU는 주로 플로팅 포인트 연산에 최적화되어 있으며, 간단하고 반복적인 수학적 연산을 대량으로 처리하는 데 초점을 맞추고 있다. GPU에는 수백에서 수천 개의 ALU가 포함되어 있어 병렬 데이터 처리가 가능하다.
위와 같이, GPU는 딥러닝 혹은 AI 연산 처리에 구조적으로 최적화된 연산기이다. 하지만, 모든 AI 작업에서 GPU가 필수적인 것은 아니다. 작거나 단순한 AI 모델의 경우, CPU만으로도 충분한 성능을 발휘할 수 있다. 실제로 구글 코랩의 무료 사용자에게는 CPU와 GPU(T4)가 같이 제공되어 기초적인 머신러닝 혹은 딥러닝 모델을 무료로 실행할 수 있도록 한다.
그럼에도 불구하고, 위에 언급한 GPU의 특성(빠른 병렬 계산 처리 등)으로 인해, 대부분의 딥러닝 업계에서는 GPU를 선호한다.
HBM (High Bandwidth Memory)
GPU의 발전과 함께 주목받는 반도체가 바로 HBM이다. 기존 컴퓨터의 아키텍처 구조는 폰 노이만 구조이다. 여기서 폰 노이만 구조는 중앙처리장치(CPU), 메모리, 프로그램으로 구성된 컴퓨터 아키텍처의 명칭이다. 이 구조는 CPU와 GPU가 데이터를 처리할 때 메모리로부터 데이터를 빠르게 받아야 하지만, 데이터 전송 속도가 처리 속도를 따라가지 못해 병목 현상이 발생하게 된다. 이를 해결하기 위해 데이터 전송 경로인 Bandwidth를 넓혀야 하는데, 이 때 사용되는 구조적인 해결책이 HBM이다.
HBM은 기존의 DRAM과 비교할 때 데이터 처리 속도를 크게 향상시킬 수 있는 메모리 구조로, 여러 개의 DRAM을 수직으로 쌓아 올려 만든 차세대 스택 메모리이다. HBM은 프로세서와 2.5D로 연결되고 DRAM은 3D로 연결되어 이러한 수직 구조를 형성한다. HBM은 데이터 전송 속도를 확보하기 위해 실리콘 인터포저와 시스템 인 패키지(SiP)를 필요로 한다. 이러한 수직 연결 구조는 메모리 간의 데이터 전송 거리를 단축시켜 전송 속도를 획기적으로 증가시킬 수 있다. HBM 구조를 사용하면, 각 배치에 대한 효율적인 학습량 분배가 가능하게 되어 AI 연산 효율이 획기적으로 증가한다.
트렌드포스의 보고에 따르면, 인공지능(AI) 붐으로 인한 수요 증가로, HBM 가격이 올해 5%, 내년에는 10% 이상 상승할 전망이다. 또한 HBM의 판매 단가는 기존 DRAM 대비 약 두 배 비싸기 때문에, SK 하이닉스와 삼성전자 등 HBM 기술을 선도하는 기업들은 HBM 기술 개발에 박차를 가하고 있다.
앞으로 AI 발전의 방향성
이 기사에서는 AI 개발에 있어서 GPU와 HBM 같은 반도체 기술의 중요성을 확인할 수 있었다. NVIDIA의 최신 AI 연산기 Blackwell 플랫폼과 같은 혁신적인 기술은 연산의 효율성과 성능을 크게 향상시키며, HBM은 데이터 전송 속도를 혁신적으로 증가시켜 기존 GPU가 가지고 있던 기술적 한계를 뛰어넘고 있다. 이러한 발전은 AI 개발자들이 보다 복잡한 모델을 효과적으로 학습시킬 수 있는 기반을 마련해 주며, 앞으로의 AI 산업이 더욱 더 급속도로 발전할 수 있는 환경을 조성하고 있다.
앞으로의 AI 발전은, 데이터 센터의 환경 오염을 줄일 수 있는 방향으로 나아갈 것이다. 현재 연구 동향에서도, 모델의 경량화 혹은 양자화 등 여러 방법을 사용하여 모델 훈련에 필요한 자원을 최소화하고자 하는 움직임이 점차 나타나고 있다. 지난 4월에 발표된 LLaMA 3 모델의 경우에도, 양자화 도입을 통해 모델 경량화 및 성능 향상을 이루어낸 바 있다.
결국 딥러닝 연구개발과 딥러닝 학습용 반도체 및 기반 시설의 발전은 서로를 지탱하고 있는 양상이다. 따라서 미래 AI 개발자는, 이러한 최신 기술의 동향을 지속적으로 파악하고 실무에 적용할 수 있는 능력을 길러야 할 것이다. 이는 미래의 AI 산업을 선도하며, 기술의 최전선에서 경쟁력을 유지하기 위한 필수적인 조건이 될 것이라 예상한다.
Reference
-[반도ChatEP.3]초거대 AI시대를 이끌 메모리 반도체'HBM'
-HBM, 만들편 팔린다... "내년엔 가격 10% 넘게 상승"
대학생 인공지능 연합 동아리 Prometheus
2024년 5월 10일
Editor : 박준형
'🗞️ AI News' 카테고리의 다른 글
[AI News #06] AI Seoul Summit (0) | 2024.06.07 |
---|---|
[AI News #05] 구글, 제작자를 위한 생성 모델 ‘Veo’, ‘Imagen 3’등 공개 (1) | 2024.05.31 |
[AI News #04] OpenAI, 획기적인 멀티모달 AI 모델 'ChatGPT 4o' 출시! 음성, 영상, 텍스트 실시간 추론 가능 (0) | 2024.05.20 |
[AI News #02] AI21 Labs, 세계 최초의 Mamba 기반 상용 수준 모델 ‘Jamba’ 출시 (0) | 2024.04.14 |
[AI News #01] TacticAI: 딥마인드가 리버풀FC와 만든 축구 전술 AI (0) | 2024.04.06 |