일본 차세대 슈퍼컴퓨터 개발에 엔비디아 GPU 탑재!

현대 과학과 기술의 발전 속에서 슈퍼컴퓨터는 인공지능(AI), 기후 모델링, 의료 연구 등 다양한 분야에서 핵심적인 역할을 하고 있습니다. 일본의 차세대 슈퍼컴퓨터 프로젝트인 후가쿠넥스트(FugakuNEXT)는 일본의 리켄(RIKEN) 연구소와 후지쯔(Fujitsu)가 주도하며 엔비디아가 GPU 인프라 설계를 담당할 예정이며, 기존 후가쿠(Fugaku) 슈퍼컴퓨터의 성공을 기반으로, AI와 고성능 컴퓨팅(HPC)을 융합해 세계 최초의 제타스케일(Zetta-scale) 시스템을 목표로 할 예정입니다.

1. 일본의 슈퍼컴퓨터 역사와 후가쿠의 성공

일본은 오랜 시간 동안 슈퍼컴퓨터 개발의 선두주자로 자리 잡아 왔습니다. 2020년에 공개된 후가쿠 슈퍼컴퓨터는 세계에서 가장 빠른 컴퓨터로 평가받으며, 초당 442페타플롭스(Petaflops)의 연산 성능을 자랑했습니다. 이는 일반 PC 수십만 대를 합친 것과 같은 계산 능력입니다. 후가쿠는 리켄과 후지쯔가 개발한 ARM 아키텍처 기반 A64FX 프로세서를 사용하며, 코로나19 연구(마스크 착용 효과 시뮬레이션, 바이러스 확산 예측), 기후 변화 모델링, 약물 개발 등에서 혁신적인 결과를 도출했습니다.

그러나 AI 기술의 급격한 발전으로, 기존 CPU 중심 설계로는 대규모 언어 모델(LLM)과 생성형 AI와 같은 워크로드를 처리하는 데 한계가 드러났습니다. 이에 일본은 후가쿠넥스트 개발에서 엔비디아의 GPU를 도입하며 AI와 HPC를 융합한 새로운 플랫폼을 구축하려고 하고 있습니다.

2. 후가쿠넥스트: 엔비디아 GPU 탑재의 의미

2.1 후가쿠넥스트란?

후가쿠넥스트는 리켄과 후지쯔가 개발 중인 차세대 슈퍼컴퓨터로, 2030년경 가동을 목표로 합니다. 공식 개발 코드명은 FugakuNEXT이며, 일본의 플래그십 슈퍼컴퓨터 후가쿠의 후속 모델입니다. 이 프로젝트는 AI와 HPC를 통합한 AI-HPC 플랫폼을 구축해 복잡한 사회적 문제를 해결하는 것을 목표로 합니다. 가장 큰 특징은 일본 플래그십 슈퍼컴퓨터 최초로 GPU를 가속기로 채택했다는 점이며, 엔비디아가 GPU 인프라 설계를, 후지쯔가 CPU와 전체 시스템 설계를, 리켄이 소프트웨어 및 알고리즘 최적화를 주도합니다.

2.2 왜 엔비디아 GPU인가?

엔비디아는 GPU 시장의 선두주자로, AI와 딥러닝에 최적화된 하드웨어와 소프트웨어 생태계를 제공합니다. 후가쿠넥스트에 탑재될 엔비디아의 GPU는 높은 병렬 연산 성능과 대역폭을 제공하며, AI 학습 및 추론, HPC 애플리케이션에 탁월한 성능을 발휘합니다. 이는 마치 수천 명의 요리사가 동시에 요리를 준비하는 주방과 같아, 복잡한 계산을 빠르게 처리할 수 있습니다.

AI 워크로드 최적화: 대규모 AI 모델은 수십억 개의 파라미터를 처리하며, GPU의 병렬 연산 능력이 필수적입니다. 후가쿠넥스트는 생성형 AI와 같은 첨단 애플리케이션을 지원할 예정입니다.
에너지 효율성: 엔비디아 GPU는 높은 연산 성능 대비 전력 소모가 효율적이며, 후가쿠의 40MW 전력 제약 내에서 최대 성능을 구현합니다.
소프트웨어 생태계: CUDA-X, cuQuantum, TensorRT, NeMo 등 엔비디아의 소프트웨어 도구는 개발자들이 AI와 HPC 애플리케이션을 쉽게 최적화할 수 있도록 돕습니다.

3. 후가쿠넥스트의 기술적 특징

3.1 하이브리드 아키텍처

후가쿠넥스트는 후지쯔의 FUJITSU-MONAKA-X CPU와 엔비디아가 설계한 GPU를 결합한 하이브리드 아키텍처를 채택합니다. FUJITSU-MONAKA-X는 고성능, 에너지 효율성, 보안성을 갖춘 CPU로, 초다수 코어와 확장된 SIMD 기능, 행렬 연산 엔진(Arm SME)을 통해 HPC와 AI 추론을 지원합니다. 엔비디아 GPU는 높은 대역폭과 NVLink Fusion 기술로 CPU와 긴밀히 연결되어, AI 학습과 HPC 워크로드를 동시에 처리합니다. 이는 마치 오케스트라에서 다양한 악기가 조화를 이루는 것과 같습니다.

3.2 예상 성능

후가쿠넥스트는 FP8 정밀도에서 600엑사플롭스(EFLOPS) 이상의 AI 중심 하드웨어 성능을 목표로 하며, 세계 최초의 제타스케일(Zetta-scale) 시스템이 될 전망입니다. 이는 후가쿠(442페타플롭스) 대비 하드웨어 성능이 최소 5배 이상 향상된 수준입니다. 또한, 소프트웨어 및 알고리즘 최적화를 통해 애플리케이션 성능은 최대 10~20배 추가 향상, 총 100배 성능 향상을 목표로 합니다.

3.3 소프트웨어 최적화

리켄은 후가쿠넥스트의 소프트웨어 스택을 최적화해 CPU와 GPU 간 효율적인 데이터 전송과 작업 분배를 구현합니다.

Benchpark 자동 벤치마킹: 미국 에너지부(DOE)와 협력해 지속적인 성능 평가 환경을 구축.
AI 기반 코드 최적화: AI를 활용한 코드 생성 및 최적화로 개발 효율성을 높임.
오픈소스 소프트웨어 지원: 상용 및 오픈소스 소프트웨어의 원활한 실행을 지원하는 소프트웨어 스택 개발.
혼합 정밀도 연산: Ozaki scheme과 같은 저정밀 연산을 활용해 고정밀 계산의 효율성을 높임.
물리 기반 신경망(PINN): 복잡한 계산을 AI로 대체해 성능을 극대화.

4. 후가쿠넥스트가 가져올 변화

4.1 AI 연구의 혁신

후가쿠넥스트는 대규모 AI 모델 개발을 가속화합니다. 의료 AI를 통해 신약 개발 시간을 단축하거나, 자율주행 AI를 최적화해 교통 시스템을 개선할 수 있습니다. 이는 마치 요리사가 고성능 주방 장비로 새로운 요리를 빠르게 개발하는 것과 비슷합니다.

4.2 기후 변화와 환경 연구

기후 변화 예측과 재난 대비는 후가쿠넥스트의 주요 목표입니다. GPU의 병렬 연산 능력을 활용해 정밀한 기후 모델과 지진 시뮬레이션을 수행하며, 예를 들어 대규모 지각 변동과 지역별 지진 동작을 통합 분석하는 멀티스케일 시뮬레이터를 개발합니다. 이는 일본의 태풍, 지진 대비에 큰 기여를 할 것입니다.

4.3 산업과 경제적 파급 효과

후가쿠넥스트는 반도체 설계, 자동차 제조, 로봇 공학 등에서 AI와 HPC를 활용한 혁신을 촉진합니다. 예를 들어, AI와 HPC 시뮬레이션을 결합해 성능, 안전, 비용을 모두 만족하는 최적의 제품 설계를 자동화할 수 있습니다. 이는 일본의 산업 경쟁력을 강화하고, 글로벌 기술 생태계에서 일본의 위상을 높일 것입니다.

5. 후가쿠넥스트의 개발 일정과 로드맵

후가쿠넥스트의 개발은 2025년 8월 기준 초기 설계 단계에 있으며, 구체적인 로드맵이 공개되었습니다. 리켄은 2025 회계연도 내에 기본 설계를 완료하고, 2026년부터 상세 설계로 전환할 계획입니다. 시스템은 2030년경 공식 가동을 목표로 하며, 주요 로드맵은 다음과 같습니다.

2025년: 기본 설계 완료, CPU와 GPU 간 연결 기술(NVLink Fusion) 및 고대역폭 메모리 기술 검토.
2026~2028년: 상세 설계 및 테스트베드 구축. 리켄은 'AI for Science 개발 슈퍼컴퓨터'와 같은 기존 CPU/GPU 시스템을 활용해 테스트 환경을 조성합니다.
2029년: 시스템 통합 및 초기 소프트웨어 최적화 완료.
2030년: 후가쿠넥스트 공식 가동, 클라우드 환경(가상 후가쿠)을 통해 소프트웨어와 AI 모델을 사전 배포.

이 일정은 일본의 MEXT(문부과학성) 지원 하에 진행되며, 글로벌 연구 기관과의 협력을 통해 가속화될 예정입니다.

6. 국제 협력과 기술 생태계 구축

후가쿠넥스트는 일본 내 기술 개발뿐 아니라 국제 협력을 통해 글로벌 표준을 세우는 것을 목표로 합니다.

리켄과 DOE 협력: 리켄은 미국 에너지부(DOE)와 '고성능 컴퓨팅 및 인공지능 프로젝트 협정'을 체결해 소프트웨어와 알고리즘 개발을 공동 추진합니다. Benchpark를 활용한 자동 벤치마킹 환경 구축이 대표적입니다.
후지쯔의 역할: FUJITSU-MONAKA-X CPU 개발과 시스템 통합을 담당하며, 일본의 반도체 기술 경쟁력을 강화합니다.
엔비디아의 기여: GPU 인프라 설계와 CUDA-X, TensorRT, NeMo 등 소프트웨어 스택 제공으로 AI-HPC 통합을 지원합니다.

이 협력은 하드웨어, 소프트웨어, 알고리즘을 통합한 생태계를 구축하며, 후가쿠넥스트의 기술이 전 세계 연구자와 산업에 배포될 수 있도록 합니다. 예를 들어, 가상 후가쿠를 통해 개발된 소프트웨어와 AI 모델은 2030년 이전에도 클라우드 환경에서 오픈소스로 제공될 예정입니다.

7. 후가쿠넥스트와 양자 컴퓨팅의 통합 전망

후가쿠넥스트는 AI와 HPC뿐 아니라 양자 컴퓨팅(QC)과의 통합도 고려하고 있습니다. 리켄은 2030년경 양자 컴퓨팅이 상용화 단계에 도달할 것으로 예상하며, 후가쿠넥스트의 소프트웨어 스택을 QC-HPC 하이브리드 환경에 적응시키는 연구를 진행 중입니다. 후지쯔는 2030년까지 10,000개 이상의 물리적 큐비트와 250개의 논리적 큐비트를 갖춘 초전도 양자 컴퓨터 개발을 목표로 하며, 이는 후가쿠넥스트와의 시너지를 창출할 것입니다.