엔비디아(http://www.nvidia.co.kr/, CEO 젠슨황)는 미국 캘리포니아 새너제이에서 열리고 있는 세계 최대의 GPU 개발자 컨퍼런스 ‘GTC 2016’에서 가장 진보된 하이퍼스케일 데이터 센터 가속기인 ‘테슬라(Tesla) P100’ GPU를 출시했다.
엔비디아의 차세대 ‘파스칼(Pascal)’ GPU 아키텍처를 기반으로 한 최신 가속 컴퓨팅 플랫폼 테슬라 P100은 수백 개의 CPU 노드를 합친 것과 동일한 수준의 성능을 자랑한다. 가장 심화된 연산 작업을 하는 애플리케이션을 위한 성능과 효율성을 제공하므로, 극대화된 노드와 빠른 속도를 필요로 하는 인공지능 및 과학 응용 분야에 적합하다.
테슬라 P100은 다음 기능을 기반으로 진보된 성능과 확장성, 프로그래밍 효율성을 제공한다.
파스칼(Pascal) 기반 테슬라 P100은 이전 세대인 엔비디아 맥스웰(Maxwell) 기반 솔루션과 비교, 12배 향상된 뉴럴 네트워크 훈련 성능을 보인다.
엔비디아의 NV링크의 고속 GPU는 다중의 CPU에 걸쳐 애플리케이션을 확장하며, 현재 최고 수준의 솔루션과 비교했을 때 5배 가속화된 대역폭을 제공한다. 최대 8대의 테슬라 P100 GPU를 NV링크로 연결, 단일 노드에서 애플리케이션 성능을 최대화할 수 있다. 더 빠른 CPU와 GPU 간 정보 전송을 위해 IBM은 POWER8 CPU에 NV링크를 탑재했다.
16나노미터의 핀펫(FinFET, 3차원 입체 구조의 칩 설계 기술) 공정 기술의 153억 트랜지스터를 기반으로 한 파스칼 GPU 아키텍처는 현존하는 가장 큰 핀펫칩이다. 극한의 워크로드를 위해 가장 빠른 성능과 최상의 에너지 효율성을 제공한다.
파스칼 아키텍처는 효율성 극대화를 위해 프로세서와 데이터를 하나로 통합했다. HBM2(고대역폭 메모리)을 탑재한 CoWoS(Chip on Wafer on Substrate) 형태의 혁신적인 메모리 디자인을 통해, 맥스웰 아키텍쳐와 비교해 초당 720GB 또는 3배 이상 높은 메모리 대역폭 성능을 제공한다.
새로운 반정밀도의 명령은 딥러닝을 위해 21테라플롭스(teraflop, 1초에 1조회 연산) 이상의 성능을 제공한다. 배정밀도 및 단일 정밀도에서는 5에서 10 테라플롭스을 제공하는 첫 번째 가속기다.
테슬라(Tesla) P100 GPU 가속기는 다양한 고성능 슈퍼 컴퓨터(HPC)와 딥 러닝 애플리케이션에 혁신적인 성능을 제공한다. 그 예로 앰버(AMBER) 분자동력학 코드는 48 개 듀얼 소켓 CPU 서버 노드에서보다 테슬라 P100 GPU 기반 단일 서버 노드에서 더 빠르게 작동되며, 알렉스넷(AlexNet) 딥 뉴럴 네트워크 훈련에는 250 개의 듀얼 소켓 CPU 서버 노드의 성능이 여덟 개의 테슬라(Tesla) P100 GPU로 가능하다. 일기 예보 애플리케이션인 코스모(COSMO)는 27대의 듀얼 소켓 CPU 서버보다 여덟 개의 테슬라(Tesla) P100 GPU에서 더 빠르게 구동된다.
한편 엔비디아는 GPU 컴퓨팅을 위한 개발 플랫폼인 엔비디아 SDK(소프트웨어 개발 키트) 업데이트도 함께 발표했다. 이번 업데이트는 ‘엔비디아 CUDA 8’를 포함하는 엔비디아 병렬 컴퓨팅 플랫폼의 최신 버전으로, 개발자가 통합 메모리와 NV링크를 포함하는 새로운 파스칼 기능에 직접 접근할 수 있도록 돕는다. 또한 새로운 그래픽 분석 라이브러리로 로봇 경로 계획, 사이버 보안, 물류 분석 등에 사용가능한 ‘nvGRAPH’를 포함, 빅 데이터 분석 영역에 GPU 가속의 사용을 확대한다.
김종렬 기자 obtain07@noteforum.co.kr
[디지털 모바일 IT 전문 정보 - 노트포럼]
Copyrights ⓒ 노트포럼, 무단전재 및 재배포 금지