Tesla 인공 지능 D1 칩에 500억 개의 트랜지스터

Tesla 인공 지능 D1 칩에 500억 개의 트랜지스터

728x90

Tesla는 인공 지능 훈련을 정복하기 위해 설계된 D1 Dojo 칩에 500억 개의 트랜지스터를 가지고 있습니다.

인공 지능(AI)은 지난 몇 년 동안 널리 채택되었습니다.

많은 사람들이 알고 있듯이 전기 및 자율 주행 차량을 개발하는 회사인 Tesla에서 AI는 회사 비즈니스의 모든 측면에서 엄청난 가치를 가지고 있습니다.

Tesla는 AI 소프트웨어 워크로드를 가속화하기 위해 오늘 AI 교육용 D1 Dojo 맞춤형 ASIC(Application-Specific Integrated Circuit)을 발표했습니다.

현재 AI 워크로드용 ASIC을 구축하는 회사가 많이 있습니다.

수많은 신생 기업에서 Amazon, Baidu, Intel 및 NVIDIA와 같은 대기업에 이르기까지 모든 사람이 참여합니다.

그러나 모든 사람이 공식을 올바르게 이해하는 것은 아니며 모든 사람이 각 작업을 완벽하게 수행할 수 있는 것도 아닙니다.

이것이 Tesla가 AI 교육 목적으로 자체 ASIC을 개발하기로 선택한 이유입니다.

D1이라고 불리는 이 칩은 나중에 다양한 애플리케이션에 배포되는 Tesla HQ 내부에서 AI 모델을 훈련하는 데 사용되는 Dojo 슈퍼컴퓨터의 일부와 유사합니다.

D1 칩은 7nm 반도체 노드에서 단조된 TSMC의 제조 노력의 산물입니다.

500억 개 이상의 트랜지스터를 포장하는 이 칩은 645mm^2의 거대한 크기를 자랑합니다.

이 칩은 인상적인 성능을 제공하며 Tesla는 FP16/CFP8 정밀도에서 최대 362 TeraFLOP 또는 단정밀도 FP32 작업에서 약 22.6 TeraFLOP를 출력할 수 있다고 말합니다.

Tesla가 FP16 데이터 유형에 최적화하여 현재 컴퓨팅 성능의 선두주자인 Nvidia를 제치고 있습니다는 것은 분명합니다. Nvidia의 A100 Ampere GPU는 FP16 워크로드에서 "단" 312 TeraFLOP의 전력을 생산할 수 있으며 희소성으로 인해 최대 2배의 성능을 제공할 수 있습니다.

Tesla는 서로 연결되어 하나의 거대한 칩을 형성하는 기능 단위(FU) 메시를 구축했습니다.

각 FU에는 전치, 수집, 브로드캐스트 및 링크 순회를 위해 설계된 맞춤형 ISA가 있는 64비트 CPU가 포함되어 있습니다. CPU 디자인 자체는 4-와이드 스칼라 및 2-와이드 벡터 파이프라인이 있는 슈퍼스칼라 구현입니다.

FU가 SIMD(Single Instruction Multiple Data) 부동 소수점 및 정수 처리 요소를 위한 큰 블록으로 빌드되었음을 알 수 있습니다.

각 FU에는 자체 1.25MB 스크래치패드 SRAM 메모리가 있습니다.

FU 자체는 메시의 모든 방향에서 512GB/s 대역폭으로 BF16 또는 CFP8의 1 TeraFLOP, FP32의 64 GigaFLOP 계산을 수행할 수 있습니다.

메시는 단일 클록 주기에서만 FU를 통과하도록 설계되어 대기 시간을 줄이고 성능을 향상시킵니다.

from http://pickersoft.net/124 by ccl(A) rewrite - 2021-08-24 12:26:07