Written by
nodejs-style
on
on
Pytorch Multi-GPU 정리 중
Pytorch Multi-GPU 정리 중
[노드]
(분산 처리에서는 GPU가 달려 있는 machine을 node라는 용어로 지칭한다고 함)
ex, 컴퓨터가 한 대 이면 node 1
ex, 컴퓨터가 두 대 이면 node 2
[World SIze]
Number of processes participating in the job
작업에 사용되는 프로세스들의 개수
즉, 분산 처리에서 사용할 총 gpu 개수
[RANK]
Rank는 Data Distributed Parallel에서 가동되는 process ID
Global Rank: 전체 node에 가동되는 process id
Local Rank: 각 node별 process id
[Local Rank]
노드 내 프로세스의 로컬 순위
Local Rank를 0으로 한다면 0번째 GPU를 우선순위로 작업이 진행되는 듯.
참고
https://docs.microsoft.com/ko-kr/azure/machine-learning/how-to-train-distributed-gpu
https://hongl.tistory.com/292
from http://better-tomorrow.tistory.com/296 by ccl(A) rewrite - 2021-12-19 16:26:51