Written by nodejs-style
on 2021-12-19

Pytorch Multi-GPU 정리 중

[노드]

(분산 처리에서는 GPU가 달려 있는 machine을 node라는 용어로 지칭한다고 함)

ex, 컴퓨터가 한 대 이면 node 1

ex, 컴퓨터가 두 대 이면 node 2

[World SIze]

Number of processes participating in the job

작업에 사용되는 프로세스들의 개수

즉, 분산 처리에서 사용할 총 gpu 개수

[RANK]

Rank는 Data Distributed Parallel에서 가동되는 process ID

Global Rank: 전체 node에 가동되는 process id

Local Rank: 각 node별 process id

[Local Rank]

노드 내 프로세스의 로컬 순위

Local Rank를 0으로 한다면 0번째 GPU를 우선순위로 작업이 진행되는 듯.

참고

https://docs.microsoft.com/ko-kr/azure/machine-learning/how-to-train-distributed-gpu

https://hongl.tistory.com/292

from http://better-tomorrow.tistory.com/296 by ccl(A) rewrite - 2021-12-19 16:26:51

Top