...
Table of Content (in page)
Expand | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
|
...
MNIST DDP
โดยในตัวอย่างนี้เป็นการแปลง python code แต่เดิมของ MNIST ที่เป็น single gpu ให้เป็น DDP
...
Output DDP กับ 2 Nodes DGX-1 (16 GPUs)
หากเราต้องการเทรนนิ่งด้วย 2 DGX nodes หรือ 16 GPUs V100 เราสามารถปรับแต่งค่าที่เกี่ยวข้องต่าง ๆ ใน Slurm configuration ของ script-N-1-worldsize-8.sh ให้กลายเป็น script-N-2-worldsize-16.sh ได้ง่าย ๆ ดังนี้
Code Block |
---|
#SBATCH -N 2 # node count ... export WORLD_SIZE=16 # ควรได้มาจาก $(($SLURM_NNODES * $SLURM_NTASKS_PER_NODE)) |
ผลลัพธ์ของ script-N-2-worldsize-16.sh และ DDP.py แสดงได้ดังต่อไปนี้
...