บทความนี้อธิบายการใช้งานโปรแกรม Apptainer สำหรับการรัน Training บนระบบ LANTA โดยหัวข้อต่อไปนี้ให้ข้อมูลสรุปเนื้อหาของบทความ เพื่อให้ผู้อ่านสามารถระบุส่วนที่ต้องการอ่านได้อย่างรวดเร็ว
Table of Contents | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
การเรียกใช้งานโปรแกรม Apptainer
ใช้คำสั่ง
ml av Apptainer
เพื่อดูว่ามี Apptainer เวอร์ชั่นไหนบ้างบนเครื่อง LANTA
...
Code Block |
---|
username@lanta:~> ml Apptainer/1.1.6 |
การดาวน์โหลดไฟล์ Container ของ Tensorflow จาก Docker hub
ตรวจสอบไฟล์ Container ของ Tensorflow ที่มีให้ดาวน์โหลดใน Docker hub โดยสามารถตรวจสอบได้จาก
https://hub.docker.com/ใช้คำสั่ง
apptiner pull
เพื่อดาวน์โหลดไฟล์ Container ที่ต้องการใช้งาน ในที่นี้จะดาวน์โหลดไฟล์ Container ของ Tensorflow-gpu เวอร์ชั่น 2.17.0
Code Block |
---|
username@lanta:~> apptainer pull tensorflow_2.17.0-gpu.sif docker://tensorflow/tensorflow:2.17.0-gpu |
ตัวอย่างการรัน Training ด้วยโปรแกรม Apptainer
ตัวอย่างการรัน Training นี้จะประกอบด้วย 3 ไฟล์ต่อไปนี้
ไฟล์ Setup.py - ใช้สำหรับการดาวน์โหลด Data set
ไฟล์ MNIST.py - ใช้สำหรับทดสอบรัน Training
ไฟล์ submitSubmit.sh - ใช้สำหรับส่ง Job รันบนเครื่อง GPU
...
Info |
---|
|
การส่งงานเข้ารันในระบบ
ดาวน์โหลด Data set โดยใช้คำสั่งต่อไปนี้
...
จากนั้น ใช้คำสั่ง
sbatch Submit.sh
เพื่อส่ง Job ของคุณเข้าระบบ Slurm ของ เพื่อส่งงานของคุณเข้ารันบนเครื่อง LANTA
Code Block |
---|
username@lanta:~> sbatch Submit.sh |
คู่มืออื่นๆที่เกี่ยวข้อง
Filter by label (Content by label) | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|