บทความนี้อธิบายการใช้งานโปรแกรม Apptainer สำหรับการรัน Training บนระบบ LANTA โดยหัวข้อต่อไปนี้ให้ข้อมูลสรุปเนื้อหาของบทความ เพื่อให้ผู้อ่านสามารถระบุส่วนที่ต้องการอ่านได้อย่างรวดเร็ว
Table of Contents | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
การเรียกใช้งานโปรแกรม Apptainer
ใช้คำสั่ง
ml av Apptainer
เพื่อดูว่ามี Apptainer เวอร์ชั่นไหนบ้างบนเครื่อง LANTA
Code Block |
---|
username@lanta:~> ml av Apptainer
------------------- /lustrefs/disk/modules/easybuild/modules/all --------------------
Apptainer/1.1.6
If the avail list is too long consider trying:
"module --default avail" or "ml -d av" to just list the default modules.
"module overview" or "ml ov" to display the number of modules for each name.
Use "module spider" to find all possible modules and extensions.
Use "module keyword key1 key2 ..." to search for all possible modules matching any of the "keys". |
จากนั้นใช้คำสั่ง
ml Apptainer/x.x.x
เพื่อเรียกใช้งานโปรแกรม Apptainer เวอร์ชั่นที่ต้องการใช้งาน ถ้าไม่ระบุเวอร์ชั่น เวอร์ชั่นเริ่มต้นจะถูกเรียกใช่งานซึ่งก็คือ Apptainer/1.1.6
Code Block |
---|
username@lanta:~> ml Apptainer/1.1.6 |
การดาวน์โหลดไฟล์ Container ของ Tensorflow จาก Docker hub
ตรวจสอบไฟล์ Container ของ Tensorflow ที่มีให้ดาวน์โหลดใน Docker hub โดยสามารถตรวจสอบได้จาก
https://hub.docker.com/ใช้คำสั่ง
apptiner pull
เพื่อดาวน์โหลดไฟล์ Container ที่ต้องการใช้งาน ในที่นี้จะดาวน์โหลดไฟล์ Container ของ Tensorflow-gpu เวอร์ชั่น 2.17.0
Code Block |
---|
username@lanta:~> apptainer pull tensorflow_2.17.0-gpu.sif docker://tensorflow/tensorflow:2.17.0-gpu |
ตัวอย่างการรัน Training ด้วยโปรแกรม Apptainer
ตัวอย่างการรัน Training นี้จะประกอบด้วย 3 ไฟล์ต่อไปนี้
ไฟล์ Setup.py - ใช้สำหรับการดาวน์โหลด Data set
ไฟล์ MNIST.py - ใช้สำหรับทดสอบรัน Training
ไฟล์ submitSubmit.sh - ใช้สำหรับส่ง Job รันบนเครื่อง GPU
...
Info |
---|
|
...
การส่งงานเข้ารันในระบบ
ดาวน์โหลด Data set โดยใช้คำสั่งต่อไปนี้
Code Block |
---|
username@lanta:~> ml Apptainer username@lanta:~> apptainer exec -B $PWD:$PWD tensorflow_2.17.0-gpu.sif python Setup.py |
จากนั้น ใช้คำสั่ง
sbatch submitSubmit.sh
เพื่อส่ง Job ของคุณเข้าระบบ Slurm ของ เพื่อส่งงานของคุณเข้ารันบนเครื่อง LANTA
Code Block |
---|
username@lanta:~> sbatch Submit.sh |
คู่มืออื่นๆที่เกี่ยวข้อง
Filter by label (Content by label) | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|