สถานะ Pending (PD)
คำอธิยายสำหรับสถานะ PD แต่ละชนิด และการแก้ไขในเบื้องต้นมีดังนี้
Resources
หมายถึง job นั้นเป็นคิวแรกที่จะกำลังรอเข้ารันงาน โดย job จะรันโดยอัตโนมัติเมื่อระบบมีทรัพยากรเพียงพอตามที่ระบุใน script ที่ส่งรันงาน
Priority
หมายถึง job นั้นกำลังเข้าคิวเพื่อรอเข้ารันงานเป็นลำดับอื่น ๆ ซึ่งจะได้รันต่อจาก job ที่มีสถานะ Resources และระบบมีทรัพยากรเพียงพอตามที่ระบุใน script ที่ส่งรันงาน
QOSGrpBillingMinutes
หมายถึง job นั้นยังไม่ถูกเข้าสู่ระบบ queuing system เนื่องจากมี service unit (SU) ไม่เพียงพอกับการรันงาน (สามารถตรวจสอบสถานะของ SU ของโครงการด้วยคำสั่ง sbalance
) โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อมีจำนวน SU เพียงพอต่อการรัน job นั้นๆ
FAQ : sbalance
แล้วยังมี SU เหลือ ทำไมถึงติดสถานะ QOSGrpBillingMinutes
การทำงานของ Slrum นั้นจะพิจารณาว่า SU ที่เหลืออยู่เพียงพอต่อการใช้ทรัพยากรทั้งหมดตามที่ระบุไว้ใน script หรือไม่ เช่น หากระบุเป็น 1 GPU node (-p gpu -N 1
) เป็นระยะเวลา 1 วัน (-t 24:00:00
) จะต้องมี SU มากกว่า 187,200 (130 x 60 x 24) ใน account เพื่อให้ไม่ติดสถานะ QOSGrpBillingMinutes ดังนั้นควรปรับค่าระยะเวลาที่ต้องใช้ทรัพยากรให้เหมาะสมกับงานนั้นๆ โดยเฉพาะในกรณีที่ SU เหลือน้อย
PartitionTimeLimit
หมายถึง job นั้นยังไม่ถูกเข้าสู่ระบบ queuing system เนื่องจากระบุค่าระยะเวลาที่ต้องใช้ทรัพยากรมากกว่าค่าที่กำหนดไว้ ในกรณีนี้จะต้องทำการยกเลิก job นั้น แก้ไข script ที่ใช้ในการสั่งรัน (-t
) และ สั่งรันงานใหม่อีกครั้ง โดยระยะเวลาสูงสุดในแต่ละ partition สามารถตรวจสอบได้จากคำสั่ง sinfo
MaxCpuPerAccount
หมายถึง job นั้นยังไม่เข้าสู่ระบบ queuing system เนื่องจากมีจำนวน CPU/Cores เกินกว่าข้อกำหนดตามโยบายของ job submission โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อจำนวน CPU/Cores ที่รันอยู่ในระบบลดลง
MaxJobPerAccount
หมายถึง job นั้นยังไม่เข้าสู่ระบบ queuing system เนื่องจากมีจำนวน job เกินกว่าข้อกำหนดตามโยบายของ job submission โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อจำนวน job ที่รันอยู่ในระบบลดลง