สถานะ Pending (PD)

คำอธิยายสำหรับสถานะ PD แต่ละชนิด และการแก้ไขในเบื้องต้นมีดังนี้

Resources

หมายถึง job นั้นเป็นคิวแรกที่จะกำลังรอเข้ารันงาน โดย job จะรันโดยอัตโนมัติเมื่อระบบมีทรัพยากรเพียงพอตามที่ระบุใน script ที่ส่งรันงาน

Priority

หมายถึง job นั้นกำลังเข้าคิวเพื่อรอเข้ารันงานเป็นลำดับอื่น ๆ ซึ่งจะได้รันต่อจาก job ที่มีสถานะ Resources และระบบมีทรัพยากรเพียงพอตามที่ระบุใน script ที่ส่งรันงาน

QOSGrpBillingMinutes

หมายถึง job นั้นยังไม่ถูกเข้าสู่ระบบ queuing system เนื่องจากมี service unit (SU) ไม่เพียงพอกับการรันงาน (สามารถตรวจสอบสถานะของ SU ของโครงการด้วยคำสั่ง sbalance) โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อมีจำนวน SU เพียงพอต่อการรัน job นั้นๆ

FAQ : sbalance แล้วยังมี SU เหลือ ทำไมถึงติดสถานะ QOSGrpBillingMinutes

การทำงานของ Slrum นั้นจะพิจารณาว่า SU ที่เหลืออยู่เพียงพอต่อการใช้ทรัพยากรทั้งหมดตามที่ระบุไว้ใน script หรือไม่ เช่น หากระบุเป็น 1 GPU node (-p gpu -N 1) เป็นระยะเวลา 1 วัน (-t 24:00:00) จะต้องมี SU มากกว่า 187,200 (130 x 60 x 24) ใน account เพื่อให้ไม่ติดสถานะ QOSGrpBillingMinutes ดังนั้นควรปรับค่าระยะเวลาที่ต้องใช้ทรัพยากรให้เหมาะสมกับงานนั้นๆ โดยเฉพาะในกรณีที่ SU เหลือน้อย

PartitionTimeLimit

หมายถึง job นั้นยังไม่ถูกเข้าสู่ระบบ queuing system เนื่องจากระบุค่าระยะเวลาที่ต้องใช้ทรัพยากรมากกว่าค่าที่กำหนดไว้ ในกรณีนี้จะต้องทำการยกเลิก job นั้น แก้ไข script ที่ใช้ในการสั่งรัน (-t) และ สั่งรันงานใหม่อีกครั้ง โดยระยะเวลาสูงสุดในแต่ละ partition สามารถตรวจสอบได้จากคำสั่ง sinfo

MaxCpuPerAccount

หมายถึง job นั้นยังไม่เข้าสู่ระบบ queuing system เนื่องจากมีจำนวน CPU/Cores เกินกว่าข้อกำหนดตามโยบายของ job submission โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อจำนวน CPU/Cores ที่รันอยู่ในระบบลดลง

MaxJobPerAccount

หมายถึง job นั้นยังไม่เข้าสู่ระบบ queuing system เนื่องจากมีจำนวน job เกินกว่าข้อกำหนดตามโยบายของ job submission โดยสถานะของ job จะปรับเป็นสถานะอื่นโดยอัตโนมัติเมื่อจำนวน job ที่รันอยู่ในระบบลดลง