Grid Engineキューの種類
qacctコマンド
ラン終了後にそのランが使用したリソースや終了ステータスなどが確認できる。
特にエラーでランが正常に終了しなかったときにエラーの原因を特定するのに役立つ。
実行は
qacct -j JOB_ID
で、出力結果からエラーを判断する。
ジョブIDの調べ方は後述の「ジョブIDを知りたいとき」を参照。
メモリの使用超過が疑われるとき
maxvmemがメモリの使用量を示す。これが自分の確保した量より多ければエラーの原因がメモリとわかる。
ランの時間が長すぎたとき
wallclockがランの時間を示す (単位は秒)。これが自分の確保した量より多ければエラーの原因がランの時間とわかる。
参考:
https://www.t3.gsic.titech.ac.jp/node/139
ジョブIDを知りたいとき
実行したフォルダーにたとえばscbi_nogf.e24895816.1のようなファイルが残っているはず。
scbi_nogfはランの名前、24895816がジョブID、1はバッチを区別するときの番号 (バッチジョブのときのみ)を示す。