SLURM
Dlaczego długo czekam na zasoby / moje zadanie długo się nie uruchamia
Zadanie zostało przerwane, w pliku .out
widać komunkat killed with signal
Jak napisać skrypt uruchamiający zadanie w SLURM
Dostałem komunikat qsub - access denied
OBLICZENIA
Moje obliczenia wolno się wykonują
OGÓLNE
Dostałem komunikat Command not found
/ Nie znaleziono polecenia
Dostałem komunikat Module: command not found
Dostałem komunikat Unable to locate modulefile
Brakuje mi miejsca w katalogu /home
Nie mogę się zalogować na ui.wcss.pl
Terminal się zawiesza
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
sinfo --summarize
widzimy, że w partycji normal
stan nodów jest opisany następująco: NODES(A/I/O/T): 432/0/0/432
oznacza to, że partycja jest w 100% zapełniona (0 nodów w stanie I - idle) i zadania w niej będą oczekiwały ze statusem Priority
, podczas gdy np. w partycji short
zasoby prezentują się następująco: NODES(A/I/O/T): 478/14/0/492
co oznacza, że 14 nodów jest dostępnych do pracy i zadania nie będą nadmiernie długo czekać na zasoby..out
widać komunkat killed with signal
Najczęściej komunikat killed with signal
oznacza, że zadanie zostało zatrzymane przez mechanizm dbający o należyte wykorzystanie pamięci RAM - oom-killer. Niekiedy w outpucie pojawia się również wpis o treści out of memory
lub podobne. Wówczas należy uruchmić zadanie ponownie definiując większą ilość pamięci dla zadania (paramter --mem
w slurm).
Zachęcamy do zapoznania się z artykułem opisującym uruchamianie zadań oraz skrypty sub.
qsub - access denied
System kolejkowy PBS został wyłączony wraz z klastrem Bem. Należy używać poleceń Slurm zgodnie z opisem na wiki.
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
Zbyt mało zasobów zostało przydzielonych do zadania
TimeEff
, CPUEff
i MemEff
) lub poleceniem sacct
. Jeśli widać że zasobów jest za mało - alokacja zasobów szczegółowo wyjaśnionatop
twoje procesy często mają stan D
), spróbuj wykonywać te operacje w pamięci RAM:mkdir /dev/shm/$USER
export TMPDIR=/dev/shm/$USER
Należy pamiętać, że pliki umieszczone w /
dev/shm/
są przechowywane w pamięci RAM, co oznacza, że mogą być utracone po zakończeniu pracy zadania. Dlatego ważne jest, aby zastosować to rozwiązanie tylko wtedy, gdy dane tymczasowe nie są wymagane poza czasem działania zadania w systemie SLURM.
Command not found
/ Nie znaleziono polecenia
$PATH
w swoim .bashrc
.module load
wykona się, ale nie udostępni powiązanych z modułem komend.Module: command not found
Dopisz do swojego skryptu sbatch jako pierwsze polecenie: source /usr/local/sbin/modules.sh
vide instrukcja
Unable to locate modulefile
Prawdopodobnie próbujesz załadować moduł na serwerze ui.wcss.pl, polecenie module load
należy wykonywać tylko w zadaniach na klastrze.
/home
np. otrzymujesz komunikat
ERROR: Could not install packages due to an OSError: [Errno 122] Disk quota exceeded
quota -s -f ~
du -sh . --apparent-size
du -sh ./*/ --apparent-size
Serwer ui.wcss.pl posiada mechanizmy obrony przed atakami typu brute-force na ssh
.
Pięć nieudanych prób logowania w ciągu 24h podowuje blokadę źródłowego adresu IP na 24h. Jeśli niechcący zablokowałeś sobie dostęp, napisz na helpdesk prośbę o zdjęcie blokady, podając swój publiczny adres IP (można go uzyskać np tutaj lub tutaj.
Po dłuższej bezczynności na serwerze ui lub w zadaniu interaktywnym może się zdarzyć że konsola się "zawiesi" - nie bedzie można nic wpisać, przerwać itd. Takie okno/połączenie należy zamknąć, zadanie obliczeniowe prawdopodobnie już nie jest aktywne.
Aby uniknąć takich sytuacji, można po uruchomieniu sesji włączyć program screen
lub tmux
(tmux jest dostępny w module) i pracować wewnątrz programu. Zapobiegnie to zawieszeniu sesji.