QOSGrpCPUMinutesLimit
sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified
.out
widać komunkat killed with signal
qsub - access denied
Command not found
/ Nie znaleziono polecenia
Module: command not found
Unable to locate modulefile
/home
dostałem komunikat Disk quota exceeded
QOSGrpCPUMinutesLimit
Komunikat QOSGrpCPUMinutesLimit
świadczy o tym, że użytkownik nie posiada wystarczającej ilości godzin CPU, aby dane zadanie ruszyło.
Za pomocą komendy service-balance
można sprawdzić w terminalu dostępne zasoby - instrukcja
Aby móc zlecać zadania użytkownik musi złożyć wniosek o zwiększenie zasobów dla danej usługi (instrukcja znajduje się w naszej dokumentacji)[https://man.e-science.pl/pl/kdm/wnioski_uslugi#formularz-wniosku-o-zwiększenie-zasobów].
sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified
Komunikat oznacza, że użytkownik nie posiada obecnie dostępu do żadnej aktywnej usługi obliczeniowej „Przetwórz na superkomputerze”. Jeżeli wcześniej korzystał z takiej usługi, to okres jej ważności już się zakończył.
Aby ponownie uzyskać dostęp do Superkomputera, użytkownik powinien:
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
sinfo --summarize
widzimy, że w partycji normal
stan nodów jest opisany następująco: NODES(A/I/O/T): 432/0/0/432
oznacza to, że partycja jest w 100% zapełniona (0 nodów w stanie I - idle) i zadania w niej będą oczekiwały ze statusem Priority
, podczas gdy np. w partycji short
zasoby prezentują się następująco: NODES(A/I/O/T): 478/14/0/492
co oznacza, że 14 nodów jest dostępnych do pracy i zadania nie będą nadmiernie długo czekać na zasoby..out
widać komunkat killed with signal
Najczęściej komunikat killed with signal
oznacza, że zadanie zostało zatrzymane przez mechanizm dbający o należyte wykorzystanie pamięci RAM - oom-killer. Niekiedy w outpucie pojawia się również wpis o treści out of memory
lub podobne. Wówczas należy uruchmić zadanie ponownie definiując większą ilość pamięci dla zadania (paramter --mem
w slurm).
qsub - access denied
System kolejkowy PBS został wyłączony wraz z klastrem Bem. Należy używać poleceń Slurm zgodnie z opisem na wiki.
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
Zbyt mało zasobów zostało przydzielonych do zadania
TimeEff
, CPUEff
i MemEff
) lub poleceniem sacct
. Jeśli widać że zasobów jest za mało - alokacja zasobów szczegółowo wyjaśnionatop
twoje procesy często mają stan D
), spróbuj wykonywać te operacje w pamięci RAM:mkdir /dev/shm/$USER
export TMPDIR=/dev/shm/$USER
Należy pamiętać, że pliki umieszczone w /
dev/shm/
są przechowywane w pamięci RAM, co oznacza, że mogą być utracone po zakończeniu pracy zadania. Dlatego ważne jest, aby zastosować to rozwiązanie tylko wtedy, gdy dane tymczasowe nie są wymagane poza czasem działania zadania w systemie SLURM.
Command not found
/ Nie znaleziono polecenia
$PATH
w swoim .bashrc
.module load
wykona się, ale nie udostępni powiązanych z modułem komend.Module: command not found
Dopisz do swojego skryptu sbatch jako pierwsze polecenie: source /usr/local/sbin/modules.sh
vide instrukcja
Unable to locate modulefile
Prawdopodobnie próbujesz załadować moduł na serwerze ui.wcss.pl, polecenie module load
należy wykonywać tylko w zadaniach na klastrze.
/home
ERROR: Disk quota exceeded`Maksymalna zajętość katalogu
$HOME
to 50 GB. W celu przechowania większej ilości danych, skorzystaj z katalogów PD
quota -s -f ~
du -ahx --max-depth=1 . | sort -k1 -rh
du
obciąża system.Serwer ui.wcss.pl posiada mechanizmy obrony przed atakami typu brute-force na ssh
.
Pięć nieudanych prób logowania w ciągu 24h podowuje blokadę źródłowego adresu IP na 24h. Jeśli niechcący zablokowałeś sobie dostęp, napisz na helpdesk prośbę o zdjęcie blokady, podając swój publiczny adres IP (można go uzyskać np tutaj lub tutaj.
Po dłuższej bezczynności na serwerze ui lub w zadaniu interaktywnym może się zdarzyć że konsola się "zawiesi" - nie bedzie można nic wpisać, przerwać itd. Takie okno/połączenie należy zamknąć, zadanie obliczeniowe prawdopodobnie już nie jest aktywne.
Aby uniknąć takich sytuacji, można po uruchomieniu sesji włączyć program screen
lub tmux
(tmux jest dostępny w module) i pracować wewnątrz programu. Zapobiegnie to zawieszeniu sesji.
Usługa przez 30 dni od daty zakończenia jest dostępna po zalogowaniu na konto Kierownika usługi - wnioskodawcy, na platformie użytkownika e-science.pl w zakładce „Wnioski złożone”.
Szczegółowe informacje dotyczące sposobu przedłużenia znajdują się w załączonej instrukcji