QOSGrpCPUMinutesLimitsbatch: error: Batch job submission failed: Invalid account or account/partition combination specified.out widać komunkat killed with signalqsub - access deniedCommand not found / Nie znaleziono poleceniaModule: command not foundUnable to locate modulefile/home dostałem komunikat Disk quota exceededQOSGrpCPUMinutesLimitKomunikat QOSGrpCPUMinutesLimit świadczy o tym, że użytkownik nie posiada wystarczającej ilości godzin CPU, aby dane zadanie ruszyło.
Za pomocą komendy service-balance można sprawdzić w terminalu dostępne zasoby - instrukcja
Aby móc zlecać zadania użytkownik musi złożyć wniosek o zwiększenie zasobów dla danej usługi (instrukcja znajduje się w naszej dokumentacji)[https://man.e-science.pl/pl/kdm/wnioski_uslugi#formularz-wniosku-o-zwiększenie-zasobów].
sbatch: error: Batch job submission failed: Invalid account or account/partition combination specifiedKomunikat oznacza, że użytkownik nie posiada obecnie dostępu do żadnej aktywnej usługi obliczeniowej „Przetwórz na superkomputerze”. Jeżeli wcześniej korzystał z takiej usługi, to okres jej ważności już się zakończył.
Aby ponownie uzyskać dostęp do Superkomputera, użytkownik powinien:
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
sinfo --summarize widzimy, że w partycji normal stan nodów jest opisany następująco: NODES(A/I/O/T): 432/0/0/432 oznacza to, że partycja jest w 100% zapełniona (0 nodów w stanie I - idle) i zadania w niej będą oczekiwały ze statusem Priority, podczas gdy np. w partycji short zasoby prezentują się następująco: NODES(A/I/O/T): 478/14/0/492 co oznacza, że 14 nodów jest dostępnych do pracy i zadania nie będą nadmiernie długo czekać na zasoby..out widać komunkat killed with signalNajczęściej komunikat killed with signal oznacza, że zadanie zostało zatrzymane przez mechanizm dbający o należyte wykorzystanie pamięci RAM - oom-killer. Niekiedy w outpucie pojawia się również wpis o treści out of memory lub podobne. Wówczas należy uruchmić zadanie ponownie definiując większą ilość pamięci dla zadania (paramter --mem w slurm).
qsub - access deniedSystem kolejkowy PBS został wyłączony wraz z klastrem Bem. Należy używać poleceń Slurm zgodnie z opisem na wiki.
Może istnieć kilka przyczyn długiego oczekiwania na zasoby:
Zbyt mało zasobów zostało przydzielonych do zadania
TimeEff, CPUEff i MemEff) lub poleceniem sacct. Jeśli widać że zasobów jest za mało - alokacja zasobów szczegółowo wyjaśnionatop twoje procesy często mają stan D), spróbuj wykonywać te operacje w pamięci RAM:mkdir /dev/shm/$USERexport TMPDIR=/dev/shm/$USERNależy pamiętać, że pliki umieszczone w /
dev/shm/są przechowywane w pamięci RAM, co oznacza, że mogą być utracone po zakończeniu pracy zadania. Dlatego ważne jest, aby zastosować to rozwiązanie tylko wtedy, gdy dane tymczasowe nie są wymagane poza czasem działania zadania w systemie SLURM.
Command not found / Nie znaleziono polecenia$PATH w swoim .bashrc.module load wykona się, ale nie udostępni powiązanych z modułem komend.Module: command not foundDopisz do swojego skryptu sbatch jako pierwsze polecenie: source /usr/local/sbin/modules.sh vide instrukcja
Unable to locate modulefilePrawdopodobnie próbujesz załadować moduł na serwerze ui.wcss.pl, polecenie module load należy wykonywać tylko w zadaniach na klastrze.
/home ERROR: Disk quota exceeded`Maksymalna zajętość katalogu
$HOMEto 50 GB. W celu przechowania większej ilości danych, skorzystaj z katalogów PD
quota -s -f ~du -ahx --max-depth=1 . | sort -k1 -rhdu obciąża system.Serwer ui.wcss.pl posiada mechanizmy obrony przed atakami typu brute-force na ssh.
Pięć nieudanych prób logowania w ciągu 24h podowuje blokadę źródłowego adresu IP na 24h. Jeśli niechcący zablokowałeś sobie dostęp, napisz na helpdesk prośbę o zdjęcie blokady, podając swój publiczny adres IP (można go uzyskać np tutaj lub tutaj.
Po dłuższej bezczynności na serwerze ui lub w zadaniu interaktywnym może się zdarzyć że konsola się "zawiesi" - nie bedzie można nic wpisać, przerwać itd. Takie okno/połączenie należy zamknąć, zadanie obliczeniowe prawdopodobnie już nie jest aktywne.
Aby uniknąć takich sytuacji, można po uruchomieniu sesji włączyć program screen lub tmux (tmux jest dostępny w module) i pracować wewnątrz programu. Zapobiegnie to zawieszeniu sesji.
Usługa przez 30 dni od daty zakończenia jest dostępna po zalogowaniu na konto Kierownika usługi - wnioskodawcy, na platformie użytkownika e-science.pl w zakładce „Wnioski złożone”.
Szczegółowe informacje dotyczące sposobu przedłużenia znajdują się w załączonej instrukcji