Udostępniono nowe serwery CPU superkomputera LEM, wyposażone m.in. w procesory AMD EPYC 9554 i dyski NVME (przeznaczone na lokalne katalogi TMPDIR).
Szczegołowe informacje na temat aktualnych partycji SLURM można znaleźć w dokumentacji.
Utworzono nowe partycje lem-cpu-short
i lem-cpu-normal
z nowymi serwerami CPU superkomputera LEM.
Aby zlecić zadanie należy podać opcję srun/sbatch -p lem-cpu
.
Zachęcamy do korzystania z tych partycji szczególnie w przypadku programów obliczeniowych takich jak Gaussian lub ORCA.
Uwaga! Aktualnie, serwery z partycji lem-cpu-short
i lem-cpu-normal
nie posiadają dostępu do wspóldzielonego systemu Lustre TMP na katalogi TMPDIR. Planowane jest udostępnienie tego systemu plików jest w niedalekiej przyszłości.
Obecnie, na partycjach Lem CPU możliwe jest korzystanie jedynie z lokalnych katalogów TMPDIR tworzonych na dyskach NVME. Dostępne są dwie konfiguracje serwerów Lem CPU: z maksymalną pojemnością NVME 1700GB lub 3400GB.
Więcej informacji na temat nowego systemu wyboru TMPDIR można znaleźć w dokumentacji.
Udostępniono nową komendę sub-interactive-lem-cpu
do zlecania zadań interaktywnych korzystających z węzłów Lem CPU.
Zestaw oprogramowania udostępniany w postaci modułów jest inny na partycjach Lem CPU i Bem2 CPU (dostępne oprogramowanie na każdej z partycji można wyświetlić za pomocą komendy module avail
). W przypadku braku danego modułu na partycji Lem CPU można skontaktować się z administratorami pisząc na helpdesk@e-science.pl.
Udostępniono nowe zasoby obliczeniowe superkomputera LEM, który znajduje się w pierwszej setce najszybszych superkomputerów na świecie z rankingu TOP500 (https://top500.org/system/180272/).
Szczegołowe informacje na temat aktualnych partycji można znaleźć w dokumentacji.
Utworzono nowe partycje lem-gpu-short
i lem-gpu-normal
z serwerami wyposażonymi w GPU NVIDIA H100. Zadania zlecone w tych partycjach wymagają dostępu do Usługi “Przetwórz na superkomputerze” posiadającej niewykorzystane GPU godziny oraz alokacji przynajmniej jednej karty GPU (opcja --gres=gpu:hopper:1
).
Więcej informacji na temat prowadzenia obliczeń z wykorzystaniem GPU znajduje się w dokumentacji.
Zmieniono nazewnictwo dotychczasowych partycji SLURM:
short
→ bem2-cpu-short
normal
→ bem2-cpu-normal
interactive
→ bem2-cpu-interactive
Zasady korzystania z partycji pozostały niezmienne.
Wprowadzono mechanizm do automatycznego rozdzielania zadania do partycji *-short
oraz *-normal
na podstawie deklarowanego czasu trwania zadania. Dzięki temu użytkownicy nie muszą sami pamiętać o alokowaniu zadań w odpowiedniej partycji*-short
lub*-normal
.
Przy zlecaniu zadania komendą srun lub sbatch wystarczy podać odpowiednią nazwę -p <PARTYCJA>
(np. -p bem2-cpu
):
bem2-cpu
→ rozdziela zadania pomiędzy bem2-cpu-short
oraz bem2-cpu-normal
lem-gpu
→ rozdziela zadani pomiędzy lem-gpu-short
oraz lem-gpu-normal
Wprowadzono możliwość wyboru rodzaju katalogów tymczasowej przestrzeni dyskowej na obliczenia TMPDIR na potrzeby przetrzymywania plików tymczasowych. W zależności od wybranej partycji, dostępne są różne rodzaje katalogów TMPDIR:
Wyboru katalogu TMPDIR dokonuje się za pomocą opcji --gres=storage:<RODZAJ>:<ILOŚĆ>
, podając rodzaj i maksymalną ilość miejsca dla wybranego typu katalogu TMPDIR. W przypadku braku wyboru rodzaju katalogu TMPDIR przydzielane są domyślne katalogi TMPDIR, które są dobierane na podstawie wybranej partycji.
Więcej informacji na temat nowego systemu wyboru TMPDIR można znaleźć w dokumentacji.
Udostępniono nową komendę sub-interactive-lem-gpu
do zlecania zadań interaktywnych korzystających z GPU.
Zmieniono ilość dostępnej pamięci dla zadań SLURM z partycji bem2-cpu-short
oraz bem2-cpu-normal
(dawnych partycji short
oraz normal
) ze 183G/372G na 177G/357G. Aktualnie, ilość dostępnej pamięci dla zadań SLURM wynosi 95% całkowitej pamięci węzłów obliczeniowych.
Więcej informacji na temat możliwie maksymalnej ilości zasobów per węzeł dla zadań SLURM można znaleźć w dokumentacji.
Zaktualizowano system kolejkowy SLURM do wersji 24.11.3.
Aktualizacja nie wnosi znaczących zmian z perspektywy użytkownika i dotyczy głównie mechanizmów działania kontrolerów slurm.
Jej celem jest przede wszystkim poprawa stabilności działania systemu kolejkowego oraz rozwiązanie znanych problemów, które zostały zauważone również w WCSS, na przykład problemów z uruchamianiem komendy srun
wewnątrz zadań.
Lista zmian w oprogramowaniu jest dostępna tutaj.
SCM organizuje serię darmowych webinariów związanych z wykorzystaniem AMSa w badaniach naukowych. Tematyka to:
Link do strony:
https://www.scm.com/news/join-the-third-edition-of-the-amsterdam-modeling-suite-webinar-series/
Zakończono aktualizację oraz modernizację węzła dostępowego ui.wcss.pl.
Podczas próby połączenia ssh pojawi się komunikat "WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!":
W razie wystąpienia problemów, prosimy o kontakt z centrum pomocy pod adresem helpdesk@e-science.pl.
Strona internetowa serwisu HPC Info: https://hpc-info.kdm.wcss.pl
Serwis HPC Info służy do monitorowania zużycia zasobów obliczeniowych przez użytkowników superkomputera w ramach usługi "Przetwórz na superkomputerze".
Użytkownicy serwisu mają wygodny dostęp do takich informacji jak:
Więcej informacji znajduje się w dokumentacji HPC Info.
Strona internetowa platformy Open OnDemand: https://ood.e-science.pl
Platforma Open OnDemand została utworzona, aby uprościć dostęp do zasobów superkomputera przez interfejs webowy. Umożliwia ona użytkownikom m.in. uruchamianie wybranych aplikacji, przesyłanie plików oraz monitorowanie zadań.
Szczegółowe informacje znajdują się w instrukcji Open OnDemand.
Katalogi TMPDIR=/lustre/tmp/slurm/$SLURM_JOB_ID
są przetrzymywanie 14 dni po zakończeniu zadania (o każdym statusie zakończenia) i są dostępne jedynie dla swoich właścicieli. Po tym czasie katalogi $TMPDIR
są automatycznie usuwane.
Wprowadzony mechanizm ma za zadanie między innymi umożliwić restart nieudanych lub przerwanych obliczeń z plików restartowych (jeśli są dostępne) lub uruchamianie kolejnych obliczeń na podstawie wyników z poprzednich obliczeń, bez konieczności przenoszenia danych pomiędzy katalogiem domowym $HOME
lub katalogiem z Przestrzeni Dyskowej (PD).
UWAGA! Kopie zapasowe katalogów w przestrzeni tymczasowej
/lustre/tmp
nie są wykonywane. Zawartość systemu plików/lustre/tmp
nie jest w żaden sposób zabezpieczana przez WCSS i może zostać w każdej chwili skasowana lub utracona bez ostrzeżenia. Użytkownicy powinni zabezpieczać ważne wyniki we własnym zakresie.
Najnowsza wersja pakietu SCM AMS 2024.102 dostępna na Bem2. Więcej informacji w artykule.
Naprawiono problemy związane z licencją AMS oraz korzystaniem ze skryptu sub-ams-2023.104
Najnowsza wersja pakietu TURBOMOLE 7.8 dostępna na Bem2. Więcej informacji w artykule.
Zmiana ścieżek artykułów dotyczących Komputerów Dużej Mocy z /pl/kdm/bem2/.....
na /pl/kdm/.....
Przykład:
https://man.e-science.pl/pl/kdm/bem2/dostep -> https://man.e-science.pl/pl/kdm/dostep
Na superkomputerze rozpoczęto rejestr zużycia zasobów przez wszystkie Usługi “Przetwórz na superkomputerze”.
Aby sprawdzić stan zużycia zasobów przez dostępne usługi, po zalogowaniu na superkomputer należy skorzystać z komendy `service-balance`.
Podstawowe zasady funkcjonowania nowego systemu rejestrowania zużycia zasobów:
Więcej informacji znajduje się w dokumentacji Rejestr zużycia zasobów.
Wprowadzono limity schedulera na wywołania RPC od użytkowników.
Limity to:
Wprowadzenie limitów ma za zadanie usprawnić działanie schedulera, uniemożliwić przeciążenia oraz ataki na system przez wysyłanie nadmiernej ilości zapytań do serwera w krótkim czasie.
squeue
, sinfo
, srun
, sbatch
, scancel
itd.Przykład: jeśli użytkownik zleci 150 zadań w pętli bash
, 50 zostanie zleconych natychmiast, pozostałe 100 będzie zlecane po 2 zadania na sekundę. Zatem cała operacja potrwa około 200 sekund.
Dostępna nowa wersja pakietu NBO 7, więcej informacji w artykule.
Utworzono nową partycję “interactive” w systemie kolejkowania SLURM, dedykowaną krótkim zadaniom interaktywnym.
W przypadku partycji "interactive", nałożono następujące limity zasobów obliczeniowych per użytkownik:
-t 6:00:00
)-c 24
)-N 2
)--mem 45GB
)Aby rozpocząć zadanie interaktywne na partycji "interactive", przy wywoływaniu komendy srun
należy użyć dodatkowych opcji -p interactive -q interactive -A kdm
. Przykładowo:
$ srun -N 1 -c 1 -t 01:00:00 -p interactive -q interactive -A kdm --pty /bin/bash
Więcej informacji na temat uruchamiania zadań interaktywnych znajduje się w Sekcji Uruchamianie zadań.
Ponownie dostępny jest pakiet SCM AMS w tym: ADF, BAND, DFTB, REAXFF.
Zadania można zlecać używając skryptu sub-ams-2022.103
26.02.2024 wyłączony został serwis FTP pod adresem ftp.kdm.wcss.pl.
Oprogramowanie z FTP zostało udostępnione na platformie nextcloud.e-science.pl w katalogu kdm-software
.
Wszyscy aktywni użytkownicy superkomputera mają dostęp do zasobu.
Wprowadzono mechanizm automatycznego czyszczenia katalogów $tmpdir
zadań które z różnych przyczyn zakończyły się niepowodzeniem, lub system kolejkowy nie potrafił prawidłowo zakończyć.
Pliki tymczasowe takich zadań przechowywane są w katalogu /lustre/tmp/slurm/missing_jobs/
i dostępne dla użytkowników przez 21 dni. Po tym czasie są automatycznie usuwane.
Zaktualizowano system kolejkowy SLURM do wersji 23.11.3.
Aktualizacja nie wnosi zmian z perspektywy użytkownika i dotyczy głównie mechanizmów działania kontrolerów slurm.
Jej celem jest przede wszystkim poprawa stabilności działania systemu kolejkowego oraz rozwiązanie znanych problemów które zostały zauważone również w WCSS.
Lista zmian w oprogramowaniu jest dostępna tutaj.
Udostępniono dedykowane zasoby pamięci dyskowej na długoterminowe przechowywanie danych, zwane jako Przestrzeń Dyskowa (PD). Na superkomputerze, każda Usługa “Przetwórz na superkomputerze” posiada jeden dedykowany katalog w Przestrzeni Dyskowej, zwany katalogiem PD, w którym wszyscy użytkownicy danej Usługi mogą długoterminowo przechowywać swoje dane i bezpośrednio dzielić je z innymi użytkownikami tej Usługi.
PD-info
;/home/$USER
;
* Dla Usług Przetwórz na superkomputerze, dla których we wniosku nie sprecyzowano ilości pamięci dyskowej na katalog Przestrzeni Dyskowej oraz dla wszystkich Usług Przetwórz na superkomputerze rozpoczętych przed październikiem 2023 (tj. wprowadzeniem nowej wersji platformy E-SCIENCE.PL)
Więcej informacji znajduje się w dokumentacji Przestrzeń Dyskowa w ramach Usługi "Przetwórz na superkomputerze".
Program ORCA jest programem bardzo wymagającym w kwestii zasobów dyskowych a jego profil operacji I/O nie nadaje się do uruchamiania go na systemie plików LUSTRE.
W związku z tym wprowadzono zmiany w skryptach sub-orca
:
--mem
z 20G
na 30G
$TMPDIR
z domyślnej /lustre/tmp/slurm/$SLURM_JOB_ID
na /dev/shm/$SLURM_JOB_ID
Wprowadzone zmiany skutkują zdecydowanie większym zapotrzebowaniem zadań ORCA na pamięć RAM, dlatego zalecamy:
--mem
dla swoich zadań.out
pojawi się wpis z informacją oom-killer
należy zadaniu dać jeszcze więcej pamięci RAMKorzyści płynące z tego rozwiązania dotyczą wszystkich użytkowników klastra:
Za kolejność uruchamiania zadań w systemach kolejkowych odpowiada tzw. “scheduler”.
W związku z prośbami użytkowników oraz dobrymi praktykami współdzielenia zasobów na klastrze wprowadziliśmy następujące zmiany:
W związku z powyższymi zmianami zadania interaktywne nie mają szans uruchomić się z opcją -I
, uprzejmie prosimy zaprzestania używania tej opcji i cierpliwe oczekiwanie na przydzielenie zasobów dla zadań interaktywnych.
Jednocześnie informujemy, że trwają prace na kolejką interactive
która znacznie skróci czas oczekiwania na zasoby dla zadań interaktywnych.
18.12.2023 zaktualizowaliśmy system kolejkowy do wersji 23.11.1.
Lista zmian w oprogramowaniu jest dostępna tutaj.
Trwają prace konfiguracyjne oraz obserwacje nowej wersji systemu kolejkowego. Zauważone problemy prosimy zgłaszać na helpdesk KDM.