Projet

Général

Profil

Annonces

Perte d'une GPU H100

Ajouté par Xavier Montagutelli il y a environ 2 mois

En version rapide

Le noeud "node-1" a une carte GPU H100 dysfonctionnelle. Nous sommes en cours de traitement avec le constructeur. En attendant de trouver l'origine du problème, le noeud a été reconfiguré pour utiliser une seule GPU.

Plus de détails

Le noeud de calcul "node-1" est affecté d'un dysfonctionnement depuis quelques mois, se manifestant par la "perte" d'une GPU. Un simple "reboot" suffisait jusqu'à présent à rétablir le fonctionnement. Ces plantages sont survenus 3 ou 4 fois depuis 6 mois.
Devant une augmentation de la fréquence, nous avons contacté le support. Nous avons déjà procédé à un changement de GPU, sans amélioration. L'incident est en cours d'escalade chez HPE, nous allons certainement devoir remplacer la carte mère ou les cartes d'extension où sont connectées les GPU.
Ces interventions se feront cette semaine (17 au 20 décembre 2025) ou à la rentrée, et nous devrons stopper le noeud lors des changements matériel.

Tableau de bord sur l'usage du cluster

Ajouté par Xavier Montagutelli il y a 8 mois

Nouveau et en phase de test

Un tableau de bord donne l'utilisation du cluster : https://cali3.unilim.fr/zabbix?enter=guest

Vous devez vous authentifier comme "Guest" sur l'outil : ne pas rentrer de login / mot de passe, cliquer sur le lien "Guest" en bas

Le cluster est très hétérogène, et vous avez le choix entre plusieurs partitions. Ce tableau de bord vous permettra peut-être de choisir votre partition plus facilement en fonction de leurs utilisations.

N'hésitez pas à nous faire remonter vos idées si vous voulez voir plus de métriques dans ce tableau de bord.

Maintenance CALI3 juin 2025 - Phase terminale

Ajouté par Xavier Montagutelli il y a 8 mois

La maintenance de CALI3, prévue du mardi 24 juin au jeudi 26 juin, est en phase finale.

Vous pouvez recommencer à utiliser le cluster, en principe les noeuds de calcul ne doivent plus rebooter. Notez quand même que le frontal sera relancé dans la nuit du mercredi 25 au jeudi 26 !

  • La base logicielle est passée en AlmaLinux 9.6 (précédemment : 9.4)
  • Les pilotes NVidia sont passés à la dernière version stable : 570.158.01 (570.169 sur les noeuds on-1 à on-3)
  • CUDA 12.8 est maintenant disponible, c'est la version recommandée pour les pilotes installés. Notez que les versions antérieures de CUDA sont toujours supportées.
  • Suite aux lenteurs récurrentes sur le frontal :
    • le stockage scratch n'est plus servi par le frontal, mais par un autre noeud de service
    • tous les accès réseaux aux données se font maintenant en NFS v3 (au lieu de v4) -- si vous utilisez les ACL pour gérer l'accès à vos fichiers par des collaborateurs, les commandes changent !
  • La librairie OpenMPI provenant de Intel Ethernet Fabric Suite a été mise à jour (version 4.1.8)
  • Beaucoup d'autres petites choses, comme tous les firmwares, ont été mis à jour

Nouveautés : deux services expérimentaux sont ouverts sur le cluster

    (1-3/3)

    Formats disponibles : Atom