Merge branch '18713-nvidia-persistenced'
authorWard Vandewege <ward@curii.com>
Fri, 4 Feb 2022 16:36:08 +0000 (11:36 -0500)
committerWard Vandewege <ward@curii.com>
Fri, 4 Feb 2022 16:36:08 +0000 (11:36 -0500)
closes #18713

Arvados-DCO-1.1-Signed-off-by: Ward Vandewege <ward@curii.com>

tools/compute-images/scripts/base.sh

index 8ea25087826fe2d2cee9596d60621363de81ca99..450a8b3c549bd124950931a644967526a147eb27 100644 (file)
@@ -207,6 +207,12 @@ if [ "$NVIDIA_GPU_SUPPORT" == "1" ]; then
   fi
   $SUDO apt-get update
   $SUDO apt-get -y install libnvidia-container1 libnvidia-container-tools nvidia-container-toolkit
+  # This service fails to start when the image is booted without Nvidia GPUs present, which makes
+  # `systemctl is-system-running` respond with "degraded" and since that command is our default
+  # BootProbeCommand, compute nodes never finish booting from Arvados' perspective.
+  # Disable the service to avoid this. This should be fine because crunch-run does its own basic
+  # CUDA initialization.
+  $SUDO systemctl disable nvidia-persistenced.service
 fi
 
 $SUDO apt-get clean