Salt installer change: standardize on putting the certs directory under
[arvados-dev.git] / jenkins / run-deploy.sh
index 2375530567513645092cf32c73c0fe5e661cf1d3..bae429947cedea3c7499f6faaf54eb55f2b3b4d3 100755 (executable)
@@ -4,7 +4,10 @@
 #
 # SPDX-License-Identifier: AGPL-3.0
 
+set -e
+
 DEBUG=0
+UNMANAGED=0
 SSH_PORT=22
 PUPPET_CONCURRENCY=5
 
@@ -41,6 +44,7 @@ function usage {
     echo >&2 "  -n, --node <node>             Single machine to deploy, use fqdn, optional"
     echo >&2 "  -p, --port <ssh port>         SSH port to use (default 22)"
     echo >&2 "  -c, --concurrency <max>       Maximum concurrency for puppet runs (default 5)"
+    echo >&2 "  -u, --unmanaged               Deploy to unmanaged node/cluster"
     echo >&2 "  -d, --debug                   Enable debug output"
     echo >&2 "  -h, --help                    Display this help and exit"
     echo >&2
@@ -52,8 +56,8 @@ function usage {
 
 
 # NOTE: This requires GNU getopt (part of the util-linux package on Debian-based distros).
-TEMP=`getopt -o hdp:c:n: \
-    --long help,debug,port:,concurrency:,node: \
+TEMP=`getopt -o hudp:c:n: \
+    --long help,unmanaged,debug,port:,concurrency:,node: \
     -n "$0" -- "$@"`
 
 if [ $? != 0 ] ; then echo "Use -h for help"; exit 1 ; fi
@@ -72,8 +76,13 @@ do
         -c | --concurrency)
             PUPPET_CONCURRENCY="$2"; shift 2
             ;;
+        -u | --unmanaged)
+            UNMANAGED=1
+            shift
+            ;;
         -d | --debug)
             DEBUG=1
+            set -x
             shift
             ;;
         --)
@@ -99,7 +108,10 @@ EXITCODE=0
 COLUMNS=80
 
 PUPPET_AGENT='
-__rvm_unload
+if [[ -e "/usr/local/rvm/scripts/rvm" ]]; then
+       source /usr/local/rvm/scripts/rvm
+       __rvm_unload
+fi
 now() { date +%s; }
 let endtime="$(now) + 600"
 while [ "$endtime" -gt "$(now)" ]; do
@@ -114,32 +126,53 @@ done
 exit ${agent_exitcode:-99}
 '
 
+APT_AGENT='
+now() { date +%s; }
+let endtime="$(now) + 600"
+while [ "$endtime" -gt "$(now)" ]; do
+  apt-get update
+  DEBIAN_FRONTEND=noninteractive apt-get -y upgrade
+  apt_exitcode=$?
+  if [ 0 = "$apt_exitcode" ]; then
+    break
+  else
+    sleep 10s
+  fi
+done
+exit ${apt_exitcode:-99}
+'
+
 title () {
   date=`date +'%Y-%m-%d %H:%M:%S'`
   printf "$date $1\n"
 }
 
-function run_puppet() {
+function update_node() {
+  if [[ $UNMANAGED -ne 0 ]]; then
+    run_apt $@
+  else
+    run_puppet $@
+  fi
+}
+
+function run_apt() {
   node=$1
 
-  title "Running puppet on $node"
+  title "Running apt on $node"
   sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
   TMP_FILE=`mktemp`
   if [[ "$DEBUG" != "0" ]]; then
-    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" | tee $TMP_FILE
+    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' | tee $TMP_FILE
   else
-    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" > $TMP_FILE 2>&1
+    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' > $TMP_FILE 2>&1
   fi
 
   ECODE=${PIPESTATUS[0]}
   RESULT=$(cat $TMP_FILE)
 
-  if [[ "$ECODE" != "255" && ! ("$RESULT" =~ 'already in progress') && "$ECODE" != "2" && "$ECODE" != "0"  ]]; then
+  if [[ "$ECODE" != "255" && "$ECODE" != "0"  ]]; then
     # Ssh exits 255 if the connection timed out. Just ignore that.
-    # Puppet exits 2 if there are changes. For real!
-    # Puppet prints 'Notice: Run of Puppet configuration client already in progress' if another puppet process
-    #   was already running
-    echo "ERROR running puppet on $node: exit code $ECODE"
+    echo "ERROR running apt on $node: exit code $ECODE"
     if [[ "$DEBUG" == "0" ]]; then
       title "Command output follows:"
       echo $RESULT
@@ -149,38 +182,36 @@ function run_puppet() {
     title "Connection timed out"
     ECODE=0
   fi
-  if [[ "$ECODE" == "2" ]]; then
-    ECODE=0
-  fi
 
   if [[ "$ECODE" == "0" ]]; then
       rm -f $TMP_FILE
-      echo $node successfully updates
+      title "$node successfully updated"
   else
-      echo $node exit code: $ECODE see $TMP_FILE for details
+      title "$node exit code: $ECODE see $TMP_FILE for details"
   fi
 }
 
-function run_command() {
+function run_puppet() {
   node=$1
-  return_var=$2
-  command=$3
 
-  title "Running '$command' on $node"
+  title "Running puppet on $node"
+  sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
   TMP_FILE=`mktemp`
   if [[ "$DEBUG" != "0" ]]; then
-    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" root@$node -C "$command" | tee $TMP_FILE
+    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' | tee $TMP_FILE
   else
-    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" root@$node -C "$command" > $TMP_FILE 2>&1
+    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' > $TMP_FILE 2>&1
   fi
 
-  ECODE=$?
+  ECODE=${PIPESTATUS[0]}
   RESULT=$(cat $TMP_FILE)
 
-  if [[ "$ECODE" != "255" && "$ECODE" != "0"  ]]; then
-    # Ssh exists 255 if the connection timed out. Just ignore that, it's possible that this node is
-    #   a shell node that is down.
-    title "ERROR running command on $node: exit code $ECODE"
+  if [[ "$ECODE" != "255" && ! ("$RESULT" =~ 'already in progress') && "$ECODE" != "2" && "$ECODE" != "0"  ]]; then
+    # Ssh exits 255 if the connection timed out. Just ignore that.
+    # Puppet exits 2 if there are changes. For real!
+    # Puppet prints 'Notice: Run of Puppet configuration client already in progress' if another puppet process
+    #   was already running
+    echo "ERROR running puppet on $node: exit code $ECODE"
     if [[ "$DEBUG" == "0" ]]; then
       title "Command output follows:"
       echo $RESULT
@@ -190,14 +221,22 @@ function run_command() {
     title "Connection timed out"
     ECODE=0
   fi
-  rm -f $TMP_FILE
-  eval "$return_var=$ECODE"
+  if [[ "$ECODE" == "2" ]]; then
+    ECODE=0
+  fi
+
+  if [[ "$ECODE" == "0" ]]; then
+      rm -f $TMP_FILE
+      echo $node successfully updated
+  else
+      echo $node exit code: $ECODE see $TMP_FILE for details
+  fi
 }
 
 if [[ "$NODE" == "" ]] || [[ "$NODE" == "$IDENTIFIER.arvadosapi.com" ]]; then
   title "Updating API server"
   SUM_ECODE=0
-  run_puppet $IDENTIFIER.arvadosapi.com ECODE
+  update_node $IDENTIFIER.arvadosapi.com ECODE
   SUM_ECODE=$(($SUM_ECODE + $ECODE))
 
   if [[ "$SUM_ECODE" != "0" ]]; then
@@ -223,12 +262,18 @@ if [[ "$ARVADOS_API_HOST" == "" ]] || [[ "$ARVADOS_API_TOKEN" == "" ]]; then
   exit 1
 fi
 
-title "Gathering list of shell and Keep nodes"
+title "Gathering list of nodes"
+start_nodes="workbench"
+if [[ "$IDENTIFIER" != "ce8i5" ]] && [[ "$IDENTIFIER" != "tordo" ]]; then
+  start_nodes="$start_nodes manage switchyard"
+fi
 SHELL_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv virtual_machine list |jq .items[].hostname -r`
 KEEP_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv keep_service list |jq .items[].service_host -r`
+SHELL_NODE_FOR_ARV_KEEPDOCKER="shell.$IDENTIFIER"
+start_nodes="$start_nodes $SHELL_NODES $KEEP_NODES"
 
 nodes=""
-for n in workbench manage switchyard $SHELL_NODES $KEEP_NODES; do
+for n in $start_nodes; do
   ECODE=0
   if [[ $n =~ $ARVADOS_API_HOST$ ]]; then
     # e.g. keep.qr1hi.arvadosapi.com
@@ -247,12 +292,16 @@ if [[ "$nodes" != "" ]]; then
   ## at this point nodes should be an array containing
   ## manage.qr1hi,  keep.qr1hi, etc
   ## that should be defined in the .ssh/config file
-  title "Updating in parallel: $nodes"
+  title "Updating in parallel:$nodes"
+  export -f update_node
   export -f run_puppet
+  export -f run_apt
   export -f title
   export SSH_PORT
   export PUPPET_AGENT
-  echo $nodes|xargs -d " " -n 1 -P $PUPPET_CONCURRENCY -I {} bash -c "run_puppet {}"
+  export APT_AGENT
+  export UNMANAGED
+  echo $nodes|xargs -d " " -n 1 -P $PUPPET_CONCURRENCY -I {} bash -c "update_node {}"
 fi
 
 if [[ "$NODE" == "" ]]; then
@@ -274,45 +323,57 @@ if [[ "$NODE" == "" ]]; then
 
   title "Found Arvados Standard Docker Images project with uuid $DOCKER_IMAGES_PROJECT"
 
-       # from 1.4 onwards, we use the python executable that is part of the python-arvados-cwl-runner package
-  GIT_COMMIT=`ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER "bash -s" <<EOF
-if [[ -e "/usr/share/python2.7/dist/python-arvados-cwl-runner/bin/python" ]]; then
-  /usr/share/python2.7/dist/python-arvados-cwl-runner/bin/python -c 'import arvados_cwl ; print arvados_cwl.__version__'
-else
-  /usr/bin/python -c 'import arvados_cwl ; print arvados_cwl.__version__'
-fi
-EOF
-`
-
-  if [[ "$?" != "0" ]] || [[ "$GIT_COMMIT" == "" ]]; then
-    title "ERROR: unable to get arvados/jobs Docker image git revision"
-    exit 1
-  else
-    title "Found git commit for arvados/jobs Docker image: $GIT_COMMIT"
-  fi
+  if [[ "$SHELL_NODE_FOR_ARV_KEEPDOCKER" == "" ]]; then
+    VERSION=`ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" -o "LogLevel QUIET" $IDENTIFIER apt-cache policy python3-arvados-cwl-runner|grep Candidate`
+    VERSION=`echo $VERSION|cut -f2 -d' '|cut -f1 -d-`
 
-  run_command shell.$IDENTIFIER ECODE "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker" |grep -q $GIT_COMMIT
+    if [[ "$?" != "0" ]] || [[ "$VERSION" == "" ]]; then
+      title "ERROR: unable to get python3-arvados-cwl-runner version"
+      exit 1
+    else
+      title "Found version for python3-arvados-cwl-runner: $VERSION"
+    fi
 
-  if [[ "$?" == "0" ]]; then
-    title "Found latest arvados/jobs Docker image, nothing to upload"
-    # Just in case it isn't yet, tag the image as latest
-    ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker arvados/jobs latest"
-  else
-    title "Installing latest arvados/jobs Docker image"
-    ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $GIT_COMMIT"
-    ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER docker tag --force >/dev/null 2>&1
-    # docker 1.13 no longer supports --force. Sigh.
-    if [[ "$?" == "125" ]]; then
-      FORCE_TAG=""
+    set +e
+    CLEAN_VERSION=`echo $VERSION | sed s/~dev/.dev/g | sed s/~rc/rc/g`
+    ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker |grep -qP "arvados/jobs +$CLEAN_VERSION "
+    if [[ $? -eq 0 ]]; then
+      set -e
+      title "Found arvados/jobs Docker image version $CLEAN_VERSION, nothing to upload"
     else
-      FORCE_TAG="--force"
+      set -e
+      title "Installing arvados/jobs Docker image version $CLEAN_VERSION"
+      ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $CLEAN_VERSION
+      if [[ $? -ne 0 ]]; then
+        title "'arv-keepdocker' failed..."
+        exit 1
+      fi
     fi
-    ## adding latest tag too  refs 9254
-    ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER docker tag $FORCE_TAG arvados/jobs:$GIT_COMMIT arvados/jobs:latest
-    ssh -o "StrictHostKeyChecking no" shell.$IDENTIFIER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest"
-    if [[ "$?" -ne 0 ]]; then
-      title "'git pull' failed exiting..."
+  else
+    VERSION=`ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" -o "LogLevel QUIET" $SHELL_NODE_FOR_ARV_KEEPDOCKER apt-cache policy python3-arvados-cwl-runner|grep Candidate`
+    VERSION=`echo $VERSION|cut -f2 -d' '|cut -f1 -d-`
+
+    if [[ "$?" != "0" ]] || [[ "$VERSION" == "" ]]; then
+      title "ERROR: unable to get python3-arvados-cwl-runner version"
       exit 1
+    else
+      title "Found version for python3-arvados-cwl-runner: $VERSION"
+    fi
+
+    set +e
+    CLEAN_VERSION=`echo $VERSION | sed s/~dev/.dev/g | sed s/~rc/rc/g`
+    ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" -o "LogLevel QUIET" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker" |grep -qP "arvados/jobs +$CLEAN_VERSION "
+    if [[ $? -eq 0 ]]; then
+      set -e
+      title "Found arvados/jobs Docker image version $CLEAN_VERSION, nothing to upload"
+    else
+      set -e
+      title "Installing arvados/jobs Docker image version $CLEAN_VERSION"
+      ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" -o "LogLevel QUIET" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $CLEAN_VERSION"
+      if [[ $? -ne 0 ]]; then
+        title "'arv-keepdocker' failed..."
+        exit 1
+      fi
     fi
   fi
 fi