Bugfix in run-deploy.sh: the run_command needs to return its output.
[arvados-dev.git] / jenkins / run-deploy.sh
1 #!/bin/bash
2
3 # Copyright (C) The Arvados Authors. All rights reserved.
4 #
5 # SPDX-License-Identifier: AGPL-3.0
6
7 DEBUG=0
8 UNMANAGED=0
9 SSH_PORT=22
10 PUPPET_CONCURRENCY=5
11
12 read -d] -r SCOPES <<EOF
13 --scopes
14 '["GET /arvados/v1/virtual_machines",\n
15 "GET /arvados/v1/keep_services",\n
16 "GET /arvados/v1/keep_services/",\n
17 "GET /arvados/v1/groups",\n
18 "GET /arvados/v1/groups/",\n
19 "GET /arvados/v1/links",\n
20 "GET /arvados/v1/collections",\n
21 "POST /arvados/v1/collections",\n
22 "POST /arvados/v1/links",\n
23 "GET /arvados/v1/users/current",\n
24 "POST /arvados/v1/users/current",\n
25 "GET /arvados/v1/jobs",\n
26 "POST /arvados/v1/jobs",\n
27 "GET /arvados/v1/pipeline_instances",\n
28 "POST /arvados/v1/pipeline_instances",\n
29 "PUT /arvados/v1/pipeline_instances/",\n
30 "GET /arvados/v1/collections/",\n
31 "POST /arvados/v1/collections/",\n
32 "GET /arvados/v1/logs"]'
33 EOF
34
35 function usage {
36     echo >&2
37     echo >&2 "usage: $0 [options] <identifier>"
38     echo >&2
39     echo >&2 "   <identifier>                 Arvados cluster name"
40     echo >&2
41     echo >&2 "$0 options:"
42     echo >&2 "  -n, --node <node>             Single machine to deploy, use fqdn, optional"
43     echo >&2 "  -p, --port <ssh port>         SSH port to use (default 22)"
44     echo >&2 "  -c, --concurrency <max>       Maximum concurrency for puppet runs (default 5)"
45     echo >&2 "  -u, --unmanaged               Deploy to unmanaged node/cluster"
46     echo >&2 "  -d, --debug                   Enable debug output"
47     echo >&2 "  -h, --help                    Display this help and exit"
48     echo >&2
49     echo >&2 "Note: this script requires an arvados token created with these permissions:"
50     echo >&2 '  arv api_client_authorization create_system_auth \'
51     echo -e $SCOPES"]'" >&2
52     echo >&2
53 }
54
55
56 # NOTE: This requires GNU getopt (part of the util-linux package on Debian-based distros).
57 TEMP=`getopt -o hudp:c:n: \
58     --long help,unmanaged,debug,port:,concurrency:,node: \
59     -n "$0" -- "$@"`
60
61 if [ $? != 0 ] ; then echo "Use -h for help"; exit 1 ; fi
62 # Note the quotes around `$TEMP': they are essential!
63 eval set -- "$TEMP"
64
65 while [ $# -ge 1 ]
66 do
67     case $1 in
68         -n | --node)
69             NODE="$2"; shift 2
70             ;;
71         -p | --port)
72             SSH_PORT="$2"; shift 2
73             ;;
74         -c | --concurrency)
75             PUPPET_CONCURRENCY="$2"; shift 2
76             ;;
77         -u | --unmanaged)
78             UNMANAGED=1
79             shift
80             ;;
81         -d | --debug)
82             DEBUG=1
83             shift
84             ;;
85         --)
86             shift
87             break
88             ;;
89         *)
90             usage
91             exit 1
92             ;;
93     esac
94 done
95
96 IDENTIFIER=$1
97
98 if [[ "$IDENTIFIER" == '' ]]; then
99   usage
100   exit 1
101 fi
102
103 EXITCODE=0
104
105 COLUMNS=80
106
107 PUPPET_AGENT='
108 __rvm_unload
109 now() { date +%s; }
110 let endtime="$(now) + 600"
111 while [ "$endtime" -gt "$(now)" ]; do
112     puppet agent --test --detailed-exitcodes
113     agent_exitcode=$?
114     if [ 0 = "$agent_exitcode" ] || [ 2 = "$agent_exitcode" ]; then
115         break
116     else
117         sleep 10s
118     fi
119 done
120 exit ${agent_exitcode:-99}
121 '
122
123 APT_AGENT='
124 now() { date +%s; }
125 let endtime="$(now) + 600"
126 while [ "$endtime" -gt "$(now)" ]; do
127   apt-get update
128   apt-get -y upgrade
129   apt_exitcode=$?
130   if [ 0 = "$apt_exitcode" ]; then
131     break
132   else
133     sleep 10s
134   fi
135 done
136 exit ${apt_exitcode:-99}
137 '
138
139 title () {
140   date=`date +'%Y-%m-%d %H:%M:%S'`
141   printf "$date $1\n"
142 }
143
144 function update_node() {
145   if [[ $UNMANAGED -ne 0 ]]; then
146     run_apt $@
147   else
148     run_puppet $@
149   fi
150 }
151
152 function run_apt() {
153   node=$1
154
155   title "Running apt on $node"
156   sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
157   TMP_FILE=`mktemp`
158   if [[ "$DEBUG" != "0" ]]; then
159     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" | tee $TMP_FILE
160   else
161     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" > $TMP_FILE 2>&1
162   fi
163
164   ECODE=${PIPESTATUS[0]}
165   RESULT=$(cat $TMP_FILE)
166
167   if [[ "$ECODE" != "255" && "$ECODE" != "0"  ]]; then
168     # Ssh exits 255 if the connection timed out. Just ignore that.
169     echo "ERROR running apt on $node: exit code $ECODE"
170     if [[ "$DEBUG" == "0" ]]; then
171       title "Command output follows:"
172       echo $RESULT
173     fi
174   fi
175   if [[ "$ECODE" == "255" ]]; then
176     title "Connection timed out"
177     ECODE=0
178   fi
179
180   if [[ "$ECODE" == "0" ]]; then
181       rm -f $TMP_FILE
182       echo $node successfully updated
183   else
184       echo $node exit code: $ECODE see $TMP_FILE for details
185   fi
186 }
187
188 function run_puppet() {
189   node=$1
190
191   title "Running puppet on $node"
192   sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
193   TMP_FILE=`mktemp`
194   if [[ "$DEBUG" != "0" ]]; then
195     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" | tee $TMP_FILE
196   else
197     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" > $TMP_FILE 2>&1
198   fi
199
200   ECODE=${PIPESTATUS[0]}
201   RESULT=$(cat $TMP_FILE)
202
203   if [[ "$ECODE" != "255" && ! ("$RESULT" =~ 'already in progress') && "$ECODE" != "2" && "$ECODE" != "0"  ]]; then
204     # Ssh exits 255 if the connection timed out. Just ignore that.
205     # Puppet exits 2 if there are changes. For real!
206     # Puppet prints 'Notice: Run of Puppet configuration client already in progress' if another puppet process
207     #   was already running
208     echo "ERROR running puppet on $node: exit code $ECODE"
209     if [[ "$DEBUG" == "0" ]]; then
210       title "Command output follows:"
211       echo $RESULT
212     fi
213   fi
214   if [[ "$ECODE" == "255" ]]; then
215     title "Connection timed out"
216     ECODE=0
217   fi
218   if [[ "$ECODE" == "2" ]]; then
219     ECODE=0
220   fi
221
222   if [[ "$ECODE" == "0" ]]; then
223       rm -f $TMP_FILE
224       echo $node successfully updated
225   else
226       echo $node exit code: $ECODE see $TMP_FILE for details
227   fi
228 }
229
230 function run_command() {
231   node=$1;shift
232   return_var=$1;shift
233   command=$@
234
235   title "Running '$command' on $node"
236   TMP_FILE=`mktemp`
237   if [[ "$DEBUG" != "0" ]]; then
238     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" root@$node -C "$command" | tee $TMP_FILE
239   else
240     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" root@$node -C "$command" > $TMP_FILE 2>&1
241   fi
242
243   ECODE=$?
244   RESULT=$(cat $TMP_FILE)
245
246   if [[ "$ECODE" != "255" && "$ECODE" != "0"  ]]; then
247     # Ssh exists 255 if the connection timed out. Just ignore that, it's possible that this node is
248     #   a shell node that is down.
249     title "ERROR running command on $node: exit code $ECODE"
250     if [[ "$DEBUG" == "0" ]]; then
251       title "Command output follows:"
252       echo $RESULT
253     fi
254   fi
255   if [[ "$ECODE" == "255" ]]; then
256     title "Connection timed out"
257     ECODE=0
258   fi
259   rm -f $TMP_FILE
260   echo $RESULT
261   eval "$return_var=$ECODE"
262 }
263
264 if [[ "$NODE" == "" ]] || [[ "$NODE" == "$IDENTIFIER.arvadosapi.com" ]]; then
265   title "Updating API server"
266   SUM_ECODE=0
267   update_node $IDENTIFIER.arvadosapi.com ECODE
268   SUM_ECODE=$(($SUM_ECODE + $ECODE))
269
270   if [[ "$SUM_ECODE" != "0" ]]; then
271     title "ERROR: Updating API server FAILED"
272     EXITCODE=$(($EXITCODE + $SUM_ECODE))
273     exit $EXITCODE
274   fi
275 fi
276
277 if [[ "$NODE" == "$IDENTIFIER.arvadosapi.com" ]]; then
278         # we are done
279         exit 0
280 fi
281
282 title "Loading ARVADOS_API_HOST and ARVADOS_API_TOKEN"
283 if [[ -f "$HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf" ]]; then
284   . $HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf
285 else
286   title "WARNING: $HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf not found."
287 fi
288 if [[ "$ARVADOS_API_HOST" == "" ]] || [[ "$ARVADOS_API_TOKEN" == "" ]]; then
289   title "ERROR: ARVADOS_API_HOST and/or ARVADOS_API_TOKEN environment variables are not set."
290   exit 1
291 fi
292
293 title "Gathering list of nodes"
294 if [[ "$IDENTIFIER" == "ce8i5" ]]; then
295   start_nodes="keep keep0 shell"
296   SHELL_NODE_FOR_ARV_KEEPDOCKER=""
297 else
298   SHELL_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv virtual_machine list |jq .items[].hostname -r`
299   KEEP_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv keep_service list |jq .items[].service_host -r`
300   SHELL_NODE_FOR_ARV_KEEPDOCKER="shell.$IDENTIFIER"
301   start_nodes="workbench manage switchyard $SHELL_NODES $KEEP_NODES"
302 fi
303
304 nodes=""
305 for n in $start_nodes; do
306   ECODE=0
307   if [[ $n =~ $ARVADOS_API_HOST$ ]]; then
308     # e.g. keep.qr1hi.arvadosapi.com
309     node=$n
310   else
311     # e.g. shell
312     node=$n.$ARVADOS_API_HOST
313   fi
314         if [[ "$NODE" == "" ]] || [[ "$NODE" == "$node" ]]; then
315           # e.g. keep.qr1hi
316           nodes="$nodes ${node%.arvadosapi.com}"
317         fi
318 done
319
320 if [[ "$nodes" != "" ]]; then
321   ## at this point nodes should be an array containing
322   ## manage.qr1hi,  keep.qr1hi, etc
323   ## that should be defined in the .ssh/config file
324   title "Updating in parallel: $nodes"
325   export -f update_node
326   export -f run_puppet
327   export -f run_apt
328   export -f title
329   export SSH_PORT
330   export PUPPET_AGENT
331   export APT_AGENT
332   export UNMANAGED
333   echo $nodes|xargs -d " " -n 1 -P $PUPPET_CONCURRENCY -I {} bash -c "update_node {}"
334 fi
335
336 if [[ "$NODE" == "" ]]; then
337   title "Locating Arvados Standard Docker images project"
338
339   JSON_FILTER="[[\"name\", \"=\", \"Arvados Standard Docker Images\"], [\"owner_uuid\", \"=\", \"$IDENTIFIER-tpzed-000000000000000\"]]"
340   DOCKER_IMAGES_PROJECT=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv --format=uuid group list --filters="$JSON_FILTER"`
341
342   if [[ "$DOCKER_IMAGES_PROJECT" == "" ]]; then
343     title "Warning: Arvados Standard Docker Images project not found. Creating it."
344
345     DOCKER_IMAGES_PROJECT=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv --format=uuid group create --group "{\"owner_uuid\":\"$IDENTIFIER-tpzed-000000000000000\", \"name\":\"Arvados Standard Docker Images\", \"group_class\":\"project\"}"`
346     ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv link create --link "{\"tail_uuid\":\"$IDENTIFIER-j7d0g-fffffffffffffff\", \"head_uuid\":\"$DOCKER_IMAGES_PROJECT\", \"link_class\":\"permission\", \"name\":\"can_read\" }"
347     if [[ "$?" != "0" ]]; then
348       title "ERROR: could not create standard Docker images project Please create it, cf. http://doc.arvados.org/install/create-standard-objects.html"
349       exit 1
350     fi
351   fi
352
353   title "Found Arvados Standard Docker Images project with uuid $DOCKER_IMAGES_PROJECT"
354
355   VERSION=`ssh -o "StrictHostKeyChecking no" $IDENTIFIER apt-cache policy python-arvados-cwl-runner|grep Candidate`
356   VERSION=`echo $VERSION|cut -f2 -d' '|cut -f1 -d-`
357
358   if [[ "$?" != "0" ]] || [[ "$VERSION" == "" ]]; then
359     title "ERROR: unable to get arvados/jobs Docker image version"
360     exit 1
361   else
362     title "Found version for arvados/jobs Docker image: $VERSION"
363   fi
364
365   if [[ "$SHELL_NODE_FOR_ARV_KEEPDOCKER" == "" ]]; then
366     ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker |grep -q $VERSION
367     if [[ "$?" == "0" ]]; then
368       title "Found latest arvados/jobs Docker image, nothing to upload"
369       # Just in case it isn't yet, tag the image as latest
370       title "Tag arvados/jobs Docker image $VERSION as latest"
371       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest
372       if [[ $? -ne 0 ]]; then
373         title "'arv-keepdocker' failed..."
374         exit 1
375       fi
376     else
377       title "Installing latest arvados/jobs Docker image"
378       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $VERSION
379       if [[ $? -ne 0 ]]; then
380         title "'arv-keepdocker' failed..."
381         exit 1
382       fi
383       ## adding latest tag too  refs 9254
384       docker tag arvados/jobs:$VERSION arvados/jobs:latest
385       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest
386       if [[ $? -ne 0 ]]; then
387         title "'arv-keepdocker' failed..."
388         exit 1
389       fi
390     fi
391   else
392     run_command $SHELL_NODE_FOR_ARV_KEEPDOCKER ECODE "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker" |grep -q $VERSION
393
394     if [[ "$?" == "0" ]]; then
395       title "Found latest arvados/jobs Docker image, nothing to upload"
396       # Just in case it isn't yet, tag the image as latest
397       title "Tag arvados/jobs Docker image $VERSION as latest"
398       ssh -o "StrictHostKeyChecking no" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest"
399       if [[ $? -ne 0 ]]; then
400         title "'arv-keepdocker' failed..."
401         exit 1
402       fi
403     else
404       title "Installing latest arvados/jobs Docker image"
405       ssh -o "StrictHostKeyChecking no" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $VERSION"
406       if [[ $? -ne 0 ]]; then
407         title "'arv-keepdocker' failed..."
408         exit 1
409       fi
410       ## adding latest tag too  refs 9254
411       ssh -o "StrictHostKeyChecking no" $SHELL_NODE_FOR_ARV_KEEPDOCKER docker tag arvados/jobs:$VERSION arvados/jobs:latest
412       ssh -o "StrictHostKeyChecking no" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest"
413       if [[ $? -ne 0 ]]; then
414         title "'arv-keepdocker' failed..."
415         exit 1
416       fi
417     fi
418   fi
419 fi