run-deploy.sh: when there is a shell node, use that to figure out the
[arvados-dev.git] / jenkins / run-deploy.sh
1 #!/bin/bash
2
3 # Copyright (C) The Arvados Authors. All rights reserved.
4 #
5 # SPDX-License-Identifier: AGPL-3.0
6
7 DEBUG=0
8 UNMANAGED=0
9 SSH_PORT=22
10 PUPPET_CONCURRENCY=5
11
12 read -d] -r SCOPES <<EOF
13 --scopes
14 '["GET /arvados/v1/virtual_machines",\n
15 "GET /arvados/v1/keep_services",\n
16 "GET /arvados/v1/keep_services/",\n
17 "GET /arvados/v1/groups",\n
18 "GET /arvados/v1/groups/",\n
19 "GET /arvados/v1/links",\n
20 "GET /arvados/v1/collections",\n
21 "POST /arvados/v1/collections",\n
22 "POST /arvados/v1/links",\n
23 "GET /arvados/v1/users/current",\n
24 "POST /arvados/v1/users/current",\n
25 "GET /arvados/v1/jobs",\n
26 "POST /arvados/v1/jobs",\n
27 "GET /arvados/v1/pipeline_instances",\n
28 "POST /arvados/v1/pipeline_instances",\n
29 "PUT /arvados/v1/pipeline_instances/",\n
30 "GET /arvados/v1/collections/",\n
31 "POST /arvados/v1/collections/",\n
32 "GET /arvados/v1/logs"]'
33 EOF
34
35 function usage {
36     echo >&2
37     echo >&2 "usage: $0 [options] <identifier>"
38     echo >&2
39     echo >&2 "   <identifier>                 Arvados cluster name"
40     echo >&2
41     echo >&2 "$0 options:"
42     echo >&2 "  -n, --node <node>             Single machine to deploy, use fqdn, optional"
43     echo >&2 "  -p, --port <ssh port>         SSH port to use (default 22)"
44     echo >&2 "  -c, --concurrency <max>       Maximum concurrency for puppet runs (default 5)"
45     echo >&2 "  -u, --unmanaged               Deploy to unmanaged node/cluster"
46     echo >&2 "  -d, --debug                   Enable debug output"
47     echo >&2 "  -h, --help                    Display this help and exit"
48     echo >&2
49     echo >&2 "Note: this script requires an arvados token created with these permissions:"
50     echo >&2 '  arv api_client_authorization create_system_auth \'
51     echo -e $SCOPES"]'" >&2
52     echo >&2
53 }
54
55
56 # NOTE: This requires GNU getopt (part of the util-linux package on Debian-based distros).
57 TEMP=`getopt -o hudp:c:n: \
58     --long help,unmanaged,debug,port:,concurrency:,node: \
59     -n "$0" -- "$@"`
60
61 if [ $? != 0 ] ; then echo "Use -h for help"; exit 1 ; fi
62 # Note the quotes around `$TEMP': they are essential!
63 eval set -- "$TEMP"
64
65 while [ $# -ge 1 ]
66 do
67     case $1 in
68         -n | --node)
69             NODE="$2"; shift 2
70             ;;
71         -p | --port)
72             SSH_PORT="$2"; shift 2
73             ;;
74         -c | --concurrency)
75             PUPPET_CONCURRENCY="$2"; shift 2
76             ;;
77         -u | --unmanaged)
78             UNMANAGED=1
79             shift
80             ;;
81         -d | --debug)
82             DEBUG=1
83             set -x
84             shift
85             ;;
86         --)
87             shift
88             break
89             ;;
90         *)
91             usage
92             exit 1
93             ;;
94     esac
95 done
96
97 IDENTIFIER=$1
98
99 if [[ "$IDENTIFIER" == '' ]]; then
100   usage
101   exit 1
102 fi
103
104 EXITCODE=0
105
106 COLUMNS=80
107
108 PUPPET_AGENT='
109 if [[ -e "/usr/local/rvm/scripts/rvm" ]]; then
110         source /usr/local/rvm/scripts/rvm
111         __rvm_unload
112 fi
113 now() { date +%s; }
114 let endtime="$(now) + 600"
115 while [ "$endtime" -gt "$(now)" ]; do
116     puppet agent --test --detailed-exitcodes
117     agent_exitcode=$?
118     if [ 0 = "$agent_exitcode" ] || [ 2 = "$agent_exitcode" ]; then
119         break
120     else
121         sleep 10s
122     fi
123 done
124 exit ${agent_exitcode:-99}
125 '
126
127 APT_AGENT='
128 now() { date +%s; }
129 let endtime="$(now) + 600"
130 while [ "$endtime" -gt "$(now)" ]; do
131   apt-get update
132   apt-get -y upgrade
133   apt_exitcode=$?
134   if [ 0 = "$apt_exitcode" ]; then
135     break
136   else
137     sleep 10s
138   fi
139 done
140 exit ${apt_exitcode:-99}
141 '
142
143 title () {
144   date=`date +'%Y-%m-%d %H:%M:%S'`
145   printf "$date $1\n"
146 }
147
148 function update_node() {
149   if [[ $UNMANAGED -ne 0 ]]; then
150     run_apt $@
151   else
152     run_puppet $@
153   fi
154 }
155
156 function run_apt() {
157   node=$1
158
159   title "Running apt on $node"
160   sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
161   TMP_FILE=`mktemp`
162   if [[ "$DEBUG" != "0" ]]; then
163     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' | tee $TMP_FILE
164   else
165     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$APT_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' > $TMP_FILE 2>&1
166   fi
167
168   ECODE=${PIPESTATUS[0]}
169   RESULT=$(cat $TMP_FILE)
170
171   if [[ "$ECODE" != "255" && "$ECODE" != "0"  ]]; then
172     # Ssh exits 255 if the connection timed out. Just ignore that.
173     echo "ERROR running apt on $node: exit code $ECODE"
174     if [[ "$DEBUG" == "0" ]]; then
175       title "Command output follows:"
176       echo $RESULT
177     fi
178   fi
179   if [[ "$ECODE" == "255" ]]; then
180     title "Connection timed out"
181     ECODE=0
182   fi
183
184   if [[ "$ECODE" == "0" ]]; then
185       rm -f $TMP_FILE
186       echo $node successfully updated
187   else
188       echo $node exit code: $ECODE see $TMP_FILE for details
189   fi
190 }
191
192 function run_puppet() {
193   node=$1
194
195   title "Running puppet on $node"
196   sleep $[ $RANDOM / 6000 ].$[ $RANDOM / 1000 ]
197   TMP_FILE=`mktemp`
198   if [[ "$DEBUG" != "0" ]]; then
199     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' | tee $TMP_FILE
200   else
201     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 5" root@$node -C bash -c "'$PUPPET_AGENT'" 2>&1 | sed 's/^/['"${node}"'] /' > $TMP_FILE 2>&1
202   fi
203
204   ECODE=${PIPESTATUS[0]}
205   RESULT=$(cat $TMP_FILE)
206
207   if [[ "$ECODE" != "255" && ! ("$RESULT" =~ 'already in progress') && "$ECODE" != "2" && "$ECODE" != "0"  ]]; then
208     # Ssh exits 255 if the connection timed out. Just ignore that.
209     # Puppet exits 2 if there are changes. For real!
210     # Puppet prints 'Notice: Run of Puppet configuration client already in progress' if another puppet process
211     #   was already running
212     echo "ERROR running puppet on $node: exit code $ECODE"
213     if [[ "$DEBUG" == "0" ]]; then
214       title "Command output follows:"
215       echo $RESULT
216     fi
217   fi
218   if [[ "$ECODE" == "255" ]]; then
219     title "Connection timed out"
220     ECODE=0
221   fi
222   if [[ "$ECODE" == "2" ]]; then
223     ECODE=0
224   fi
225
226   if [[ "$ECODE" == "0" ]]; then
227       rm -f $TMP_FILE
228       echo $node successfully updated
229   else
230       echo $node exit code: $ECODE see $TMP_FILE for details
231   fi
232 }
233
234 if [[ "$NODE" == "" ]] || [[ "$NODE" == "$IDENTIFIER.arvadosapi.com" ]]; then
235   title "Updating API server"
236   SUM_ECODE=0
237   update_node $IDENTIFIER.arvadosapi.com ECODE
238   SUM_ECODE=$(($SUM_ECODE + $ECODE))
239
240   if [[ "$SUM_ECODE" != "0" ]]; then
241     title "ERROR: Updating API server FAILED"
242     EXITCODE=$(($EXITCODE + $SUM_ECODE))
243     exit $EXITCODE
244   fi
245 fi
246
247 if [[ "$NODE" == "$IDENTIFIER.arvadosapi.com" ]]; then
248         # we are done
249         exit 0
250 fi
251
252 title "Loading ARVADOS_API_HOST and ARVADOS_API_TOKEN"
253 if [[ -f "$HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf" ]]; then
254   . $HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf
255 else
256   title "WARNING: $HOME/.config/arvados/$IDENTIFIER.arvadosapi.com.conf not found."
257 fi
258 if [[ "$ARVADOS_API_HOST" == "" ]] || [[ "$ARVADOS_API_TOKEN" == "" ]]; then
259   title "ERROR: ARVADOS_API_HOST and/or ARVADOS_API_TOKEN environment variables are not set."
260   exit 1
261 fi
262
263 title "Gathering list of nodes"
264 start_nodes="workbench"
265 if [[ "$IDENTIFIER" != "ce8i5" ]]; then
266   start_nodes="$start_nodes manage switchyard"
267 fi
268 SHELL_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv virtual_machine list |jq .items[].hostname -r`
269 KEEP_NODES=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv keep_service list |jq .items[].service_host -r`
270 SHELL_NODE_FOR_ARV_KEEPDOCKER="shell.$IDENTIFIER"
271 start_nodes="$start_nodes $SHELL_NODES $KEEP_NODES $ARVADOS_API_HOST"
272
273 nodes=""
274 for n in $start_nodes; do
275   ECODE=0
276   if [[ $n =~ $ARVADOS_API_HOST$ ]]; then
277     # e.g. keep.qr1hi.arvadosapi.com
278     node=$n
279   else
280     # e.g. shell
281     node=$n.$ARVADOS_API_HOST
282   fi
283         if [[ "$NODE" == "" ]] || [[ "$NODE" == "$node" ]]; then
284           # e.g. keep.qr1hi
285           nodes="$nodes ${node%.arvadosapi.com}"
286         fi
287 done
288
289 if [[ "$nodes" != "" ]]; then
290   ## at this point nodes should be an array containing
291   ## manage.qr1hi,  keep.qr1hi, etc
292   ## that should be defined in the .ssh/config file
293   title "Updating in parallel: $nodes"
294   export -f update_node
295   export -f run_puppet
296   export -f run_apt
297   export -f title
298   export SSH_PORT
299   export PUPPET_AGENT
300   export APT_AGENT
301   export UNMANAGED
302   echo $nodes|xargs -d " " -n 1 -P $PUPPET_CONCURRENCY -I {} bash -c "update_node {}"
303 fi
304
305 if [[ "$NODE" == "" ]]; then
306   title "Locating Arvados Standard Docker images project"
307
308   JSON_FILTER="[[\"name\", \"=\", \"Arvados Standard Docker Images\"], [\"owner_uuid\", \"=\", \"$IDENTIFIER-tpzed-000000000000000\"]]"
309   DOCKER_IMAGES_PROJECT=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv --format=uuid group list --filters="$JSON_FILTER"`
310
311   if [[ "$DOCKER_IMAGES_PROJECT" == "" ]]; then
312     title "Warning: Arvados Standard Docker Images project not found. Creating it."
313
314     DOCKER_IMAGES_PROJECT=`ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv --format=uuid group create --group "{\"owner_uuid\":\"$IDENTIFIER-tpzed-000000000000000\", \"name\":\"Arvados Standard Docker Images\", \"group_class\":\"project\"}"`
315     ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv link create --link "{\"tail_uuid\":\"$IDENTIFIER-j7d0g-fffffffffffffff\", \"head_uuid\":\"$DOCKER_IMAGES_PROJECT\", \"link_class\":\"permission\", \"name\":\"can_read\" }"
316     if [[ "$?" != "0" ]]; then
317       title "ERROR: could not create standard Docker images project Please create it, cf. http://doc.arvados.org/install/create-standard-objects.html"
318       exit 1
319     fi
320   fi
321
322   title "Found Arvados Standard Docker Images project with uuid $DOCKER_IMAGES_PROJECT"
323
324   if [[ "$SHELL_NODE_FOR_ARV_KEEPDOCKER" == "" ]]; then
325     VERSION=`ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $IDENTIFIER apt-cache policy python3-arvados-cwl-runner|grep Candidate`
326     VERSION=`echo $VERSION|cut -f2 -d' '|cut -f1 -d-`
327
328     if [[ "$?" != "0" ]] || [[ "$VERSION" == "" ]]; then
329       title "ERROR: unable to get arvados/jobs Docker image version"
330       exit 1
331     else
332       title "Found version for arvados/jobs Docker image: $VERSION"
333     fi
334
335     ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker |grep -qP "arvados/jobs +$VERSION "
336     if [[ $? -eq 0 ]]; then
337       title "Found latest arvados/jobs Docker image, nothing to upload"
338       # Just in case it isn't yet, tag the image as latest
339       title "Tag arvados/jobs Docker image $VERSION as latest"
340       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest
341       if [[ $? -ne 0 ]]; then
342         title "'arv-keepdocker' failed..."
343         exit 1
344       fi
345     else
346       title "Installing latest arvados/jobs Docker image"
347       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $VERSION
348       if [[ $? -ne 0 ]]; then
349         title "'arv-keepdocker' failed..."
350         exit 1
351       fi
352       ## adding latest tag too  refs 9254
353       docker tag arvados/jobs:$VERSION arvados/jobs:latest
354       ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest
355       if [[ $? -ne 0 ]]; then
356         title "'arv-keepdocker' failed..."
357         exit 1
358       fi
359     fi
360   else
361     VERSION=`ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER apt-cache policy python3-arvados-cwl-runner|grep Candidate`
362     VERSION=`echo $VERSION|cut -f2 -d' '|cut -f1 -d-`
363
364     if [[ "$?" != "0" ]] || [[ "$VERSION" == "" ]]; then
365       title "ERROR: unable to get arvados/jobs Docker image version"
366       exit 1
367     else
368       title "Found version for arvados/jobs Docker image: $VERSION"
369     fi
370
371     ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker" |grep -qP "arvados/jobs +$VERSION "
372
373     if [[ $? -eq 0 ]]; then
374       title "Found latest arvados/jobs Docker image, nothing to upload"
375       # Just in case it isn't yet, tag the image as latest
376       title "Tag arvados/jobs Docker image $VERSION as latest"
377       ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER docker tag arvados/jobs:$VERSION arvados/jobs:latest
378       ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest"
379       if [[ $? -ne 0 ]]; then
380         title "'arv-keepdocker' failed..."
381         exit 1
382       fi
383     else
384       title "Installing latest arvados/jobs Docker image"
385       ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --pull --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs $VERSION"
386       if [[ $? -ne 0 ]]; then
387         title "'arv-keepdocker' failed..."
388         exit 1
389       fi
390       ## adding latest tag too  refs 9254
391       ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER docker tag arvados/jobs:$VERSION arvados/jobs:latest
392       ssh -t -p$SSH_PORT -o "StrictHostKeyChecking no" -o "ConnectTimeout 125" $SHELL_NODE_FOR_ARV_KEEPDOCKER "ARVADOS_API_HOST=$ARVADOS_API_HOST ARVADOS_API_TOKEN=$ARVADOS_API_TOKEN arv-keepdocker --project-uuid=$DOCKER_IMAGES_PROJECT arvados/jobs latest"
393       if [[ $? -ne 0 ]]; then
394         title "'arv-keepdocker' failed..."
395         exit 1
396       fi
397     fi
398   fi
399 fi