Merge branch '7193-provision-azure-compute' closes #7193
[arvados.git] / doc / install / install-compute-node.html.textile.liquid
1 ---
2 layout: default
3 navsection: installguide
4 title: Install a compute node
5 ...
6
7 h2. Install dependencies
8
9 First, "add the appropriate package repository for your distribution":{{ site.baseurl }}/install/install-manual-prerequisites.html#repos.
10
11 On Debian-based systems:
12
13 <notextile>
14 <pre><code>~$ <span class="userinput">sudo apt-get install perl python-virtualenv fuse python-arvados-python-client python-arvados-fuse crunchstat arvados-docker-cleaner iptables ca-certificates</span>
15 </code></pre>
16 </notextile>
17
18 On Red Hat-based systems:
19
20 <notextile>
21 <pre><code>~$ <span class="userinput">sudo yum install perl python27-python-virtualenv fuse python27-python-arvados-python-client python27-python-arvados-fuse crunchstat arvados-docker-cleaner iptables ca-certificates</span>
22 </code></pre>
23 </notextile>
24
25 {% include 'note_python27_sc' %}
26
27 h2. Install Docker
28
29 Compute nodes must have Docker installed to run jobs inside containers.  This requires a relatively recent version of Linux (at least upstream version 3.10, or a distribution version with the appropriate patches backported).  Follow the "Docker Engine installation documentation":https://docs.docker.com/ for your distribution.
30
31 For Debian-based systems, the Arvados package repository includes a backported @docker.io@ package with a known-good version you can install.
32
33 h2. Configure Docker
34
35 Crunch runs jobs in Docker containers with relatively little configuration.  You may need to start the Docker daemon with specific options to make sure these jobs run smoothly in your environment.  This section highlights options that are useful to most installations.  Refer to the "Docker daemon reference":https://docs.docker.com/reference/commandline/daemon/ for complete information about all available options.
36
37 The best way to configure these options varies by distribution.
38
39 * If you're using our backported @docker.io@ package, you can list these options in the @DOCKER_OPTS@ setting in @/etc/default/docker.io@.
40 * If you're using another Debian-based package, you can list these options in the @DOCKER_OPTS@ setting in @/etc/default/docker@.
41 * On Red Hat-based distributions, you can list these options in the @other_args@ setting in @/etc/sysconfig/docker@.
42
43 h3. Default ulimits
44
45 Docker containers inherit ulimits from the Docker daemon.  However, the ulimits for a single Unix daemon may not accommodate a long-running Crunch job.  You may want to increase default limits for compute jobs by passing @--default-ulimit@ options to the Docker daemon.  For example, to allow jobs to open 10,000 files, set @--default-ulimit nofile=10000:10000@.
46
47 h3. DNS
48
49 Your containers must be able to resolve the hostname in the ARVADOS_API_HOST environment variable (provided by the Crunch dispatcher) and any hostnames returned in Keep service records.  If these names are not in public DNS records, you may need to set a DNS resolver for the containers by specifying the @--dns@ address with the IP address of an appropriate nameserver.  You may specify this option more than once to use multiple nameservers.
50
51 h2. Set up SLURM
52
53 Install SLURM following "the same process you used to install the Crunch dispatcher":install-crunch-dispatch.html#slurm.
54
55 h2. Copy configuration files from the dispatcher (API server)
56
57 The @/etc/slurm-llnl/slurm.conf@ and @/etc/munge/munge.key@ files need to be identicaly across the dispatcher and all compute nodes. Copy the files you created in the "Install the Crunch dispatcher":install-crunch-dispatch.html step to this compute node.
58
59 h2. Configure FUSE
60
61 Install this file as @/etc/fuse.conf@:
62
63 <notextile>
64 <pre>
65 # Set the maximum number of FUSE mounts allowed to non-root users.
66 # The default is 1000.
67 #
68 #mount_max = 1000
69
70 # Allow non-root users to specify the 'allow_other' or 'allow_root'
71 # mount options.
72 #
73 user_allow_other
74 </pre>
75 </notextile>
76
77 h2. Configure the Docker cleaner
78
79 The arvados-docker-cleaner program removes least recently used docker images as needed to keep disk usage below a configured limit.
80
81 On Debian-based systems, install runit:
82
83 <notextile>
84 <pre><code>~$ <span class="userinput">sudo apt-get install runit</span>
85 </code></pre>
86 </notextile>
87
88 On Red Hat-based systems, "install runit from source":http://smarden.org/runit/install.html or use an alternative daemon supervisor.
89
90 Configure runit to run the image cleaner using a suitable quota for your compute nodes and workload:
91
92 <notextile>
93 <pre><code>~$ <span class="userinput">cd /etc/sv</span>
94 /etc/sv$ <span class="userinput">sudo mkdir arvados-docker-cleaner; cd arvados-docker-cleaner</span>
95 /etc/sv/arvados-docker-cleaner$ <span class="userinput">sudo mkdir log log/main</span>
96 /etc/sv/arvados-docker-cleaner$ <span class="userinput">sudo sh -c 'cat &gt;log/run' &lt;&lt;'EOF'
97 #!/bin/sh
98 exec svlogd -tt main
99 EOF</span>
100 /etc/sv/arvados-docker-cleaner$ <span class="userinput">sudo sh -c 'cat &gt;run' &lt;&lt;'EOF'
101 #!/bin/sh
102 exec python3 -m arvados_docker.cleaner --quota <b>50G</b>
103 EOF</span>
104 /etc/sv/arvados-docker-cleaner$ <span class="userinput">sudo chmod +x run log/run</span>
105 </code></pre>
106 </notextile>
107
108 If you are using a different daemon supervisor, or if you want to test the daemon in a terminal window, an equivalent shell command to run arvados-docker-cleaner is:
109
110 <notextile>
111 <pre><code><span class="userinput">python3 -m arvados_docker.cleaner --quota <b>50G</b></span>
112 </code></pre>
113 </notextile>
114
115 h2. Add a Crunch user account
116
117 Create a Crunch user account, and add it to the @fuse@ and @docker@ groups so it can use those tools:
118
119 <notextile>
120 <pre><code>~$ <span class="userinput">sudo useradd --groups fuse,docker crunch</span>
121 </code></pre>
122 </notextile>
123
124 The crunch user should have the same UID, GID, and home directory across all compute nodes and the dispatcher (API server).
125
126 h2. Tell the API server about this compute node
127
128 Load your API superuser token on the compute node:
129
130 <notextile>
131 <pre><code>
132 ~$ <span class="userinput">HISTIGNORE=$HISTIGNORE:'export ARVADOS_API_TOKEN=*'</span>
133 ~$ <span class="userinput">export ARVADOS_API_TOKEN=@your-superuser-token@</span>
134 ~$ <span class="userinput">export ARVADOS_API_HOST=@uuid_prefix.your.domain@</span>
135 ~$ <span class="userinput">unset ARVADOS_API_HOST_INSECURE</span>
136 </code>
137 </pre>
138 </notextile>
139
140 Then execute this script to create a compute node object, and set up a cron job to have the compute node ping the API server every five minutes:
141
142 <notextile>
143 <pre><code>
144 #!/bin/bash
145 set -e
146 if ! test -f /root/node.json ; then
147     python - &lt;&lt;EOF
148 import arvados, json, socket
149 fqdn = socket.getfqdn()
150 hostname, _, domain = fqdn.partition('.')
151 ip_address = socket.gethostbyname(fqdn)
152 node = arvados.api('v1').nodes().create(body={'hostname': hostname, 'domain': domain, 'ip_address': ip_address}).execute()
153 with open('/root/node.json', 'w') as node_file:
154     json.dump(node, node_file, indent=2)
155 EOF
156
157     # Make sure /dev/fuse permissions are correct (the device appears after fuse is loaded)
158     chmod 1660 /dev/fuse && chgrp fuse /dev/fuse
159 fi
160
161 UUID=`grep \"uuid\" /root/node.json  |cut -f4 -d\"`
162 PING_SECRET=`grep \"ping_secret\" /root/node.json  |cut -f4 -d\"`
163
164 if ! test -f /etc/cron.d/node_ping ; then
165     echo "*/5 * * * * root /usr/bin/curl -k -d ping_secret=$PING_SECRET https://$ARVADOS_API_HOST/arvados/v1/nodes/$UUID/ping" > /etc/cron.d/node_ping
166 fi
167
168 /usr/bin/curl -k -d ping_secret=$PING_SECRET https://$ARVADOS_API_HOST/arvados/v1/nodes/$UUID/ping?ping_secret=$PING_SECRET
169 </code>
170 </pre>
171 </notextile>
172
173 And remove your token from the environment:
174
175 <notextile>
176 <pre><code>
177 ~$ <span class="userinput">unset ARVADOS_API_TOKEN</span>
178 ~$ <span class="userinput">unset ARVADOS_API_HOST</span>
179 </code>
180 </pre>
181 </notextile>
182