12055: Avoid RAM exhaustion on bootup by asking AWS only the AMI
[arvados.git] / doc / install / install-nodemanager.html.textile.liquid
1 ---
2 layout: default
3 navsection: installguide
4 title: Install Node Manager
5 ...
6 {% comment %}
7 Copyright (C) The Arvados Authors. All rights reserved.
8
9 SPDX-License-Identifier: CC-BY-SA-3.0
10 {% endcomment %}
11
12 Arvados Node Manager provides elastic computing for Arvados and SLURM by creating and destroying virtual machines on demand.  Node Manager currently supports Amazon Web Services (AWS), Google Cloud Platform (GCP) and Microsoft Azure.
13
14 Note: node manager is only required for elastic computing cloud environments.  Fixed size clusters do not require node manager.
15
16 h2. Install
17
18 Node manager may run anywhere, however it must be able to communicate with the cloud provider's APIs, and use the command line tools @sinfo@, @squeue@ and @scontrol@ to communicate with the cluster's SLURM controller.
19
20 On Debian-based systems:
21
22 <notextile>
23 <pre><code>~$ <span class="userinput">sudo apt-get install arvados-node-manager</span>
24 </code></pre>
25 </notextile>
26
27 On Red Hat-based systems:
28
29 <notextile>
30 <pre><code>~$ <span class="userinput">sudo yum install arvados-node-manager</span>
31 </code></pre>
32 </notextile>
33
34 h2. Create compute image
35
36 Configure a virtual machine following the "instructions to set up a compute node.":{{site.baseurl}}/install/crunch2-slurm/install-compute-node.html and set it up to run a "ping script":{{site.baseurl}}/install/install-compute-ping.html at boot.
37
38 Create a virtual machine image using the commands provided by your cloud provider.  We recommend using a tool such as "Packer":https://www.packer.io/ to automate this process.
39
40 Configure node manager to use the image with the @image@ or @image_id@ parameter.
41
42 h2. Configure node manager
43
44 The configuration file at @/etc/arvados-node-manager/config.ini@ .  Some configuration details are specific to the cloud provider you are using:
45
46 * "Amazon Web Services":#aws
47 * "Google Cloud Platform":#gcp
48 * "Microsoft Azure":#azure
49
50 h3(#aws). Amazon Web Services
51
52 <pre>
53 # EC2 configuration for Arvados Node Manager.
54 # All times are in seconds unless specified otherwise.
55
56 [Manage]
57 # The management server responds to http://addr:port/status.json with
58 # a snapshot of internal state.
59
60 # Management server listening address (default 127.0.0.1)
61 #address = 0.0.0.0
62
63 # Management server port number (default -1, server is disabled)
64 #port = 8989
65
66 [Daemon]
67 # The dispatcher can customize the start and stop procedure for
68 # cloud nodes.  For example, the SLURM dispatcher drains nodes
69 # through SLURM before shutting them down.
70 dispatcher = slurm
71
72 # Node Manager will ensure that there are at least this many nodes running at
73 # all times.  If node manager needs to start new idle nodes for the purpose of
74 # satisfying min_nodes, it will use the cheapest node type.  However, depending
75 # on usage patterns, it may also satisfy min_nodes by keeping alive some
76 # more-expensive nodes
77 min_nodes = 0
78
79 # Node Manager will not start any compute nodes when at least this
80 # many are running.
81 max_nodes = 8
82
83 # Upper limit on rate of spending (in $/hr), will not boot additional nodes
84 # if total price of already running nodes meets or exceeds this threshold.
85 # default 0 means no limit.
86 max_total_price = 0
87
88 # Poll EC2 nodes and Arvados for new information every N seconds.
89 poll_time = 60
90
91 # Polls have exponential backoff when services fail to respond.
92 # This is the longest time to wait between polls.
93 max_poll_time = 300
94
95 # If Node Manager can't succesfully poll a service for this long,
96 # it will never start or stop compute nodes, on the assumption that its
97 # information is too outdated.
98 poll_stale_after = 600
99
100 # If Node Manager boots a cloud node, and it does not pair with an Arvados
101 # node before this long, assume that there was a cloud bootstrap failure and
102 # shut it down.  Note that normal shutdown windows apply (see the Cloud
103 # section), so this should be shorter than the first shutdown window value.
104 boot_fail_after = 1800
105
106 # "Node stale time" affects two related behaviors.
107 # 1. If a compute node has been running for at least this long, but it
108 # isn't paired with an Arvados node, do not shut it down, but leave it alone.
109 # This prevents the node manager from shutting down a node that might
110 # actually be doing work, but is having temporary trouble contacting the
111 # API server.
112 # 2. When the Node Manager starts a new compute node, it will try to reuse
113 # an Arvados node that hasn't been updated for this long.
114 node_stale_after = 14400
115
116 # Scaling factor to be applied to nodes' available RAM size. Usually there's a
117 # variable discrepancy between the advertised RAM value on cloud nodes and the
118 # actual amount available.
119 # If not set, this value will be set to 0.95
120 node_mem_scaling = 0.95
121
122 # File path for Certificate Authorities
123 certs_file = /etc/ssl/certs/ca-certificates.crt
124
125 [Logging]
126 # Log file path
127 file = /var/log/arvados/node-manager.log
128
129 # Log level for most Node Manager messages.
130 # Choose one of DEBUG, INFO, WARNING, ERROR, or CRITICAL.
131 # WARNING lets you know when polling a service fails.
132 # INFO additionally lets you know when a compute node is started or stopped.
133 level = INFO
134
135 # You can also set different log levels for specific libraries.
136 # Pykka is the Node Manager's actor library.
137 # Setting this to DEBUG will display tracebacks for uncaught
138 # exceptions in the actors, but it's also very chatty.
139 pykka = WARNING
140
141 # Setting apiclient to INFO will log the URL of every Arvados API request.
142 apiclient = WARNING
143
144 [Arvados]
145 host = zyxwv.arvadosapi.com
146 token = ARVADOS_TOKEN
147 timeout = 15
148
149 # Accept an untrusted SSL certificate from the API server?
150 insecure = no
151
152 [Cloud]
153 provider = ec2
154
155 # It's usually most cost-effective to shut down compute nodes during narrow
156 # windows of time.  For example, EC2 bills each node by the hour, so the best
157 # time to shut down a node is right before a new hour of uptime starts.
158 # Shutdown windows define these periods of time.  These are windows in
159 # full minutes, separated by commas.  Counting from the time the node is
160 # booted, the node WILL NOT shut down for N1 minutes; then it MAY shut down
161 # for N2 minutes; then it WILL NOT shut down for N3 minutes; and so on.
162 # For example, "54, 5, 1" means the node may shut down from the 54th to the
163 # 59th minute of each hour of uptime.
164 # Specify at least two windows.  You can add as many as you need beyond that.
165 shutdown_windows = 54, 5, 1
166
167 [Cloud Credentials]
168 key = KEY
169 secret = SECRET_KEY
170 region = us-east-1
171 timeout = 60
172
173 [Cloud List]
174 # This section defines filters that find compute nodes.
175 # Tags that you specify here will automatically be added to nodes you create.
176 # Replace colons in Amazon filters with underscores
177 # (e.g., write "tag:mytag" as "tag_mytag").
178 instance-state-name = running
179 tag_arvados-class = dynamic-compute
180 tag_cluster = zyxwv
181
182 [Cloud Create]
183 # New compute nodes will send pings to Arvados at this host.
184 # You may specify a port, and use brackets to disambiguate IPv6 addresses.
185 ping_host = hostname:port
186
187 # Give the name of an SSH key on AWS...
188 ex_keyname = string
189
190 # ... or a file path for an SSH key that can log in to the compute node.
191 # (One or the other, not both.)
192 # ssh_key = path
193
194 # The EC2 IDs of the image and subnet compute nodes should use.
195 image_id = idstring
196 subnet_id = idstring
197
198 # Comma-separated EC2 IDs for the security group(s) assigned to each
199 # compute node.
200 security_groups = idstring1, idstring2
201
202
203 # You can define any number of Size sections to list EC2 sizes you're
204 # willing to use.  The Node Manager should boot the cheapest size(s) that
205 # can run jobs in the queue.
206 #
207 # Each size section MUST define the number of cores are available in this
208 # size class (since libcloud does not provide any consistent API for exposing
209 # this setting).
210 # You may also want to define the amount of scratch space (expressed
211 # in GB) for Crunch jobs.  You can also override Amazon's provided
212 # data fields (such as price per hour) by setting them here.
213
214 [Size m4.large]
215 cores = 2
216 price = 0.126
217 scratch = 100
218
219 [Size m4.xlarge]
220 cores = 4
221 price = 0.252
222 scratch = 100
223 </pre>
224
225 h3(#gcp). Google Cloud Platform
226
227 <pre>
228 # Google Compute Engine configuration for Arvados Node Manager.
229 # All times are in seconds unless specified otherwise.
230
231 [Manage]
232 # The management server responds to http://addr:port/status.json with
233 # a snapshot of internal state.
234
235 # Management server listening address (default 127.0.0.1)
236 #address = 0.0.0.0
237
238 # Management server port number (default -1, server is disabled)
239 #port = 8989
240
241 [Daemon]
242 # Node Manager will ensure that there are at least this many nodes running at
243 # all times.  If node manager needs to start new idle nodes for the purpose of
244 # satisfying min_nodes, it will use the cheapest node type.  However, depending
245 # on usage patterns, it may also satisfy min_nodes by keeping alive some
246 # more-expensive nodes
247 min_nodes = 0
248
249 # Node Manager will not start any compute nodes when at least this
250 # running at all times.  By default, these will be the cheapest node size.
251 max_nodes = 8
252
253 # Poll compute nodes and Arvados for new information every N seconds.
254 poll_time = 60
255
256 # Upper limit on rate of spending (in $/hr), will not boot additional nodes
257 # if total price of already running nodes meets or exceeds this threshold.
258 # default 0 means no limit.
259 max_total_price = 0
260
261 # Polls have exponential backoff when services fail to respond.
262 # This is the longest time to wait between polls.
263 max_poll_time = 300
264
265 # If Node Manager can't succesfully poll a service for this long,
266 # it will never start or stop compute nodes, on the assumption that its
267 # information is too outdated.
268 poll_stale_after = 600
269
270 # "Node stale time" affects two related behaviors.
271 # 1. If a compute node has been running for at least this long, but it
272 # isn't paired with an Arvados node, do not shut it down, but leave it alone.
273 # This prevents the node manager from shutting down a node that might
274 # actually be doing work, but is having temporary trouble contacting the
275 # API server.
276 # 2. When the Node Manager starts a new compute node, it will try to reuse
277 # an Arvados node that hasn't been updated for this long.
278 node_stale_after = 14400
279
280 # Scaling factor to be applied to nodes' available RAM size. Usually there's a
281 # variable discrepancy between the advertised RAM value on cloud nodes and the
282 # actual amount available.
283 # If not set, this value will be set to 0.95
284 node_mem_scaling = 0.95
285
286 # File path for Certificate Authorities
287 certs_file = /etc/ssl/certs/ca-certificates.crt
288
289 [Logging]
290 # Log file path
291 file = /var/log/arvados/node-manager.log
292
293 # Log level for most Node Manager messages.
294 # Choose one of DEBUG, INFO, WARNING, ERROR, or CRITICAL.
295 # WARNING lets you know when polling a service fails.
296 # INFO additionally lets you know when a compute node is started or stopped.
297 level = INFO
298
299 # You can also set different log levels for specific libraries.
300 # Pykka is the Node Manager's actor library.
301 # Setting this to DEBUG will display tracebacks for uncaught
302 # exceptions in the actors, but it's also very chatty.
303 pykka = WARNING
304
305 # Setting apiclient to INFO will log the URL of every Arvados API request.
306 apiclient = WARNING
307
308 [Arvados]
309 host = zyxwv.arvadosapi.com
310 token = ARVADOS_TOKEN
311 timeout = 15
312
313 # Accept an untrusted SSL certificate from the API server?
314 insecure = no
315
316 [Cloud]
317 provider = gce
318
319 # Shutdown windows define periods of time when a node may and may not
320 # be shut down.  These are windows in full minutes, separated by
321 # commas.  Counting from the time the node is booted, the node WILL
322 # NOT shut down for N1 minutes; then it MAY shut down for N2 minutes;
323 # then it WILL NOT shut down for N3 minutes; and so on.  For example,
324 # "54, 5, 1" means the node may shut down from the 54th to the 59th
325 # minute of each hour of uptime.
326 # GCE bills by the minute, and does not provide information about when
327 # a node booted.  Node Manager will store this information in metadata
328 # when it boots a node; if that information is not available, it will
329 # assume the node booted at the epoch.  These shutdown settings are
330 # very aggressive.  You may want to adjust this if you want more
331 # continuity of service from a single node.
332 shutdown_windows = 20, 999999
333
334 [Cloud Credentials]
335 user_id = client_email_address@developer.gserviceaccount.com
336 key = path_to_certificate.pem
337 project = project-id-from-google-cloud-dashboard
338 timeout = 60
339
340 # Valid location (zone) names: https://cloud.google.com/compute/docs/zones
341 datacenter = us-central1-a
342
343 # Optional settings. For full documentation see
344 # http://libcloud.readthedocs.org/en/latest/compute/drivers/gce.html#libcloud.compute.drivers.gce.GCENodeDriver
345 #
346 # auth_type = SA               # SA, IA or GCE
347 # scopes = https://www.googleapis.com/auth/compute
348 # credential_file =
349
350 [Cloud List]
351 # A comma-separated list of tags that must be applied to a node for it to
352 # be considered a compute node.
353 # The driver will automatically apply these tags to nodes it creates.
354 tags = zyxwv, compute
355
356 [Cloud Create]
357 # New compute nodes will send pings to Arvados at this host.
358 # You may specify a port, and use brackets to disambiguate IPv6 addresses.
359 ping_host = hostname:port
360
361 # A file path for an SSH key that can log in to the compute node.
362 # ssh_key = path
363
364 # The GCE image name and network zone name to use when creating new nodes.
365 image = debian-7
366 # network = your_network_name
367
368 # JSON string of service account authorizations for this cluster.
369 # See http://libcloud.readthedocs.org/en/latest/compute/drivers/gce.html#specifying-service-account-scopes
370 # service_accounts = [{'email':'account@example.com', 'scopes':['storage-ro']}]
371
372
373 # You can define any number of Size sections to list node sizes you're
374 # willing to use.  The Node Manager should boot the cheapest size(s) that
375 # can run jobs in the queue.
376 #
377 # The Size fields are interpreted the same way as with a libcloud NodeSize:
378 # http://libcloud.readthedocs.org/en/latest/compute/api.html#libcloud.compute.base.NodeSize
379 #
380 # See https://cloud.google.com/compute/docs/machine-types for a list
381 # of known machine types that may be used as a Size parameter.
382 #
383 # Each size section MUST define the number of cores are available in this
384 # size class (since libcloud does not provide any consistent API for exposing
385 # this setting).
386 # You may also want to define the amount of scratch space (expressed
387 # in GB) for Crunch jobs.
388 # You can also override Google's provided data fields (such as price per hour)
389 # by setting them here.
390
391 [Size n1-standard-2]
392 cores = 2
393 price = 0.076
394 scratch = 100
395
396 [Size n1-standard-4]
397 cores = 4
398 price = 0.152
399 scratch = 200
400 </pre>
401
402 h3(#azure). Microsoft Azure
403
404 <pre>
405 # Azure configuration for Arvados Node Manager.
406 # All times are in seconds unless specified otherwise.
407
408 [Manage]
409 # The management server responds to http://addr:port/status.json with
410 # a snapshot of internal state.
411
412 # Management server listening address (default 127.0.0.1)
413 #address = 0.0.0.0
414
415 # Management server port number (default -1, server is disabled)
416 #port = 8989
417
418 [Daemon]
419 # The dispatcher can customize the start and stop procedure for
420 # cloud nodes.  For example, the SLURM dispatcher drains nodes
421 # through SLURM before shutting them down.
422 dispatcher = slurm
423
424 # Node Manager will ensure that there are at least this many nodes running at
425 # all times.  If node manager needs to start new idle nodes for the purpose of
426 # satisfying min_nodes, it will use the cheapest node type.  However, depending
427 # on usage patterns, it may also satisfy min_nodes by keeping alive some
428 # more-expensive nodes
429 min_nodes = 0
430
431 # Node Manager will not start any compute nodes when at least this
432 # many are running.
433 max_nodes = 8
434
435 # Upper limit on rate of spending (in $/hr), will not boot additional nodes
436 # if total price of already running nodes meets or exceeds this threshold.
437 # default 0 means no limit.
438 max_total_price = 0
439
440 # Poll Azure nodes and Arvados for new information every N seconds.
441 poll_time = 60
442
443 # Polls have exponential backoff when services fail to respond.
444 # This is the longest time to wait between polls.
445 max_poll_time = 300
446
447 # If Node Manager can't succesfully poll a service for this long,
448 # it will never start or stop compute nodes, on the assumption that its
449 # information is too outdated.
450 poll_stale_after = 600
451
452 # If Node Manager boots a cloud node, and it does not pair with an Arvados
453 # node before this long, assume that there was a cloud bootstrap failure and
454 # shut it down.  Note that normal shutdown windows apply (see the Cloud
455 # section), so this should be shorter than the first shutdown window value.
456 boot_fail_after = 1800
457
458 # "Node stale time" affects two related behaviors.
459 # 1. If a compute node has been running for at least this long, but it
460 # isn't paired with an Arvados node, do not shut it down, but leave it alone.
461 # This prevents the node manager from shutting down a node that might
462 # actually be doing work, but is having temporary trouble contacting the
463 # API server.
464 # 2. When the Node Manager starts a new compute node, it will try to reuse
465 # an Arvados node that hasn't been updated for this long.
466 node_stale_after = 14400
467
468 # Scaling factor to be applied to nodes' available RAM size. Usually there's a
469 # variable discrepancy between the advertised RAM value on cloud nodes and the
470 # actual amount available.
471 # If not set, this value will be set to 0.95
472 node_mem_scaling = 0.95
473
474 # File path for Certificate Authorities
475 certs_file = /etc/ssl/certs/ca-certificates.crt
476
477 [Logging]
478 # Log file path
479 file = /var/log/arvados/node-manager.log
480
481 # Log level for most Node Manager messages.
482 # Choose one of DEBUG, INFO, WARNING, ERROR, or CRITICAL.
483 # WARNING lets you know when polling a service fails.
484 # INFO additionally lets you know when a compute node is started or stopped.
485 level = INFO
486
487 # You can also set different log levels for specific libraries.
488 # Pykka is the Node Manager's actor library.
489 # Setting this to DEBUG will display tracebacks for uncaught
490 # exceptions in the actors, but it's also very chatty.
491 pykka = WARNING
492
493 # Setting apiclient to INFO will log the URL of every Arvados API request.
494 apiclient = WARNING
495
496 [Arvados]
497 host = zyxwv.arvadosapi.com
498 token = ARVADOS_TOKEN
499 timeout = 15
500
501 # Accept an untrusted SSL certificate from the API server?
502 insecure = no
503
504 [Cloud]
505 provider = azure
506
507 # Shutdown windows define periods of time when a node may and may not be shut
508 # down.  These are windows in full minutes, separated by commas.  Counting from
509 # the time the node is booted, the node WILL NOT shut down for N1 minutes; then
510 # it MAY shut down for N2 minutes; then it WILL NOT shut down for N3 minutes;
511 # and so on.  For example, "20, 999999" means the node may shut down between
512 # the 20th and 999999th minutes of uptime.
513 # Azure bills by the minute, so it makes sense to agressively shut down idle
514 # nodes.  Specify at least two windows.  You can add as many as you need beyond
515 # that.
516 shutdown_windows = 20, 999999
517
518 [Cloud Credentials]
519 # Use "azure account list" with the azure CLI to get these values.
520 tenant_id = 00000000-0000-0000-0000-000000000000
521 subscription_id = 00000000-0000-0000-0000-000000000000
522
523 # The following directions are based on
524 # https://azure.microsoft.com/en-us/documentation/articles/resource-group-authenticate-service-principal/
525 #
526 # azure config mode arm
527 # azure ad app create --name "<Your Application Display Name>" --home-page "<https://YourApplicationHomePage>" --identifier-uris "<https://YouApplicationUri>" --password <Your_Password>
528 # azure ad sp create "<Application_Id>"
529 # azure role assignment create --objectId "<Object_Id>" -o Owner -c /subscriptions/{subscriptionId}/
530 #
531 # Use <Application_Id> for "key" and the <Your_Password> for "secret"
532 #
533 key = 00000000-0000-0000-0000-000000000000
534 secret = PASSWORD
535 timeout = 60
536 region = East US
537
538 [Cloud List]
539 # The resource group in which the compute node virtual machines will be created
540 # and listed.
541 ex_resource_group = ArvadosResourceGroup
542
543 [Cloud Create]
544 # The compute node image, as a link to a VHD in Azure blob store.
545 image = https://example.blob.core.windows.net/system/Microsoft.Compute/Images/images/zyxwv-compute-osDisk.vhd
546
547 # Path to a local ssh key file that will be used to provision new nodes.
548 ssh_key = /home/arvadosuser/.ssh/id_rsa.pub
549
550 # The account name for the admin user that will be provisioned on new nodes.
551 ex_user_name = arvadosuser
552
553 # The Azure storage account that will be used to store the node OS disk images.
554 ex_storage_account = arvadosstorage
555
556 # The virtual network the VMs will be associated with.
557 ex_network = ArvadosNetwork
558
559 # Optional subnet of the virtual network.
560 #ex_subnet = default
561
562 # Node tags
563 tag_arvados-class = dynamic-compute
564 tag_cluster = zyxwv
565
566 # the API server to ping
567 ping_host = hostname:port
568
569 # You can define any number of Size sections to list Azure sizes you're willing
570 # to use.  The Node Manager should boot the cheapest size(s) that can run jobs
571 # in the queue.  You must also provide price per hour as the Azure driver
572 # compute currently does not report prices.
573 #
574 # See https://azure.microsoft.com/en-us/pricing/details/virtual-machines/
575 # for a list of known machine types that may be used as a Size parameter.
576 #
577 # Each size section MUST define the number of cores are available in this
578 # size class (since libcloud does not provide any consistent API for exposing
579 # this setting).
580 # You may also want to define the amount of scratch space (expressed
581 # in GB) for Crunch jobs.  You can also override Microsoft's provided
582 # data fields by setting them here.
583
584 [Size Standard_D3]
585 cores = 4
586 price = 0.56
587
588 [Size Standard_D4]
589 cores = 8
590 price = 1.12
591 </pre>
592
593 h2. Running
594
595 <pre>
596 $ arvados-node-manager --config /etc/arvados-node-manager/config.ini
597 </pre>