12614: Detect and report broken node errors.
authorPeter Amstutz <pamstutz@veritasgenetics.com>
Tue, 28 Nov 2017 20:27:50 +0000 (15:27 -0500)
committerPeter Amstutz <pamstutz@veritasgenetics.com>
Tue, 28 Nov 2017 20:27:50 +0000 (15:27 -0500)
commit84bc109580e503b4b8bbb5ddcd5f1d909745141f
tree071de6ad037d3e9a5f3c7d7224f38821e95b2b7c
parent677b58da477a5e70b53b883a56554e18148fed5e
12614: Detect and report broken node errors.

1. crunch-run has an errorBlacklist of messages that mean "this Node probably
   cannot run any container successfully"

2. Upon seeing a blacklisted error, the broken node hook script is run

3. The hook script is responsible for marking the node as "broken, don't
schedule work on it, such as executing scontrol reconfigure Node=XXX State=DOWN

4. After the hook script terminates, if possible the container is reset from Locked
back to Queued state.

5. Then crunch-run can terminate.

Arvados-DCO-1.1-Signed-off-by: Peter Amstutz <pamstutz@veritasgenetics.com>
services/crunch-run/crunchrun.go