12085: Counters support for status tracker.

author Lucas Di Pentima <ldipentima@veritasgenetics.com>

Thu, 22 Mar 2018 14:25:46 +0000 (11:25 -0300)

committer Lucas Di Pentima <ldipentima@veritasgenetics.com>

Thu, 5 Apr 2018 14:17:02 +0000 (11:17 -0300)
author Lucas Di Pentima <ldipentima@veritasgenetics.com>
Thu, 22 Mar 2018 14:25:46 +0000 (11:25 -0300)
committer Lucas Di Pentima <ldipentima@veritasgenetics.com>
Thu, 5 Apr 2018 14:17:02 +0000 (11:17 -0300)
diff --git a/services/nodemanager/arvnodeman/baseactor.py b/services/nodemanager/arvnodeman/baseactor.py

index 565db6601f18e68f5f621e0838ee06e051038028..bdfe5d45a7ac444575192b9f1bb95fcadbf18bfe 100644 (file)
--- a/services/nodemanager/arvnodeman/baseactor.py
+++ b/services/nodemanager/arvnodeman/baseactor.py
@@ -14,6 +14,8 @@ import traceback
  
  import pykka
  
+from .status import tracker
+
  class _TellCallableProxy(object):
      """Internal helper class for proxying callables."""
  
@@ -90,6 +92,7 @@ class BaseNodeManagerActor(pykka.ThreadingActor):
              exception_type is OSError and exception_value.errno == errno.ENOMEM):
              lg.critical("Unhandled exception is a fatal error, killing Node Manager")
              self._killfunc(os.getpid(), signal.SIGKILL)
+        tracker.counter_add('actor_exceptions')
  
      def ping(self):
          return True
diff --git a/services/nodemanager/arvnodeman/computenode/__init__.py b/services/nodemanager/arvnodeman/computenode/__init__.py

index 4e46a438dbf1ea04fb066ccdc45b66f4b196ceae..3c04118abe2ec2bb3f5fee4c1a74e078d61119ed 100644 (file)
--- a/services/nodemanager/arvnodeman/computenode/__init__.py
+++ b/services/nodemanager/arvnodeman/computenode/__init__.py
@@ -12,6 +12,7 @@ import re
  import time
  
  from ..config import CLOUD_ERRORS
+from ..status import tracker
  from libcloud.common.exceptions import BaseHTTPError, RateLimitReachedError
  
  ARVADOS_TIMEFMT = '%Y-%m-%dT%H:%M:%SZ'
@@ -101,6 +102,7 @@ class RetryMixin(object):
                          if error.code == 429 or error.code >= 500:
                              should_retry = True
                      except CLOUD_ERRORS as error:
+                        tracker.counter_add('cloud_errors')
                          should_retry = True
                      except errors as error:
                          should_retry = True
@@ -108,9 +110,11 @@ class RetryMixin(object):
                          # As a libcloud workaround for drivers that don't use
                          # typed exceptions, consider bare Exception() objects
                          # retryable.
-                        should_retry = type(error) is Exception
+                        if type(error) is Exception:
+                            tracker.counter_add('cloud_errors')
+                            should_retry = True
                      else:
-                        # No exception,
+                        # No exception
                          self.retry_wait = self.min_retry_wait
                          return ret
  
diff --git a/services/nodemanager/arvnodeman/computenode/driver/__init__.py b/services/nodemanager/arvnodeman/computenode/driver/__init__.py

index 8f881b04e35341a738b19e1d233d0e851166c9db..fb8db517337465a40a83dd53ae9878d419850ca7 100644 (file)
--- a/services/nodemanager/arvnodeman/computenode/driver/__init__.py
+++ b/services/nodemanager/arvnodeman/computenode/driver/__init__.py
@@ -12,6 +12,7 @@ import libcloud.common.types as cloud_types
  from libcloud.compute.base import NodeDriver, NodeAuthSSHKey
  
  from ...config import CLOUD_ERRORS
+from ...status import tracker
  from .. import RetryMixin
  
  class BaseComputeNodeDriver(RetryMixin):
@@ -123,7 +124,11 @@ class BaseComputeNodeDriver(RetryMixin):
      def list_nodes(self, **kwargs):
          l = self.list_kwargs.copy()
          l.update(kwargs)
-        return self.real.list_nodes(**l)
+        try:
+            return self.real.list_nodes(**l)
+        except CLOUD_ERRORS:
+            tracker.counter_add('cloud_errors')
+            raise
  
      def create_cloud_name(self, arvados_node):
          """Return a cloud node name for the given Arvados node record.
@@ -181,6 +186,7 @@ class BaseComputeNodeDriver(RetryMixin):
              try:
                  return self.search_for_now(kwargs['name'], 'list_nodes', self._name_key)
              except ValueError:
+                tracker.counter_add('cloud_errors')
                  raise create_error
  
      def post_create_node(self, cloud_node):
@@ -211,7 +217,7 @@ class BaseComputeNodeDriver(RetryMixin):
      def destroy_node(self, cloud_node):
          try:
              return self.real.destroy_node(cloud_node)
-        except CLOUD_ERRORS as destroy_error:
+        except CLOUD_ERRORS:
              # Sometimes the destroy node request succeeds but times out and
              # raises an exception instead of returning success.  If this
              # happens, we get a noisy stack trace.  Check if the node is still
@@ -223,6 +229,7 @@ class BaseComputeNodeDriver(RetryMixin):
                  # it, which means destroy_node actually succeeded.
                  return True
              # The node is still on the list.  Re-raise.
+            tracker.counter_add('cloud_errors')
              raise
  
      # Now that we've defined all our own methods, delegate generic, public
diff --git a/services/nodemanager/arvnodeman/status.py b/services/nodemanager/arvnodeman/status.py

index 069bf168950ad4c33296876d1044b9eebea2a7a4..f49a6b459ab335f32f22c4f2913dece2c3705675 100644 (file)
--- a/services/nodemanager/arvnodeman/status.py
+++ b/services/nodemanager/arvnodeman/status.py
@@ -26,6 +26,7 @@ class Server(socketserver.ThreadingMixIn, http.server.HTTPServer, object):
              return
          self._config = config
          self._tracker = tracker
+        self._tracker.update({'config_max_nodes': config.getint('Daemon', 'max_nodes')})
          super(Server, self).__init__(
              (config.get('Manage', 'address'), port), Handler)
          self._thread = threading.Thread(target=self.serve_forever)
@@ -75,7 +76,11 @@ class Handler(http.server.BaseHTTPRequestHandler, object):
  class Tracker(object):
      def __init__(self):
          self._mtx = threading.Lock()
-        self._latest = {}
+        self._latest = {
+            'cloud_errors': 0,
+            'boot_failures': 0,
+            'actor_exceptions': 0
+        }
          self._version = {'Version' : __version__}
  
      def get_json(self):
@@ -90,5 +95,9 @@ class Tracker(object):
          with self._mtx:
              self._latest.update(updates)
  
+    def counter_add(self, counter, value=1):
+        with self._mtx:
+            self._latest.setdefault(counter, 0)
+            self._latest[counter] += value
  
  tracker = Tracker()
diff --git a/services/nodemanager/tests/test_status.py b/services/nodemanager/tests/test_status.py

index 23658667a61843147854bd97304107e416c0d568..a3f0d177f7e219095a88abcc37fc9ed50fa0e9f1 100644 (file)
--- a/services/nodemanager/tests/test_status.py
+++ b/services/nodemanager/tests/test_status.py
@@ -57,6 +57,20 @@ class StatusServerUpdates(unittest.TestCase):
                  self.assertEqual(n, resp['nodes_'+str(n)])
              self.assertEqual(1, resp['nodes_1'])
              self.assertIn('Version', resp)
+            self.assertIn('config_max_nodes', resp)
+
+    def test_counters(self):
+        with TestServer() as srv:
+            resp = srv.get_status()
+            # Test initial values
+            for counter in ['cloud_errors', 'boot_failures', 'actor_exceptions']:
+                self.assertIn(counter, resp)
+                self.assertEqual(0, resp[counter])
+            # Test counter increment
+            for count in range(1, 3):
+                status.tracker.counter_add('a_counter')
+                resp = srv.get_status()
+                self.assertEqual(count, resp['a_counter'])
  
  
  class StatusServerDisabled(unittest.TestCase):
author	Lucas Di Pentima <ldipentima@veritasgenetics.com>
	Thu, 22 Mar 2018 14:25:46 +0000 (11:25 -0300)
committer	Lucas Di Pentima <ldipentima@veritasgenetics.com>
	Thu, 5 Apr 2018 14:17:02 +0000 (11:17 -0300)
services/nodemanager/arvnodeman/baseactor.py		patch \| blob \| history
services/nodemanager/arvnodeman/computenode/__init__.py		patch \| blob \| history
services/nodemanager/arvnodeman/computenode/driver/__init__.py		patch \| blob \| history
services/nodemanager/arvnodeman/status.py		patch \| blob \| history
services/nodemanager/tests/test_status.py		patch \| blob \| history