fix slow queries in uploadfiles

[arvados.git] / sdk / python / arvados / collection.py
diff --git a/sdk/python/arvados/collection.py b/sdk/python/arvados/collection.py

index 4be098d3511656e42a176b5fe46ea0de83355b10..e390a60a87a0977a018025306252d8f86f2e69cc 100644 (file)
--- a/sdk/python/arvados/collection.py
+++ b/sdk/python/arvados/collection.py
@@ -34,6 +34,8 @@ from arvados.retry import retry_method
  _logger = logging.getLogger('arvados.collection')
  
  class CollectionBase(object):
+    """Abstract base class for Collection classes."""
+
      def __enter__(self):
          return self
  
@@ -91,6 +93,8 @@ class _WriterFile(_FileLikeObjectBase):
  
  
  class CollectionWriter(CollectionBase):
+    """Deprecated, use Collection instead."""
+
      def __init__(self, api_client=None, num_retries=0, replication=None):
          """Instantiate a CollectionWriter.
  
@@ -396,6 +400,8 @@ class CollectionWriter(CollectionBase):
  
  
  class ResumableCollectionWriter(CollectionWriter):
+    """Deprecated, use Collection instead."""
+
      STATE_PROPS = ['_current_stream_files', '_current_stream_length',
                     '_current_stream_locators', '_current_stream_name',
                     '_current_file_name', '_current_file_pos', '_close_file',
@@ -1430,7 +1436,7 @@ class Collection(RichCollectionBase):
      @must_be_writable
      @synchronized
      @retry_method
-    def save(self, merge=True, num_retries=None):
+    def save(self, storage_classes=None, merge=True, num_retries=None):
          """Save collection to an existing collection record.
  
          Commit pending buffer blocks to Keep, merge with remote record (if
@@ -1441,6 +1447,9 @@ class Collection(RichCollectionBase):
          the API server.  If you want to save a manifest to Keep only, see
          `save_new()`.
  
+        :storage_classes:
+          Specify desirable storage classes to be used when writing data to Keep.
+
          :merge:
            Update and merge remote changes before saving.  Otherwise, any
            remote changes will be ignored and overwritten.
@@ -1449,6 +1458,9 @@ class Collection(RichCollectionBase):
            Retry count on API calls (if None,  use the collection default)
  
          """
+        if storage_classes and type(storage_classes) is not list:
+            raise errors.ArgumentError("storage_classes must be list type.")
+
          if not self.committed():
              if not self._has_collection_uuid():
                  raise AssertionError("Collection manifest_locator is not a collection uuid.  Use save_new() for new collections.")
@@ -1459,14 +1471,24 @@ class Collection(RichCollectionBase):
                  self.update()
  
              text = self.manifest_text(strip=False)
+            body={'manifest_text': text}
+            if storage_classes:
+                body["storage_classes_desired"] = storage_classes
+
              self._remember_api_response(self._my_api().collections().update(
                  uuid=self._manifest_locator,
-                body={'manifest_text': text}
+                body=body
                  ).execute(
                      num_retries=num_retries))
              self._manifest_text = self._api_response["manifest_text"]
              self._portable_data_hash = self._api_response["portable_data_hash"]
              self.set_committed(True)
+        elif storage_classes:
+            self._remember_api_response(self._my_api().collections().update(
+                uuid=self._manifest_locator,
+                body={"storage_classes_desired": storage_classes}
+                ).execute(
+                    num_retries=num_retries))
  
          return self._manifest_text
  
@@ -1477,6 +1499,7 @@ class Collection(RichCollectionBase):
      def save_new(self, name=None,
                   create_collection_record=True,
                   owner_uuid=None,
+                 storage_classes=None,
                   ensure_unique_name=False,
                   num_retries=None):
          """Save collection to a new collection record.
@@ -1497,6 +1520,9 @@ class Collection(RichCollectionBase):
            the user, or project uuid that will own this collection.
            If None, defaults to the current user.
  
+        :storage_classes:
+          Specify desirable storage classes to be used when writing data to Keep.
+
          :ensure_unique_name:
            If True, ask the API server to rename the collection
            if it conflicts with a collection with the same name and owner.  If
@@ -1519,6 +1545,10 @@ class Collection(RichCollectionBase):
                      "replication_desired": self.replication_desired}
              if owner_uuid:
                  body["owner_uuid"] = owner_uuid
+            if storage_classes:
+                if type(storage_classes) is not list:
+                    raise errors.ArgumentError("storage_classes must be list type.")
+                body["storage_classes_desired"] = storage_classes
  
              self._remember_api_response(self._my_api().collections().create(ensure_unique_name=ensure_unique_name, body=body).execute(num_retries=num_retries))
              text = self._api_response["manifest_text"]
@@ -1531,6 +1561,10 @@ class Collection(RichCollectionBase):
  
          return text
  
+    _token_re = re.compile(r'(\S+)(\s+|$)')
+    _block_re = re.compile(r'[0-9a-f]{32}\+(\d+)(\+\S+)*')
+    _segment_re = re.compile(r'(\d+):(\d+):(\S+)')
+
      @synchronized
      def _import_manifest(self, manifest_text):
          """Import a manifest into a `Collection`.
@@ -1549,7 +1583,7 @@ class Collection(RichCollectionBase):
          stream_name = None
          state = STREAM_NAME
  
-        for token_and_separator in re.finditer(r'(\S+)(\s+|$)', manifest_text):
+        for token_and_separator in self._token_re.finditer(manifest_text):
              tok = token_and_separator.group(1)
              sep = token_and_separator.group(2)
  
@@ -1564,7 +1598,7 @@ class Collection(RichCollectionBase):
                  continue
  
              if state == BLOCKS:
-                block_locator = re.match(r'[0-9a-f]{32}\+(\d+)(\+\S+)*', tok)
+                block_locator = self._block_re.match(tok)
                  if block_locator:
                      blocksize = int(block_locator.group(1))
                      blocks.append(Range(tok, streamoffset, blocksize, 0))
@@ -1573,7 +1607,7 @@ class Collection(RichCollectionBase):
                      state = SEGMENTS
  
              if state == SEGMENTS:
-                file_segment = re.search(r'^(\d+):(\d+):(\S+)', tok)
+                file_segment = self._segment_re.match(tok)
                  if file_segment:
                      pos = int(file_segment.group(1))
                      size = int(file_segment.group(2))