sdk/python/arvados/arvfile.py

   1 import functools
   2 import os
   3 import zlib
   4 import bz2
   5 import config
   6 import hashlib
   7 import threading
   8 import Queue
   9 import copy
  10 import errno
  11 import re
  12 import logging
  13 import collections
  14 import uuid
  15
  16 from .errors import KeepWriteError, AssertionError, ArgumentError
  17 from .keep import KeepLocator
  18 from ._normalize_stream import normalize_stream
  19 from ._ranges import locators_and_ranges, replace_range, Range
  20 from .retry import retry_method
  21
  22 MOD = "mod"
  23 WRITE = "write"
  24
  25 _logger = logging.getLogger('arvados.arvfile')
  26
  27 def split(path):
  28     """split(path) -> streamname, filename
  29
  30     Separate the stream name and file name in a /-separated stream path and
  31     return a tuple (stream_name, file_name).  If no stream name is available,
  32     assume '.'.
  33
  34     """
  35     try:
  36         stream_name, file_name = path.rsplit('/', 1)
  37     except ValueError:  # No / in string
  38         stream_name, file_name = '.', path
  39     return stream_name, file_name
  40
  41 class _FileLikeObjectBase(object):
  42     def __init__(self, name, mode):
  43         self.name = name
  44         self.mode = mode
  45         self.closed = False
  46
  47     @staticmethod
  48     def _before_close(orig_func):
  49         @functools.wraps(orig_func)
  50         def before_close_wrapper(self, *args, **kwargs):
  51             if self.closed:
  52                 raise ValueError("I/O operation on closed stream file")
  53             return orig_func(self, *args, **kwargs)
  54         return before_close_wrapper
  55
  56     def __enter__(self):
  57         return self
  58
  59     def __exit__(self, exc_type, exc_value, traceback):
  60         try:
  61             self.close()
  62         except Exception:
  63             if exc_type is None:
  64                 raise
  65
  66     def close(self):
  67         self.closed = True
  68
  69
  70 class ArvadosFileReaderBase(_FileLikeObjectBase):
  71     def __init__(self, name, mode, num_retries=None):
  72         super(ArvadosFileReaderBase, self).__init__(name, mode)
  73         self._filepos = 0L
  74         self.num_retries = num_retries
  75         self._readline_cache = (None, None)
  76
  77     def __iter__(self):
  78         while True:
  79             data = self.readline()
  80             if not data:
  81                 break
  82             yield data
  83
  84     def decompressed_name(self):
  85         return re.sub('\.(bz2|gz)$', '', self.name)
  86
  87     @_FileLikeObjectBase._before_close
  88     def seek(self, pos, whence=os.SEEK_SET):
  89         if whence == os.SEEK_CUR:
  90             pos += self._filepos
  91         elif whence == os.SEEK_END:
  92             pos += self.size()
  93         self._filepos = min(max(pos, 0L), self.size())
  94
  95     def tell(self):
  96         return self._filepos
  97
  98     @_FileLikeObjectBase._before_close
  99     @retry_method
 100     def readall(self, size=2**20, num_retries=None):
 101         while True:
 102             data = self.read(size, num_retries=num_retries)
 103             if data == '':
 104                 break
 105             yield data
 106
 107     @_FileLikeObjectBase._before_close
 108     @retry_method
 109     def readline(self, size=float('inf'), num_retries=None):
 110         cache_pos, cache_data = self._readline_cache
 111         if self.tell() == cache_pos:
 112             data = [cache_data]
 113             self._filepos += len(cache_data)
 114         else:
 115             data = ['']
 116         data_size = len(data[-1])
 117         while (data_size < size) and ('\n' not in data[-1]):
 118             next_read = self.read(2 ** 20, num_retries=num_retries)
 119             if not next_read:
 120                 break
 121             data.append(next_read)
 122             data_size += len(next_read)
 123         data = ''.join(data)
 124         try:
 125             nextline_index = data.index('\n') + 1
 126         except ValueError:
 127             nextline_index = len(data)
 128         nextline_index = min(nextline_index, size)
 129         self._filepos -= len(data) - nextline_index
 130         self._readline_cache = (self.tell(), data[nextline_index:])
 131         return data[:nextline_index]
 132
 133     @_FileLikeObjectBase._before_close
 134     @retry_method
 135     def decompress(self, decompress, size, num_retries=None):
 136         for segment in self.readall(size, num_retries=num_retries):
 137             data = decompress(segment)
 138             if data:
 139                 yield data
 140
 141     @_FileLikeObjectBase._before_close
 142     @retry_method
 143     def readall_decompressed(self, size=2**20, num_retries=None):
 144         self.seek(0)
 145         if self.name.endswith('.bz2'):
 146             dc = bz2.BZ2Decompressor()
 147             return self.decompress(dc.decompress, size,
 148                                    num_retries=num_retries)
 149         elif self.name.endswith('.gz'):
 150             dc = zlib.decompressobj(16+zlib.MAX_WBITS)
 151             return self.decompress(lambda segment: dc.decompress(dc.unconsumed_tail + segment),
 152                                    size, num_retries=num_retries)
 153         else:
 154             return self.readall(size, num_retries=num_retries)
 155
 156     @_FileLikeObjectBase._before_close
 157     @retry_method
 158     def readlines(self, sizehint=float('inf'), num_retries=None):
 159         data = []
 160         data_size = 0
 161         for s in self.readall(num_retries=num_retries):
 162             data.append(s)
 163             data_size += len(s)
 164             if data_size >= sizehint:
 165                 break
 166         return ''.join(data).splitlines(True)
 167
 168     def size(self):
 169         raise NotImplementedError()
 170
 171     def read(self, size, num_retries=None):
 172         raise NotImplementedError()
 173
 174     def readfrom(self, start, size, num_retries=None):
 175         raise NotImplementedError()
 176
 177
 178 class StreamFileReader(ArvadosFileReaderBase):
 179     class _NameAttribute(str):
 180         # The Python file API provides a plain .name attribute.
 181         # Older SDK provided a name() method.
 182         # This class provides both, for maximum compatibility.
 183         def __call__(self):
 184             return self
 185
 186     def __init__(self, stream, segments, name):
 187         super(StreamFileReader, self).__init__(self._NameAttribute(name), 'rb', num_retries=stream.num_retries)
 188         self._stream = stream
 189         self.segments = segments
 190
 191     def stream_name(self):
 192         return self._stream.name()
 193
 194     def size(self):
 195         n = self.segments[-1]
 196         return n.range_start + n.range_size
 197
 198     @_FileLikeObjectBase._before_close
 199     @retry_method
 200     def read(self, size, num_retries=None):
 201         """Read up to 'size' bytes from the stream, starting at the current file position"""
 202         if size == 0:
 203             return ''
 204
 205         data = ''
 206         available_chunks = locators_and_ranges(self.segments, self._filepos, size)
 207         if available_chunks:
 208             lr = available_chunks[0]
 209             data = self._stream.readfrom(lr.locator+lr.segment_offset,
 210                                           lr.segment_size,
 211                                           num_retries=num_retries)
 212
 213         self._filepos += len(data)
 214         return data
 215
 216     @_FileLikeObjectBase._before_close
 217     @retry_method
 218     def readfrom(self, start, size, num_retries=None):
 219         """Read up to 'size' bytes from the stream, starting at 'start'"""
 220         if size == 0:
 221             return ''
 222
 223         data = []
 224         for lr in locators_and_ranges(self.segments, start, size):
 225             data.append(self._stream.readfrom(lr.locator+lr.segment_offset, lr.segment_size,
 226                                               num_retries=num_retries))
 227         return ''.join(data)
 228
 229     def as_manifest(self):
 230         segs = []
 231         for r in self.segments:
 232             segs.extend(self._stream.locators_and_ranges(r.locator, r.range_size))
 233         return " ".join(normalize_stream(".", {self.name: segs})) + "\n"
 234
 235
 236 def synchronized(orig_func):
 237     @functools.wraps(orig_func)
 238     def synchronized_wrapper(self, *args, **kwargs):
 239         with self.lock:
 240             return orig_func(self, *args, **kwargs)
 241     return synchronized_wrapper
 242
 243
 244 class StateChangeError(Exception):
 245     def __init__(self, message, state, nextstate):
 246         super(StateChangeError, self).__init__(message)
 247         self.state = state
 248         self.nextstate = nextstate
 249
 250 class _BufferBlock(object):
 251     """A stand-in for a Keep block that is in the process of being written.
 252
 253     Writers can append to it, get the size, and compute the Keep locator.
 254     There are three valid states:
 255
 256     WRITABLE
 257       Can append to block.
 258
 259     PENDING
 260       Block is in the process of being uploaded to Keep, append is an error.
 261
 262     COMMITTED
 263       The block has been written to Keep, its internal buffer has been
 264       released, fetching the block will fetch it via keep client (since we
 265       discarded the internal copy), and identifiers referring to the BufferBlock
 266       can be replaced with the block locator.
 267
 268     """
 269
 270     WRITABLE = 0
 271     PENDING = 1
 272     COMMITTED = 2
 273     ERROR = 3
 274
 275     def __init__(self, blockid, starting_capacity, owner):
 276         """
 277         :blockid:
 278           the identifier for this block
 279
 280         :starting_capacity:
 281           the initial buffer capacity
 282
 283         :owner:
 284           ArvadosFile that owns this block
 285
 286         """
 287         self.blockid = blockid
 288         self.buffer_block = bytearray(starting_capacity)
 289         self.buffer_view = memoryview(self.buffer_block)
 290         self.write_pointer = 0
 291         self._state = _BufferBlock.WRITABLE
 292         self._locator = None
 293         self.owner = owner
 294         self.lock = threading.Lock()
 295         self.wait_for_commit = threading.Event()
 296         self.error = None
 297
 298     @synchronized
 299     def append(self, data):
 300         """Append some data to the buffer.
 301
 302         Only valid if the block is in WRITABLE state.  Implements an expanding
 303         buffer, doubling capacity as needed to accomdate all the data.
 304
 305         """
 306         if self._state == _BufferBlock.WRITABLE:
 307             while (self.write_pointer+len(data)) > len(self.buffer_block):
 308                 new_buffer_block = bytearray(len(self.buffer_block) * 2)
 309                 new_buffer_block[0:self.write_pointer] = self.buffer_block[0:self.write_pointer]
 310                 self.buffer_block = new_buffer_block
 311                 self.buffer_view = memoryview(self.buffer_block)
 312             self.buffer_view[self.write_pointer:self.write_pointer+len(data)] = data
 313             self.write_pointer += len(data)
 314             self._locator = None
 315         else:
 316             raise AssertionError("Buffer block is not writable")
 317
 318     STATE_TRANSITIONS = frozenset([
 319             (WRITABLE, PENDING),
 320             (PENDING, COMMITTED),
 321             (PENDING, ERROR),
 322             (ERROR, PENDING)])
 323
 324     @synchronized
 325     def set_state(self, nextstate, val=None):
 326         if (self._state, nextstate) not in self.STATE_TRANSITIONS:
 327             raise StateChangeError("Invalid state change from %s to %s" % (self._state, nextstate), self._state, nextstate)
 328         self._state = nextstate
 329
 330         if self._state == _BufferBlock.PENDING:
 331             self.wait_for_commit.clear()
 332
 333         if self._state == _BufferBlock.COMMITTED:
 334             self._locator = val
 335             self.buffer_view = None
 336             self.buffer_block = None
 337             self.wait_for_commit.set()
 338
 339         if self._state == _BufferBlock.ERROR:
 340             self.error = val
 341             self.wait_for_commit.set()
 342
 343     @synchronized
 344     def state(self):
 345         return self._state
 346
 347     def size(self):
 348         """The amount of data written to the buffer."""
 349         return self.write_pointer
 350
 351     @synchronized
 352     def locator(self):
 353         """The Keep locator for this buffer's contents."""
 354         if self._locator is None:
 355             self._locator = "%s+%i" % (hashlib.md5(self.buffer_view[0:self.write_pointer]).hexdigest(), self.size())
 356         return self._locator
 357
 358     @synchronized
 359     def clone(self, new_blockid, owner):
 360         if self._state == _BufferBlock.COMMITTED:
 361             raise AssertionError("Cannot duplicate committed buffer block")
 362         bufferblock = _BufferBlock(new_blockid, self.size(), owner)
 363         bufferblock.append(self.buffer_view[0:self.size()])
 364         return bufferblock
 365
 366     @synchronized
 367     def clear(self):
 368         self.owner = None
 369         self.buffer_block = None
 370         self.buffer_view = None
 371
 372
 373 class NoopLock(object):
 374     def __enter__(self):
 375         return self
 376
 377     def __exit__(self, exc_type, exc_value, traceback):
 378         pass
 379
 380     def acquire(self, blocking=False):
 381         pass
 382
 383     def release(self):
 384         pass
 385
 386
 387 def must_be_writable(orig_func):
 388     @functools.wraps(orig_func)
 389     def must_be_writable_wrapper(self, *args, **kwargs):
 390         if not self.writable():
 391             raise IOError(errno.EROFS, "Collection is read-only.")
 392         return orig_func(self, *args, **kwargs)
 393     return must_be_writable_wrapper
 394
 395
 396 class _BlockManager(object):
 397     """BlockManager handles buffer blocks.
 398
 399     Also handles background block uploads, and background block prefetch for a
 400     Collection of ArvadosFiles.
 401
 402     """
 403
 404     DEFAULT_PUT_THREADS = 2
 405     DEFAULT_GET_THREADS = 2
 406
 407     def __init__(self, keep, copies=None):
 408         """keep: KeepClient object to use"""
 409         self._keep = keep
 410         self._bufferblocks = collections.OrderedDict()
 411         self._put_queue = None
 412         self._put_threads = None
 413         self._prefetch_queue = None
 414         self._prefetch_threads = None
 415         self.lock = threading.Lock()
 416         self.prefetch_enabled = True
 417         self.num_put_threads = _BlockManager.DEFAULT_PUT_THREADS
 418         self.num_get_threads = _BlockManager.DEFAULT_GET_THREADS
 419         self.copies = copies
 420         self._pending_write_size = 0
 421         self.threads_lock = threading.Lock()
 422
 423     @synchronized
 424     def alloc_bufferblock(self, blockid=None, starting_capacity=2**14, owner=None):
 425         """Allocate a new, empty bufferblock in WRITABLE state and return it.
 426
 427         :blockid:
 428           optional block identifier, otherwise one will be automatically assigned
 429
 430         :starting_capacity:
 431           optional capacity, otherwise will use default capacity
 432
 433         :owner:
 434           ArvadosFile that owns this block
 435
 436         """
 437         return self._alloc_bufferblock(blockid, starting_capacity, owner)
 438
 439     def _alloc_bufferblock(self, blockid=None, starting_capacity=2**14, owner=None):
 440         if blockid is None:
 441             blockid = "%s" % uuid.uuid4()
 442         bufferblock = _BufferBlock(blockid, starting_capacity=starting_capacity, owner=owner)
 443         self._bufferblocks[bufferblock.blockid] = bufferblock
 444         return bufferblock
 445
 446     @synchronized
 447     def dup_block(self, block, owner):
 448         """Create a new bufferblock initialized with the content of an existing bufferblock.
 449
 450         :block:
 451           the buffer block to copy.
 452
 453         :owner:
 454           ArvadosFile that owns the new block
 455
 456         """
 457         new_blockid = "bufferblock%i" % len(self._bufferblocks)
 458         bufferblock = block.clone(new_blockid, owner)
 459         self._bufferblocks[bufferblock.blockid] = bufferblock
 460         return bufferblock
 461
 462     @synchronized
 463     def is_bufferblock(self, locator):
 464         return locator in self._bufferblocks
 465
 466     def _commit_bufferblock_worker(self):
 467         """Background uploader thread."""
 468
 469         while True:
 470             try:
 471                 bufferblock = self._put_queue.get()
 472                 if bufferblock is None:
 473                     return
 474
 475                 if self.copies is None:
 476                     loc = self._keep.put(bufferblock.buffer_view[0:bufferblock.write_pointer].tobytes())
 477                 else:
 478                     loc = self._keep.put(bufferblock.buffer_view[0:bufferblock.write_pointer].tobytes(), copies=self.copies)
 479                 bufferblock.set_state(_BufferBlock.COMMITTED, loc)
 480
 481             except Exception as e:
 482                 bufferblock.set_state(_BufferBlock.ERROR, e)
 483             finally:
 484                 if self._put_queue is not None:
 485                     self._put_queue.task_done()
 486
 487     def start_put_threads(self):
 488         with self.threads_lock:
 489             if self._put_threads is None:
 490                 # Start uploader threads.
 491
 492                 # If we don't limit the Queue size, the upload queue can quickly
 493                 # grow to take up gigabytes of RAM if the writing process is
 494                 # generating data more quickly than it can be send to the Keep
 495                 # servers.
 496                 #
 497                 # With two upload threads and a queue size of 2, this means up to 4
 498                 # blocks pending.  If they are full 64 MiB blocks, that means up to
 499                 # 256 MiB of internal buffering, which is the same size as the
 500                 # default download block cache in KeepClient.
 501                 self._put_queue = Queue.Queue(maxsize=2)
 502
 503                 self._put_threads = []
 504                 for i in xrange(0, self.num_put_threads):
 505                     thread = threading.Thread(target=self._commit_bufferblock_worker)
 506                     self._put_threads.append(thread)
 507                     thread.daemon = True
 508                     thread.start()
 509
 510     def _block_prefetch_worker(self):
 511         """The background downloader thread."""
 512         while True:
 513             try:
 514                 b = self._prefetch_queue.get()
 515                 if b is None:
 516                     return
 517                 self._keep.get(b)
 518             except Exception:
 519                 pass
 520
 521     @synchronized
 522     def start_get_threads(self):
 523         if self._prefetch_threads is None:
 524             self._prefetch_queue = Queue.Queue()
 525             self._prefetch_threads = []
 526             for i in xrange(0, self.num_get_threads):
 527                 thread = threading.Thread(target=self._block_prefetch_worker)
 528                 self._prefetch_threads.append(thread)
 529                 thread.daemon = True
 530                 thread.start()
 531
 532
 533     @synchronized
 534     def stop_threads(self):
 535         """Shut down and wait for background upload and download threads to finish."""
 536
 537         if self._put_threads is not None:
 538             for t in self._put_threads:
 539                 self._put_queue.put(None)
 540             for t in self._put_threads:
 541                 t.join()
 542         self._put_threads = None
 543         self._put_queue = None
 544
 545         if self._prefetch_threads is not None:
 546             for t in self._prefetch_threads:
 547                 self._prefetch_queue.put(None)
 548             for t in self._prefetch_threads:
 549                 t.join()
 550         self._prefetch_threads = None
 551         self._prefetch_queue = None
 552
 553     def __enter__(self):
 554         return self
 555
 556     def __exit__(self, exc_type, exc_value, traceback):
 557         self.stop_threads()
 558
 559     @synchronized
 560     def repack_small_blocks(self, force=False, sync=False, closed_file_size=0):
 561         """Packs small blocks together before uploading"""
 562         self._pending_write_size += closed_file_size
 563
 564         # Check if there are enough small blocks for filling up one in full
 565         if force or (self._pending_write_size >= config.KEEP_BLOCK_SIZE):
 566
 567             # Search blocks ready for getting packed together before being committed to Keep.
 568             # A WRITABLE block always has an owner.
 569             # A WRITABLE block with its owner.closed() implies that it's
 570             # size is <= KEEP_BLOCK_SIZE/2.
 571             small_blocks = [b for b in self._bufferblocks.values() if b.state() == _BufferBlock.WRITABLE and b.owner.closed()]
 572
 573             if len(small_blocks) <= 1:
 574                 # Not enough small blocks for repacking
 575                 return
 576
 577             # Update the pending write size count with its true value, just in case
 578             # some small file was opened, written and closed several times.
 579             if not force:
 580                 self._pending_write_size = sum([b.size() for b in small_blocks])
 581                 if self._pending_write_size < config.KEEP_BLOCK_SIZE:
 582                     return
 583
 584             new_bb = self._alloc_bufferblock()
 585             while len(small_blocks) > 0 and (new_bb.write_pointer + small_blocks[0].size()) <= config.KEEP_BLOCK_SIZE:
 586                 bb = small_blocks.pop(0)
 587                 arvfile = bb.owner
 588                 self._pending_write_size -= bb.size()
 589                 new_bb.append(bb.buffer_view[0:bb.write_pointer].tobytes())
 590                 arvfile.set_segments([Range(new_bb.blockid,
 591                                             0,
 592                                             bb.size(),
 593                                             new_bb.write_pointer - bb.size())])
 594                 self._delete_bufferblock(bb.blockid)
 595             self.commit_bufferblock(new_bb, sync=sync)
 596
 597     def commit_bufferblock(self, block, sync):
 598         """Initiate a background upload of a bufferblock.
 599
 600         :block:
 601           The block object to upload
 602
 603         :sync:
 604           If `sync` is True, upload the block synchronously.
 605           If `sync` is False, upload the block asynchronously.  This will
 606           return immediately unless the upload queue is at capacity, in
 607           which case it will wait on an upload queue slot.
 608
 609         """
 610         try:
 611             # Mark the block as PENDING so to disallow any more appends.
 612             block.set_state(_BufferBlock.PENDING)
 613         except StateChangeError as e:
 614             if e.state == _BufferBlock.PENDING:
 615                 if sync:
 616                     block.wait_for_commit.wait()
 617                 else:
 618                     return
 619             if block.state() == _BufferBlock.COMMITTED:
 620                 return
 621             elif block.state() == _BufferBlock.ERROR:
 622                 raise block.error
 623             else:
 624                 raise
 625
 626         if sync:
 627             try:
 628                 if self.copies is None:
 629                     loc = self._keep.put(block.buffer_view[0:block.write_pointer].tobytes())
 630                 else:
 631                     loc = self._keep.put(block.buffer_view[0:block.write_pointer].tobytes(), copies=self.copies)
 632                 block.set_state(_BufferBlock.COMMITTED, loc)
 633             except Exception as e:
 634                 block.set_state(_BufferBlock.ERROR, e)
 635                 raise
 636         else:
 637             self.start_put_threads()
 638             self._put_queue.put(block)
 639
 640     @synchronized
 641     def get_bufferblock(self, locator):
 642         return self._bufferblocks.get(locator)
 643
 644     @synchronized
 645     def delete_bufferblock(self, locator):
 646         self._delete_bufferblock(locator)
 647
 648     def _delete_bufferblock(self, locator):
 649         bb = self._bufferblocks[locator]
 650         bb.clear()
 651         del self._bufferblocks[locator]
 652
 653     def get_block_contents(self, locator, num_retries, cache_only=False):
 654         """Fetch a block.
 655
 656         First checks to see if the locator is a BufferBlock and return that, if
 657         not, passes the request through to KeepClient.get().
 658
 659         """
 660         with self.lock:
 661             if locator in self._bufferblocks:
 662                 bufferblock = self._bufferblocks[locator]
 663                 if bufferblock.state() != _BufferBlock.COMMITTED:
 664                     return bufferblock.buffer_view[0:bufferblock.write_pointer].tobytes()
 665                 else:
 666                     locator = bufferblock._locator
 667         if cache_only:
 668             return self._keep.get_from_cache(locator)
 669         else:
 670             return self._keep.get(locator, num_retries=num_retries)
 671
 672     def commit_all(self):
 673         """Commit all outstanding buffer blocks.
 674
 675         This is a synchronous call, and will not return until all buffer blocks
 676         are uploaded.  Raises KeepWriteError() if any blocks failed to upload.
 677
 678         """
 679         self.repack_small_blocks(force=True, sync=True)
 680
 681         with self.lock:
 682             items = self._bufferblocks.items()
 683
 684         for k,v in items:
 685             if v.state() != _BufferBlock.COMMITTED and v.owner:
 686                 v.owner.flush(sync=False)
 687
 688         with self.lock:
 689             if self._put_queue is not None:
 690                 self._put_queue.join()
 691
 692                 err = []
 693                 for k,v in items:
 694                     if v.state() == _BufferBlock.ERROR:
 695                         err.append((v.locator(), v.error))
 696                 if err:
 697                     raise KeepWriteError("Error writing some blocks", err, label="block")
 698
 699         for k,v in items:
 700             # flush again with sync=True to remove committed bufferblocks from
 701             # the segments.
 702             if v.owner:
 703                 v.owner.flush(sync=True)
 704
 705     def block_prefetch(self, locator):
 706         """Initiate a background download of a block.
 707
 708         This assumes that the underlying KeepClient implements a block cache,
 709         so repeated requests for the same block will not result in repeated
 710         downloads (unless the block is evicted from the cache.)  This method
 711         does not block.
 712
 713         """
 714
 715         if not self.prefetch_enabled:
 716             return
 717
 718         if self._keep.get_from_cache(locator) is not None:
 719             return
 720
 721         with self.lock:
 722             if locator in self._bufferblocks:
 723                 return
 724
 725         self.start_get_threads()
 726         self._prefetch_queue.put(locator)
 727
 728
 729 class ArvadosFile(object):
 730     """Represent a file in a Collection.
 731
 732     ArvadosFile manages the underlying representation of a file in Keep as a
 733     sequence of segments spanning a set of blocks, and implements random
 734     read/write access.
 735
 736     This object may be accessed from multiple threads.
 737
 738     """
 739
 740     def __init__(self, parent, name, stream=[], segments=[]):
 741         """
 742         ArvadosFile constructor.
 743
 744         :stream:
 745           a list of Range objects representing a block stream
 746
 747         :segments:
 748           a list of Range objects representing segments
 749         """
 750         self.parent = parent
 751         self.name = name
 752         self._writers = set()
 753         self._committed = False
 754         self._segments = []
 755         self.lock = parent.root_collection().lock
 756         for s in segments:
 757             self._add_segment(stream, s.locator, s.range_size)
 758         self._current_bblock = None
 759
 760     def writable(self):
 761         return self.parent.writable()
 762
 763     @synchronized
 764     def segments(self):
 765         return copy.copy(self._segments)
 766
 767     @synchronized
 768     def clone(self, new_parent, new_name):
 769         """Make a copy of this file."""
 770         cp = ArvadosFile(new_parent, new_name)
 771         cp.replace_contents(self)
 772         return cp
 773
 774     @must_be_writable
 775     @synchronized
 776     def replace_contents(self, other):
 777         """Replace segments of this file with segments from another `ArvadosFile` object."""
 778
 779         map_loc = {}
 780         self._segments = []
 781         for other_segment in other.segments():
 782             new_loc = other_segment.locator
 783             if other.parent._my_block_manager().is_bufferblock(other_segment.locator):
 784                 if other_segment.locator not in map_loc:
 785                     bufferblock = other.parent._my_block_manager().get_bufferblock(other_segment.locator)
 786                     if bufferblock.state() != _BufferBlock.WRITABLE:
 787                         map_loc[other_segment.locator] = bufferblock.locator()
 788                     else:
 789                         map_loc[other_segment.locator] = self.parent._my_block_manager().dup_block(bufferblock, self).blockid
 790                 new_loc = map_loc[other_segment.locator]
 791
 792             self._segments.append(Range(new_loc, other_segment.range_start, other_segment.range_size, other_segment.segment_offset))
 793
 794         self._committed = False
 795
 796     def __eq__(self, other):
 797         if other is self:
 798             return True
 799         if not isinstance(other, ArvadosFile):
 800             return False
 801
 802         othersegs = other.segments()
 803         with self.lock:
 804             if len(self._segments) != len(othersegs):
 805                 return False
 806             for i in xrange(0, len(othersegs)):
 807                 seg1 = self._segments[i]
 808                 seg2 = othersegs[i]
 809                 loc1 = seg1.locator
 810                 loc2 = seg2.locator
 811
 812                 if self.parent._my_block_manager().is_bufferblock(loc1):
 813                     loc1 = self.parent._my_block_manager().get_bufferblock(loc1).locator()
 814
 815                 if other.parent._my_block_manager().is_bufferblock(loc2):
 816                     loc2 = other.parent._my_block_manager().get_bufferblock(loc2).locator()
 817
 818                 if (KeepLocator(loc1).stripped() != KeepLocator(loc2).stripped() or
 819                     seg1.range_start != seg2.range_start or
 820                     seg1.range_size != seg2.range_size or
 821                     seg1.segment_offset != seg2.segment_offset):
 822                     return False
 823
 824         return True
 825
 826     def __ne__(self, other):
 827         return not self.__eq__(other)
 828
 829     @synchronized
 830     def set_segments(self, segs):
 831         self._segments = segs
 832
 833     @synchronized
 834     def set_committed(self):
 835         """Set committed flag to True"""
 836         self._committed = True
 837
 838     @synchronized
 839     def committed(self):
 840         """Get whether this is committed or not."""
 841         return self._committed
 842
 843     @synchronized
 844     def add_writer(self, writer):
 845         """Add an ArvadosFileWriter reference to the list of writers"""
 846         if isinstance(writer, ArvadosFileWriter):
 847             self._writers.add(writer)
 848
 849     @synchronized
 850     def remove_writer(self, writer, flush):
 851         """
 852         Called from ArvadosFileWriter.close(). Remove a writer reference from the list
 853         and do some block maintenance tasks.
 854         """
 855         self._writers.remove(writer)
 856
 857         if flush or self.size() > config.KEEP_BLOCK_SIZE / 2:
 858             # File writer closed, not small enough for repacking
 859             self.flush()
 860         elif self.closed():
 861             # All writers closed and size is adequate for repacking
 862             self.parent._my_block_manager().repack_small_blocks(closed_file_size=self.size())
 863
 864     def closed(self):
 865         """
 866         Get whether this is closed or not. When the writers list is empty, the file
 867         is supposed to be closed.
 868         """
 869         return len(self._writers) == 0
 870
 871     @must_be_writable
 872     @synchronized
 873     def truncate(self, size):
 874         """Shrink the size of the file.
 875
 876         If `size` is less than the size of the file, the file contents after
 877         `size` will be discarded.  If `size` is greater than the current size
 878         of the file, an IOError will be raised.
 879
 880         """
 881         if size < self.size():
 882             new_segs = []
 883             for r in self._segments:
 884                 range_end = r.range_start+r.range_size
 885                 if r.range_start >= size:
 886                     # segment is past the trucate size, all done
 887                     break
 888                 elif size < range_end:
 889                     nr = Range(r.locator, r.range_start, size - r.range_start, 0)
 890                     nr.segment_offset = r.segment_offset
 891                     new_segs.append(nr)
 892                     break
 893                 else:
 894                     new_segs.append(r)
 895
 896             self._segments = new_segs
 897             self._committed = False
 898         elif size > self.size():
 899             raise IOError(errno.EINVAL, "truncate() does not support extending the file size")
 900
 901     def readfrom(self, offset, size, num_retries, exact=False):
 902         """Read up to `size` bytes from the file starting at `offset`.
 903
 904         :exact:
 905          If False (default), return less data than requested if the read
 906          crosses a block boundary and the next block isn't cached.  If True,
 907          only return less data than requested when hitting EOF.
 908         """
 909
 910         with self.lock:
 911             if size == 0 or offset >= self.size():
 912                 return ''
 913             readsegs = locators_and_ranges(self._segments, offset, size)
 914             prefetch = locators_and_ranges(self._segments, offset + size, config.KEEP_BLOCK_SIZE, limit=32)
 915
 916         locs = set()
 917         data = []
 918         for lr in readsegs:
 919             block = self.parent._my_block_manager().get_block_contents(lr.locator, num_retries=num_retries, cache_only=(bool(data) and not exact))
 920             if block:
 921                 blockview = memoryview(block)
 922                 data.append(blockview[lr.segment_offset:lr.segment_offset+lr.segment_size].tobytes())
 923                 locs.add(lr.locator)
 924             else:
 925                 break
 926
 927         for lr in prefetch:
 928             if lr.locator not in locs:
 929                 self.parent._my_block_manager().block_prefetch(lr.locator)
 930                 locs.add(lr.locator)
 931
 932         return ''.join(data)
 933
 934     def _repack_writes(self, num_retries):
 935         """Test if the buffer block has more data than actual segments.
 936
 937         This happens when a buffered write over-writes a file range written in
 938         a previous buffered write.  Re-pack the buffer block for efficiency
 939         and to avoid leaking information.
 940
 941         """
 942         segs = self._segments
 943
 944         # Sum up the segments to get the total bytes of the file referencing
 945         # into the buffer block.
 946         bufferblock_segs = [s for s in segs if s.locator == self._current_bblock.blockid]
 947         write_total = sum([s.range_size for s in bufferblock_segs])
 948
 949         if write_total < self._current_bblock.size():
 950             # There is more data in the buffer block than is actually accounted for by segments, so
 951             # re-pack into a new buffer by copying over to a new buffer block.
 952             contents = self.parent._my_block_manager().get_block_contents(self._current_bblock.blockid, num_retries)
 953             new_bb = self.parent._my_block_manager().alloc_bufferblock(self._current_bblock.blockid, starting_capacity=write_total, owner=self)
 954             for t in bufferblock_segs:
 955                 new_bb.append(contents[t.segment_offset:t.segment_offset+t.range_size])
 956                 t.segment_offset = new_bb.size() - t.range_size
 957
 958             self._current_bblock = new_bb
 959
 960     @must_be_writable
 961     @synchronized
 962     def writeto(self, offset, data, num_retries):
 963         """Write `data` to the file starting at `offset`.
 964
 965         This will update existing bytes and/or extend the size of the file as
 966         necessary.
 967
 968         """
 969         if len(data) == 0:
 970             return
 971
 972         if offset > self.size():
 973             raise ArgumentError("Offset is past the end of the file")
 974
 975         if len(data) > config.KEEP_BLOCK_SIZE:
 976             # Chunk it up into smaller writes
 977             n = 0
 978             dataview = memoryview(data)
 979             while n < len(data):
 980                 self.writeto(offset+n, dataview[n:n + config.KEEP_BLOCK_SIZE].tobytes(), num_retries)
 981                 n += config.KEEP_BLOCK_SIZE
 982             return
 983
 984         self._committed = False
 985
 986         if self._current_bblock is None or self._current_bblock.state() != _BufferBlock.WRITABLE:
 987             self._current_bblock = self.parent._my_block_manager().alloc_bufferblock(owner=self)
 988
 989         if (self._current_bblock.size() + len(data)) > config.KEEP_BLOCK_SIZE:
 990             self._repack_writes(num_retries)
 991             if (self._current_bblock.size() + len(data)) > config.KEEP_BLOCK_SIZE:
 992                 self.parent._my_block_manager().commit_bufferblock(self._current_bblock, sync=False)
 993                 self._current_bblock = self.parent._my_block_manager().alloc_bufferblock(owner=self)
 994
 995         self._current_bblock.append(data)
 996
 997         replace_range(self._segments, offset, len(data), self._current_bblock.blockid, self._current_bblock.write_pointer - len(data))
 998
 999         self.parent.notify(WRITE, self.parent, self.name, (self, self))
1000
1001         return len(data)
1002
1003     @synchronized
1004     def flush(self, sync=True, num_retries=0):
1005         """Flush the current bufferblock to Keep.
1006
1007         :sync:
1008           If True, commit block synchronously, wait until buffer block has been written.
1009           If False, commit block asynchronously, return immediately after putting block into
1010           the keep put queue.
1011         """
1012         if self.committed():
1013             return
1014
1015         if self._current_bblock and self._current_bblock.state() != _BufferBlock.COMMITTED:
1016             if self._current_bblock.state() == _BufferBlock.WRITABLE:
1017                 self._repack_writes(num_retries)
1018             self.parent._my_block_manager().commit_bufferblock(self._current_bblock, sync=sync)
1019
1020         if sync:
1021             to_delete = set()
1022             for s in self._segments:
1023                 bb = self.parent._my_block_manager().get_bufferblock(s.locator)
1024                 if bb:
1025                     if bb.state() != _BufferBlock.COMMITTED:
1026                         self.parent._my_block_manager().commit_bufferblock(bb, sync=True)
1027                     to_delete.add(s.locator)
1028                     s.locator = bb.locator()
1029             for s in to_delete:
1030                self.parent._my_block_manager().delete_bufferblock(s)
1031
1032         self.parent.notify(MOD, self.parent, self.name, (self, self))
1033
1034     @must_be_writable
1035     @synchronized
1036     def add_segment(self, blocks, pos, size):
1037         """Add a segment to the end of the file.
1038
1039         `pos` and `offset` reference a section of the stream described by
1040         `blocks` (a list of Range objects)
1041
1042         """
1043         self._add_segment(blocks, pos, size)
1044
1045     def _add_segment(self, blocks, pos, size):
1046         """Internal implementation of add_segment."""
1047         self._committed = False
1048         for lr in locators_and_ranges(blocks, pos, size):
1049             last = self._segments[-1] if self._segments else Range(0, 0, 0, 0)
1050             r = Range(lr.locator, last.range_start+last.range_size, lr.segment_size, lr.segment_offset)
1051             self._segments.append(r)
1052
1053     @synchronized
1054     def size(self):
1055         """Get the file size."""
1056         if self._segments:
1057             n = self._segments[-1]
1058             return n.range_start + n.range_size
1059         else:
1060             return 0
1061
1062     @synchronized
1063     def manifest_text(self, stream_name=".", portable_locators=False, normalize=False):
1064         buf = ""
1065         filestream = []
1066         for segment in self.segments:
1067             loc = segment.locator
1068             if loc.startswith("bufferblock"):
1069                 loc = self._bufferblocks[loc].calculate_locator()
1070             if portable_locators:
1071                 loc = KeepLocator(loc).stripped()
1072             filestream.append(LocatorAndRange(loc, locator_block_size(loc),
1073                                  segment.segment_offset, segment.range_size))
1074         buf += ' '.join(normalize_stream(stream_name, {stream_name: filestream}))
1075         buf += "\n"
1076         return buf
1077
1078     @must_be_writable
1079     @synchronized
1080     def _reparent(self, newparent, newname):
1081         self._committed = False
1082         self.flush(sync=True)
1083         self.parent.remove(self.name)
1084         self.parent = newparent
1085         self.name = newname
1086         self.lock = self.parent.root_collection().lock
1087
1088
1089 class ArvadosFileReader(ArvadosFileReaderBase):
1090     """Wraps ArvadosFile in a file-like object supporting reading only.
1091
1092     Be aware that this class is NOT thread safe as there is no locking around
1093     updating file pointer.
1094
1095     """
1096
1097     def __init__(self, arvadosfile, num_retries=None):
1098         super(ArvadosFileReader, self).__init__(arvadosfile.name, "r", num_retries=num_retries)
1099         self.arvadosfile = arvadosfile
1100
1101     def size(self):
1102         return self.arvadosfile.size()
1103
1104     def stream_name(self):
1105         return self.arvadosfile.parent.stream_name()
1106
1107     @_FileLikeObjectBase._before_close
1108     @retry_method
1109     def read(self, size=None, num_retries=None):
1110         """Read up to `size` bytes from the file and return the result.
1111
1112         Starts at the current file position.  If `size` is None, read the
1113         entire remainder of the file.
1114         """
1115         if size is None:
1116             data = []
1117             rd = self.arvadosfile.readfrom(self._filepos, config.KEEP_BLOCK_SIZE, num_retries)
1118             while rd:
1119                 data.append(rd)
1120                 self._filepos += len(rd)
1121                 rd = self.arvadosfile.readfrom(self._filepos, config.KEEP_BLOCK_SIZE, num_retries)
1122             return ''.join(data)
1123         else:
1124             data = self.arvadosfile.readfrom(self._filepos, size, num_retries, exact=True)
1125             self._filepos += len(data)
1126             return data
1127
1128     @_FileLikeObjectBase._before_close
1129     @retry_method
1130     def readfrom(self, offset, size, num_retries=None):
1131         """Read up to `size` bytes from the stream, starting at the specified file offset.
1132
1133         This method does not change the file position.
1134         """
1135         return self.arvadosfile.readfrom(offset, size, num_retries)
1136
1137     def flush(self):
1138         pass
1139
1140
1141 class ArvadosFileWriter(ArvadosFileReader):
1142     """Wraps ArvadosFile in a file-like object supporting both reading and writing.
1143
1144     Be aware that this class is NOT thread safe as there is no locking around
1145     updating file pointer.
1146
1147     """
1148
1149     def __init__(self, arvadosfile, mode, num_retries=None):
1150         super(ArvadosFileWriter, self).__init__(arvadosfile, num_retries=num_retries)
1151         self.mode = mode
1152         self.arvadosfile.add_writer(self)
1153
1154     @_FileLikeObjectBase._before_close
1155     @retry_method
1156     def write(self, data, num_retries=None):
1157         if self.mode[0] == "a":
1158             self.arvadosfile.writeto(self.size(), data, num_retries)
1159         else:
1160             self.arvadosfile.writeto(self._filepos, data, num_retries)
1161             self._filepos += len(data)
1162         return len(data)
1163
1164     @_FileLikeObjectBase._before_close
1165     @retry_method
1166     def writelines(self, seq, num_retries=None):
1167         for s in seq:
1168             self.write(s, num_retries=num_retries)
1169
1170     @_FileLikeObjectBase._before_close
1171     def truncate(self, size=None):
1172         if size is None:
1173             size = self._filepos
1174         self.arvadosfile.truncate(size)
1175         if self._filepos > self.size():
1176             self._filepos = self.size()
1177
1178     @_FileLikeObjectBase._before_close
1179     def flush(self):
1180         self.arvadosfile.flush()
1181
1182     def close(self, flush=True):
1183         if not self.closed:
1184             self.arvadosfile.remove_writer(self, flush)
1185             super(ArvadosFileWriter, self).close()