crunch_scripts/split-fastq.py

   1 #!/usr/bin/python
   2
   3 import arvados
   4 import re
   5 import hashlib
   6
   7 api = arvados.api('v1')
   8
   9 piece = 0
  10 manifest_text = ""
  11
  12 # Look for paired reads
  13
  14 inp = arvados.CollectionReader(arvados.getjobparam('reads'))
  15
  16 prog = re.compile(r'(.*?)_1.fastq(.gz)?$')
  17
  18 manifest_text = ""
  19
  20 def readline(reader, start):
  21     line = ""
  22     n = -1
  23     while n == -1:
  24         r = reader.readfrom(start, 1024)
  25         if r == '':
  26             break
  27         n = string.find(r, "\n")
  28         line += r[0:n]
  29         start += len(r)
  30     return line
  31
  32 def splitfastq(p):
  33     for i in xrange(0, len(p)):
  34         p[i]["start"] = 0
  35         p[i]["end"] = 0
  36
  37     while True:
  38         recordsize = [0, 0]
  39
  40         # read 4 lines starting at "start"
  41         for ln in xrange(0, 4):
  42             for i in xrange(0, len(p)):
  43                 r = readline(p[i]["reader"], p[i]["start"])
  44                 if r == '':
  45                     return
  46                 recordsize[i] += len(r)
  47
  48         splitnow = False
  49         for i in xrange(0, len(p)):
  50             if ((p[i]["end"] - p[i]["start"]) + recordsize[i]) >= arvados.BLOCKSIZE:
  51                 splitnow = True
  52
  53         if splitnow:
  54             for i in xrange(0, len(p)):
  55                 global piece
  56                 global manifest_text
  57                 manifest = []
  58                 manifest.extend("./_" + str(piece))
  59                 manifest.extend([d[LOCATOR] for d in p["reader"]._stream._data_locators])
  60                 manifest.extend(["{}:{}:{}".format(seg[LOCATOR], seg[BLOCKSIZE], self.name().replace(' ', '\\040')) for seg in arvados.locators_and_ranges(p[i]["reader"].segments, p[i]["start"], p[i]["end"] - p[i]["start"])])
  61                 manifest_text += manifest.join(" ") + "\n"
  62                 p[i]["start"] = p[i]["end"]
  63         else:
  64             for i in xrange(0, len(p)):
  65                 p[i]["end"] += recordsize[i]
  66
  67
  68 for s in inp.all_streams():
  69     if s.name() == ".":
  70         for f in s.all_files():
  71             result = prog.match(f.name())
  72             if result != None:
  73                 p = [{}, {}]
  74                 p[0]["reader"] = s.files()[result.group(0)]
  75                 if result.group(2) != None:
  76                     p[1]["reader"] = s.files()[result.group(1) + "_2.fastq" + result.group(2)]
  77                 else:
  78                     p[1]["reader"] = s.files()[result.group(1) + "_2.fastq"
  79                 splitfastq(p)
  80                 #m0 = p[0]["reader"].as_manifest()[1:]
  81                 #m1 = p[1]["reader"].as_manifest()[1:]
  82                 #manifest_text += "./_" + str(piece) + m0
  83                 #manifest_text += "./_" + str(piece) + m1
  84                 piece += 1
  85
  86 # No pairs found so just put each fastq file into a separate directory
  87 if manifest_text == "":
  88     for s in inp.all_streams():
  89         prog = re.compile("(.*?).fastq(.gz)?$")
  90         if s.name() == ".":
  91             for f in s.all_files():
  92                 result = prog.match(f.name())
  93                 if result != None:
  94                     p = [{}]
  95                     p[0]["reader"] = s.files()[result.group(0)]
  96                     splitfastq(p)
  97                     #m0 = p[0]["reader"].as_manifest()[1:]
  98                     #manifest_text += "./_" + str(piece) + m0
  99                     piece += 1
 100
 101 arvados.current_task().set_output(manifest_text)