20461 Changing naming readme.md -> README.md.
authorAlex Coleman <alex.coleman@curii.com>
Fri, 30 Jun 2023 17:16:05 +0000 (11:16 -0600)
committerAlex Coleman <alex.coleman@curii.com>
Thu, 14 Sep 2023 17:59:18 +0000 (11:59 -0600)
Updating README to describe overall flow of tiling workflow as well as detailed documentation of inputs.
Arvados-DCO-1.1-Signed-off-by: Alex Coleman <alex.coleman@curii.com>

cwl/lightning/README.md [new file with mode: 0644]
cwl/lightning/readme.md [deleted file]

diff --git a/cwl/lightning/README.md b/cwl/lightning/README.md
new file mode 100644 (file)
index 0000000..4ca131f
--- /dev/null
@@ -0,0 +1,61 @@
+[comment]: # (Copyright (C) The Lightning Authors. All rights reserved.)
+[comment]: # ()
+[comment]: # (SPDX-License-Identifier: AGPL-3.0)
+# Running tiling workflow
+===
+
+## Running the actual workflow
+---
+`arvados-cwl-runner --submit --no-wait --project-uuid <project_uuid> fasta2numpy-wf.cwl <input_yml>`
+
+The main workflow, `fasta2numpy-wf.cwl`, has the following workflow:
+
+1) Tile the input FASTA file
+2) Generate PCA values
+3) Perform logistic regression
+4) Perform chi^2 p-value tests
+5) Plot these values
+6) Output
+
+For examples of input yml files, see `yml/fasta2numpy-wf-100test.yml` and `yml/fasta2numpy-wf-0831_0315.yml`
+
+## Input parameters
+---
+- **fastadirs** - an array of fasta directories, in our implementation, each directory consists of around 100 fasta pairs.
+- **refdir** - cirectory containing reference FASTAs.
+
+The list of tags is needed to perform tiling
+- **tagset** - List of tags. Found here.
+
+Some parameters are used to determine how many processes, and how much each process is processing at a time:
+
+- **batchsize** - an integer determining the batch size when running lighting-import step, e.g., for batchsize 12, we run lightning-import for 12 fasta directories together as a batch, the resulting libraries then get merged by lightning-slice.
+- **threads** - number of parallel processes to run. This is necessary to avoid running out of memory.
+  
+Some parameters are used as values passed to lightning on the command line as flags:
+
+- **mergeoutput** - option to slice numpy. `True` or `False` are optional values.
+- **expandregions** - Command Line value needed to run `lightning`. Default value is `0`.
+  
+Some parameters are used to determine which portions of the genome the tiling workflow is run on:
+
+- **chrs**: chromosones to run on.
+- **regions** - specific regions of the chromosomes to run on. 
+- **matchgenome**: a string pattern used for obtaining a subset of the cohort, e.g, matchgenome "ADNI|WCAP" runs tiling for all samples with "ADNI" or "WCAP" in their name, matchgenome "" runs for the entire cohort.
+
+Some int/float parameters are needed for setting up random generation, output of statistical tests, etc:
+
+- **randomseed** - Random seed for random number generation.
+- **pcacomponents** - Top N PCA components to extract from PCA
+- **trainingsetsize**: a float between 0 and 1 to determine the training set size..
+  
+Phenotypes are used as sample metadata for lightning:
+
+- **phenotypesnofamilydir** - phenotype information for samples with *no* family members.
+- **phenotypesdir** - phenotype information for samples *with* family members.
+
+Some publicily accessible data is needed to run the workflows:
+
+- **snpeffdatadir** - 
+- **dbsnp** - 
+- **gnomaddir** - gnomAD data. 
\ No newline at end of file
diff --git a/cwl/lightning/readme.md b/cwl/lightning/readme.md
deleted file mode 100644 (file)
index 143f3b5..0000000
+++ /dev/null
@@ -1,20 +0,0 @@
-Running tiling workflow
-===
-
-Command
----
-
-arvados-cwl-runner --submit --no-wait --project-uuid <project_uuid> fasta2numpy-wf.cwl <input_yml>
-
-For examples of input yml files, see yml/fasta2numpy-wf-100test.yml and yml/fasta2numpy-wf-0831_0315.yml
-
-Notable parameters for input yml
----
-
-fastadirs: an array of fasta directories, in our implementation, each directory consists of around 100 fasta pairs
-
-batchsize: an integer determining the batch size when running lighting-import step, e.g., for batchsize 12, we run lightning-import for 12 fasta directories together as a batch, the resulting libraries then get merged by lightning-slice
-
-matchgenome: a string pattern used for obtaining a subset of the cohort, e.g, matchgenome "ADNI|WCAP" runs tiling for all samples with "ADNI" or "WCAP" in their name, matchgenome "" runs for the entire cohort
-
-trainingsetsize: a float between 0 and 1 to determine the training set size