Merge branch 'master' into 6093-refresh-docs
[arvados.git] / doc / user / tutorials / tutorial-submit-job.html.textile.liquid
1 ---
2 layout: default
3 navsection: userguide
4 navmenu: Tutorials
5 title: "Running on an Arvados cluster"
6 ...
7
8 This tutorial demonstrates how to create a pipeline to run your crunch script on an Arvados cluster.  Cluster jobs can scale out to multiple nodes, and use @git@ and @docker@ to store the complete system snapshot required to achieve reproducibilty.
9
10 {% include 'tutorial_expectations' %}
11
12 This tutorial uses @$USER@ to denote your username.  Replace @$USER@ with your user name in all the following examples.
13
14 h2. Setting up Git
15
16 All Crunch scripts are managed through the Git revision control system.  Before you start using Git, you should do some basic configuration (you only need to do this the first time):
17
18 <notextile>
19 <pre><code>~$ <span class="userinput">git config --global user.name "Your Name"</span>
20 ~$ <span class="userinput">git config --global user.email $USER@example.com</span></code></pre>
21 </notextile>
22
23 On the Arvados Workbench, click on the dropdown menu icon <span class="fa fa-lg fa-user"></span> <span class="caret"></span> in the upper right corner of the top navigation menu to access the user settings menu, and click on the menu item *Manage account* to go to the account management page.
24
25 On the *Manage account* page, you will see *Repositories* panel. In this panel, you should see a repository with your user name listed in the *name* column.  Next to *name* is the column *URL*. Copy the *URL* value associated with your repository.  This should look like <notextile><code>git@git.{{ site.arvados_api_host }}:$USER/$USER.git</code></notextile>.
26
27 Next, on the Arvados virtual machine, clone your Git repository:
28
29 <notextile>
30 <pre><code>~$ <span class="userinput">cd $HOME</span> # (or wherever you want to install)
31 ~$ <span class="userinput">git clone git@git.{{ site.arvados_api_host }}:$USER/$USER.git</span>
32 Cloning into '$USER'...</code></pre>
33 </notextile>
34
35 This will create a Git repository in the directory called @$USER@ in your home directory. Say yes when prompted to continue with connection.
36 Ignore any warning that you are cloning an empty repository.
37
38 {% include 'notebox_begin' %}
39 For more information about using Git, try
40
41 notextile. <pre><code>$ <span class="userinput">man gittutorial</span></code></pre>
42
43 or *"search Google for Git tutorials":http://google.com/#q=git+tutorial*.
44 {% include 'notebox_end' %}
45
46 h2. Creating a Crunch script
47
48 Start by entering the @$USER@ directory created by @git clone@.  Next create a subdirectory called @crunch_scripts@ and change to that directory:
49
50 <notextile>
51 <pre><code>~$ <span class="userinput">cd $USER</span>
52 ~/$USER$ <span class="userinput">mkdir crunch_scripts</span>
53 ~/$USER$ <span class="userinput">cd crunch_scripts</span></code></pre>
54 </notextile>
55
56 Next, using @nano@ or your favorite Unix text editor, create a new file called @hash.py@ in the @crunch_scripts@ directory.
57
58 notextile. <pre>~/$USER/crunch_scripts$ <code class="userinput">nano hash.py</code></pre>
59
60 Add the following code to compute the MD5 hash of each file in a collection (if you already completed "Writing a Crunch script":tutorial-firstscript.html you can just copy the @hash.py@ file you created previously.)
61
62 <notextile> {% code 'tutorial_hash_script_py' as python %} </notextile>
63
64 Make the file executable:
65
66 notextile. <pre><code>~/$USER/crunch_scripts$ <span class="userinput">chmod +x hash.py</span></code></pre>
67
68 Next, add the file to the staging area.  This tells @git@ that the file should be included on the next commit.
69
70 notextile. <pre><code>~/$USER/crunch_scripts$ <span class="userinput">git add hash.py</span></code></pre>
71
72 Next, commit your changes.  All staged changes are recorded into the local git repository:
73
74 <notextile>
75 <pre><code>~/$USER/crunch_scripts$ <span class="userinput">git commit -m"my first script"</span>
76 [master (root-commit) 27fd88b] my first script
77  1 file changed, 45 insertions(+)
78  create mode 100755 crunch_scripts/hash.py</code></pre>
79 </notextile>
80
81 Finally, upload your changes to the Arvados server:
82
83 <notextile>
84 <pre><code>~/$USER/crunch_scripts$ <span class="userinput">git push origin master</span>
85 Counting objects: 4, done.
86 Compressing objects: 100% (2/2), done.
87 Writing objects: 100% (4/4), 682 bytes, done.
88 Total 4 (delta 0), reused 0 (delta 0)
89 To git@git.qr1hi.arvadosapi.com:$USER/$USER.git
90  * [new branch]      master -> master</code></pre>
91 </notextile>
92
93 h2. Create a pipeline template
94
95 Next, create a new template using @arv create pipeline_template@:
96
97 <notextile>
98 <pre><code>~$ <span class="userinput">arv create pipeline_template</span></code></pre>
99 </notextile>
100
101 In the editor, enter the following template:
102
103 <notextile> {% code 'tutorial_submit_job' as javascript %} </notextile>
104
105 * @"repository"@ is the name of a git repository to search for the script version.  You can access a list of available git repositories on the Arvados Workbench in the *Manage account* page using the <span class="fa fa-lg fa-user"></span> <span class="caret"></span> top navigation menu icon.
106 * @"script_version"@ specifies the version of the script that you wish to run.  This can be in the form of an explicit Git revision hash, a tag, or a branch (in which case it will use the HEAD of the specified branch).  Arvados logs the script version that was used in the run, enabling you to go back and re-run any past job with the guarantee that the exact same code will be used as was used in the previous run.
107 * @"script"@ specifies the filename of the script to run.  Crunch expects to find this in the @crunch_scripts/@ subdirectory of the Git repository.
108 * @"runtime_constraints"@ describes the runtime environment required to run the job.  These are described in the "job record schema":{{site.baseurl}}/api/schema/Job.html
109
110 h2. Running your pipeline
111
112 Your new pipeline template should appear at the top of the Workbench "pipeline&nbsp;templates":{{site.arvados_workbench_host}}/pipeline_templates page.  You can run your pipeline "using Workbench":tutorial-pipeline-workbench.html or the "command line.":{{site.baseurl}}/user/topics/running-pipeline-command-line.html
113
114 For more information and examples for writing pipelines, see the "pipeline template reference":{{site.baseurl}}/api/schema/PipelineTemplate.html