Merge branch '1499-workbench-tags'
[arvados.git] / doc / user / tutorials / tutorial-firstscript.textile
1 ---
2 layout: default
3 navsection: userguide
4 navmenu: Tutorials
5 title: "Writing a Crunch script"
6 navorder: 13
7 ---
8
9 h1. Tutorial: Writing a Crunch script
10
11 In this tutorial, we will write the "hash" script demonstrated in the first tutorial.
12
13 *This tutorial assumes that you are "logged into an Arvados VM instance":{{site.basedoc}}/user/getting_started/ssh-access.html#login, and have a "working environment.":{{site.basedoc}}/user/getting_started/check-environment.html*
14
15 This tutorial uses _you_ to denote your username.  Replace _you_ with your user name in all the following examples.
16
17 h2. Setting up Git
18
19 As discussed in the previous tutorial, all Crunch scripts are managed through the @git@ revision control system.
20
21 First, you should do some basic configuration for git (you only need to do this the first time):
22
23 <notextile>
24 <pre><code>$ <span class="userinput">git config --global user.name "Your Name"</span>
25 $ <span class="userinput">git config --global user.email you@example.com</span></code></pre>
26 </notextile>
27
28 On the Arvados Workbench, navigate to _Access %(rarr)&rarr;% Repositories._  You should see two repositories, one named "arvados" (under the *name* column) and a second with your user name.  Next to *name* is the column *push_url*.  Copy the *push_url* cell associated with your repository.  This should look like <code>git@git.{{ site.arvados_api_host }}:you.git</code>.
29
30 Next, on the Arvados virtual machine, clone your git repository:
31
32 <notextile>
33 <pre><code>$ <span class="userinput">git clone git://git.{{ site.arvados_api_host }}:you.git</span>
34 Cloning into 'you'...</code></pre>
35 </notextile>
36
37 This will create an git checkout in the directory called @you@.
38
39 {% include notebox-begin.html %}
40 For more information about using @git@, try
41
42 notextile. <pre><code>$ <span class="userinput">man gittutorial</span></code></pre>
43
44 or "click here to search Google for git tutorials":http://google.com/#q=git+tutorial
45 {% include notebox-end.html %}
46
47 h2. Creating a Crunch script
48
49 Start by entering the @you@ directory, creating a subdirectory called @crunch_scripts@ and changing to that directory:
50
51 <notextile>
52 <pre><code>$ <span class="userinput">cd you</span>
53 $ <span class="userinput">mkdir crunch_scripts</span>
54 $ <span class="userinput">cd crunch_scripts</span></code></pre>
55 </notextile>
56
57 Next, using your favorite text editor, create a new file called @hash.py@ in the @crunch_scripts@ directory.  Add the following code to compute the md5 hash of each file in a collection:
58
59 <pre><code class="userinput">{% include tutorial_hash_script.py %}</code></pre>
60
61 Make the file executable:
62
63 notextile. <pre><code>$ <span class="userinput">chmod +x hash.py</span></code></pre>
64
65 Next, add the file to @git@ staging.  This tells @git@ that the file should be included on the next commit.
66
67 notextile. <pre><code>$ <span class="userinput">git add hash.py</span></code></pre>
68
69 Next, commit your changes to git.  All staged changes are recorded into the local @git@ repository:
70
71 <notextile>
72 <pre><code>$ <span class="userinput">git commit -m"my first script"</span>
73 [master (root-commit) 27fd88b] my first script
74  1 file changed, 33 insertions(+)
75  create mode 100755 crunch_scripts/hash.py</code></pre>
76 </notextile>
77
78 Finally, upload your changes to the Arvados server:
79
80 <notextile>
81 <pre><code>$ <span class="userinput">git push origin master</span>
82 Counting objects: 4, done.
83 Compressing objects: 100% (2/2), done.
84 Writing objects: 100% (4/4), 682 bytes, done.
85 Total 4 (delta 0), reused 0 (delta 0)
86 To git@git.qr1hi.arvadosapi.com:you.git
87  * [new branch]      master -> master</code></pre>
88 </notextile>
89
90 You should now be able to run your script using Crunch, similar to how we did it in the "first tutorial.":tutorial-job1.html  The field @"script_version"@ should be @you:master@ to tell Crunch to run the script that you just uploaded.
91
92 <notextile>
93 <pre><code>$ <span class="userinput">cat &gt;the_job &lt;&lt;EOF
94 {
95  "script": "hash.py",
96  "script_version": "you:master",
97  "script_parameters":
98  {
99   "input": "33a9f3842b01ea3fdf27cc582f5ea2af"
100  }
101 }
102 EOF</span>
103 $ <span class="userinput">arv -h job create --job "$(cat the_job)"</span>
104 {
105  ...
106  "uuid":"qr1hi-xxxxx-xxxxxxxxxxxxxxx"
107  ...
108 }
109 $ <span class="userinput">arv -h job get --uuid qr1hi-xxxxx-xxxxxxxxxxxxxxx</span>
110 {
111  ...
112  "output":"880b55fb4470b148a447ff38cacdd952+54+K@qr1hi",
113  ...
114 }
115 $ <span class="userinput">arv keep get 880b55fb4470b148a447ff38cacdd952+54+K@qr1hi/md5sum.txt</span>
116 44b8ae3fde7a8a88d2f7ebd237625b4f var-GS000016015-ASM.tsv.bz2
117 </code></pre>
118 </notextile>
119
120 Next, "debugging a crunch script.":tutorial-job-debug.html