bin/lesson_check.py

   1 #!/usr/bin/env python
   2
   3 """
   4 Check lesson files and their contents.
   5 """
   6
   7 from __future__ import print_function
   8 import sys
   9 import os
  10 import glob
  11 import json
  12 import re
  13 from optparse import OptionParser
  14
  15 from util import Reporter, read_markdown, load_yaml, check_unwanted_files, require, IMAGE_FILE_SUFFIX
  16
  17 __version__ = '0.3'
  18
  19 # Where to look for source Markdown files.
  20 SOURCE_DIRS = ['', '_episodes', '_extras']
  21
  22 # Required files: each entry is ('path': YAML_required).
  23 # FIXME: We do not yet validate whether any files have the required
  24 #   YAML headers, but should in the future.
  25 # The '%' is replaced with the source directory path for checking.
  26 # Episodes are handled specially, and extra files in '_extras' are also handled specially.
  27 # This list must include all the Markdown files listed in the 'bin/initialize' script.
  28 REQUIRED_FILES = {
  29     '%/CONDUCT.md': True,
  30     '%/CONTRIBUTING.md': False,
  31     '%/LICENSE.md': True,
  32     '%/README.md': False,
  33     '%/_extras/discuss.md': True,
  34     '%/_extras/guide.md': True,
  35     '%/index.md': True,
  36     '%/reference.md': True,
  37     '%/setup.md': True,
  38 }
  39
  40 # Episode filename pattern.
  41 P_EPISODE_FILENAME = re.compile(r'/_episodes/(\d\d)-[-\w]+.md$')
  42
  43 # Pattern to match lines ending with whitespace.
  44 P_TRAILING_WHITESPACE = re.compile(r'\s+$')
  45
  46 # Pattern to match figure references in HTML.
  47 P_FIGURE_REFS = re.compile(r'<img[^>]+src="([^"]+)"[^>]*>')
  48
  49 # Pattern to match internally-defined Markdown links.
  50 P_INTERNAL_LINK_REF = re.compile(r'\[([^\]]+)\]\[([^\]]+)\]')
  51
  52 # Pattern to match reference links (to resolve internally-defined references).
  53 P_INTERNAL_LINK_DEF = re.compile(r'^\[([^\]]+)\]:\s*(.+)')
  54
  55 # What kinds of blockquotes are allowed?
  56 KNOWN_BLOCKQUOTES = {
  57     'callout',
  58     'challenge',
  59     'checklist',
  60     'discussion',
  61     'keypoints',
  62     'objectives',
  63     'prereq',
  64     'quotation',
  65     'solution',
  66     'testimonial'
  67 }
  68
  69 # What kinds of code fragments are allowed?
  70 KNOWN_CODEBLOCKS = {
  71     'error',
  72     'output',
  73     'source',
  74     'language-bash',
  75     'html',
  76     'language-make',
  77     'language-matlab',
  78     'language-python',
  79     'language-r',
  80     'language-shell',
  81     'language-sql'
  82 }
  83
  84 # What fields are required in teaching episode metadata?
  85 TEACHING_METADATA_FIELDS = {
  86     ('title', str),
  87     ('teaching', int),
  88     ('exercises', int),
  89     ('questions', list),
  90     ('objectives', list),
  91     ('keypoints', list)
  92 }
  93
  94 # What fields are required in break episode metadata?
  95 BREAK_METADATA_FIELDS = {
  96     ('layout', str),
  97     ('title', str),
  98     ('break', int)
  99 }
 100
 101 # How long are lines allowed to be?
 102 MAX_LINE_LEN = 100
 103
 104 def main():
 105     """Main driver."""
 106
 107     args = parse_args()
 108     args.reporter = Reporter()
 109     check_config(args.reporter, args.source_dir)
 110     args.references = read_references(args.reporter, args.reference_path)
 111
 112     docs = read_all_markdown(args.source_dir, args.parser)
 113     check_fileset(args.source_dir, args.reporter, docs.keys())
 114     check_unwanted_files(args.source_dir, args.reporter)
 115     for filename in docs.keys():
 116         checker = create_checker(args, filename, docs[filename])
 117         checker.check()
 118
 119     args.reporter.report()
 120
 121
 122 def parse_args():
 123     """Parse command-line arguments."""
 124
 125     parser = OptionParser()
 126     parser.add_option('-l', '--linelen',
 127                       default=False,
 128                       action="store_true",
 129                       dest='line_lengths',
 130                       help='Check line lengths')
 131     parser.add_option('-p', '--parser',
 132                       default=None,
 133                       dest='parser',
 134                       help='path to Markdown parser')
 135     parser.add_option('-r', '--references',
 136                       default=None,
 137                       dest='reference_path',
 138                       help='path to Markdown file of external references')
 139     parser.add_option('-s', '--source',
 140                       default=os.curdir,
 141                       dest='source_dir',
 142                       help='source directory')
 143     parser.add_option('-w', '--whitespace',
 144                       default=False,
 145                       action="store_true",
 146                       dest='trailing_whitespace',
 147                       help='Check for trailing whitespace')
 148
 149     args, extras = parser.parse_args()
 150     require(args.parser is not None,
 151             'Path to Markdown parser not provided')
 152     require(not extras,
 153             'Unexpected trailing command-line arguments "{0}"'.format(extras))
 154
 155     return args
 156
 157
 158 def check_config(reporter, source_dir):
 159     """Check configuration file."""
 160
 161     config_file = os.path.join(source_dir, '_config.yml')
 162     config = load_yaml(config_file)
 163     reporter.check_field(config_file, 'configuration', config, 'kind', 'lesson')
 164     reporter.check_field(config_file, 'configuration', config, 'carpentry', ('swc', 'dc', 'lc'))
 165     reporter.check_field(config_file, 'configuration', config, 'title')
 166     reporter.check_field(config_file, 'configuration', config, 'email')
 167
 168     reporter.check({'values': {'root': '..'}} in config.get('defaults', []),
 169                    'configuration',
 170                    '"root" not set to ".." in configuration')
 171
 172
 173 def read_references(reporter, ref_path):
 174     """Read shared file of reference links, returning dictionary of valid references
 175     {symbolic_name : URL}
 176     """
 177
 178     result = {}
 179     urls_seen = set()
 180     if ref_path:
 181         with open(ref_path, 'r') as reader:
 182             for (num, line) in enumerate(reader):
 183                 line_num = num + 1
 184                 m = P_INTERNAL_LINK_DEF.search(line)
 185                 require(m,
 186                         '{0}:{1} not valid reference:\n{2}'.format(ref_path, line_num, line.rstrip()))
 187                 name = m.group(1)
 188                 url = m.group(2)
 189                 require(name,
 190                         'Empty reference at {0}:{1}'.format(ref_path, line_num))
 191                 reporter.check(name not in result,
 192                                ref_path,
 193                                'Duplicate reference {0} at line {1}',
 194                                name, line_num)
 195                 reporter.check(url not in urls_seen,
 196                                ref_path,
 197                                'Duplicate definition of URL {0} at line {1}',
 198                                url, line_num)
 199                 result[name] = url
 200                 urls_seen.add(url)
 201     return result
 202
 203
 204 def read_all_markdown(source_dir, parser):
 205     """Read source files, returning
 206     {path : {'metadata':yaml, 'metadata_len':N, 'text':text, 'lines':[(i, line, len)], 'doc':doc}}
 207     """
 208
 209     all_dirs = [os.path.join(source_dir, d) for d in SOURCE_DIRS]
 210     all_patterns = [os.path.join(d, '*.md') for d in all_dirs]
 211     result = {}
 212     for pat in all_patterns:
 213         for filename in glob.glob(pat):
 214             data = read_markdown(parser, filename)
 215             if data:
 216                 result[filename] = data
 217     return result
 218
 219
 220 def check_fileset(source_dir, reporter, filenames_present):
 221     """Are all required files present? Are extraneous files present?"""
 222
 223     # Check files with predictable names.
 224     required = [p.replace('%', source_dir) for p in REQUIRED_FILES]
 225     missing = set(required) - set(filenames_present)
 226     for m in missing:
 227         reporter.add(None, 'Missing required file {0}', m)
 228
 229     # Check episode files' names.
 230     seen = []
 231     for filename in filenames_present:
 232         if '_episodes' not in filename:
 233             continue
 234         m = P_EPISODE_FILENAME.search(filename)
 235         if m and m.group(1):
 236             seen.append(m.group(1))
 237         else:
 238             reporter.add(None, 'Episode {0} has badly-formatted filename', filename)
 239
 240     # Check for duplicate episode numbers.
 241     reporter.check(len(seen) == len(set(seen)),
 242                         None,
 243                         'Duplicate episode numbers {0} vs {1}',
 244                         sorted(seen), sorted(set(seen)))
 245
 246     # Check that numbers are consecutive.
 247     seen = [int(s) for s in seen]
 248     seen.sort()
 249     clean = True
 250     for i in range(len(seen) - 1):
 251         clean = clean and ((seen[i+1] - seen[i]) == 1)
 252     reporter.check(clean,
 253                    None,
 254                    'Missing or non-consecutive episode numbers {0}',
 255                    seen)
 256
 257
 258 def create_checker(args, filename, info):
 259     """Create appropriate checker for file."""
 260
 261     for (pat, cls) in CHECKERS:
 262         if pat.search(filename):
 263             return cls(args, filename, **info)
 264
 265
 266 class CheckBase(object):
 267     """Base class for checking Markdown files."""
 268
 269     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 270         """Cache arguments for checking."""
 271
 272         super(CheckBase, self).__init__()
 273         self.args = args
 274         self.reporter = self.args.reporter # for convenience
 275         self.filename = filename
 276         self.metadata = metadata
 277         self.metadata_len = metadata_len
 278         self.text = text
 279         self.lines = lines
 280         self.doc = doc
 281
 282         self.layout = None
 283
 284
 285     def check(self):
 286         """Run tests."""
 287
 288         self.check_metadata()
 289         self.check_line_lengths()
 290         self.check_trailing_whitespace()
 291         self.check_blockquote_classes()
 292         self.check_codeblock_classes()
 293         self.check_defined_link_references()
 294
 295
 296     def check_metadata(self):
 297         """Check the YAML metadata."""
 298
 299         self.reporter.check(self.metadata is not None,
 300                             self.filename,
 301                             'Missing metadata entirely')
 302
 303         if self.metadata and (self.layout is not None):
 304             self.reporter.check_field(self.filename, 'metadata', self.metadata, 'layout', self.layout)
 305
 306
 307     def check_line_lengths(self):
 308         """Check the raw text of the lesson body."""
 309
 310         if self.args.line_lengths:
 311             over = [i for (i, l, n) in self.lines if (n > MAX_LINE_LEN) and (not l.startswith('!'))]
 312             self.reporter.check(not over,
 313                                 self.filename,
 314                                 'Line(s) are too long: {0}',
 315                                 ', '.join([str(i) for i in over]))
 316
 317
 318     def check_trailing_whitespace(self):
 319         """Check for whitespace at the ends of lines."""
 320
 321         if self.args.trailing_whitespace:
 322             trailing = [i for (i, l, n) in self.lines if P_TRAILING_WHITESPACE.match(l)]
 323             self.reporter.check(not trailing,
 324                                 self.filename,
 325                                 'Line(s) end with whitespace: {0}',
 326                                 ', '.join([str(i) for i in trailing]))
 327
 328
 329     def check_blockquote_classes(self):
 330         """Check that all blockquotes have known classes."""
 331
 332         for node in self.find_all(self.doc, {'type' : 'blockquote'}):
 333             cls = self.get_val(node, 'attr', 'class')
 334             self.reporter.check(cls in KNOWN_BLOCKQUOTES,
 335                                 (self.filename, self.get_loc(node)),
 336                                 'Unknown or missing blockquote type {0}',
 337                                 cls)
 338
 339
 340     def check_codeblock_classes(self):
 341         """Check that all code blocks have known classes."""
 342
 343         for node in self.find_all(self.doc, {'type' : 'codeblock'}):
 344             cls = self.get_val(node, 'attr', 'class')
 345             self.reporter.check(cls in KNOWN_CODEBLOCKS,
 346                                 (self.filename, self.get_loc(node)),
 347                                 'Unknown or missing code block type {0}',
 348                                 cls)
 349
 350
 351     def check_defined_link_references(self):
 352         """Check that defined links resolve in the file.
 353
 354         Internally-defined links match the pattern [text][label].
 355         """
 356
 357         result = set()
 358         for node in self.find_all(self.doc, {'type' : 'text'}):
 359             for match in P_INTERNAL_LINK_REF.findall(node['value']):
 360                 text = match[0]
 361                 link = match[1]
 362                 if link not in self.args.references:
 363                     result.add('"{0}"=>"{1}"'.format(text, link))
 364         self.reporter.check(not result,
 365                             self.filename,
 366                             'Internally-defined links may be missing definitions: {0}',
 367                             ', '.join(sorted(result)))
 368
 369
 370     def find_all(self, node, pattern, accum=None):
 371         """Find all matches for a pattern."""
 372
 373         assert type(pattern) == dict, 'Patterns must be dictionaries'
 374         if accum is None:
 375             accum = []
 376         if self.match(node, pattern):
 377             accum.append(node)
 378         for child in node.get('children', []):
 379             self.find_all(child, pattern, accum)
 380         return accum
 381
 382
 383     def match(self, node, pattern):
 384         """Does this node match the given pattern?"""
 385
 386         for key in pattern:
 387             if key not in node:
 388                 return False
 389             val = pattern[key]
 390             if type(val) == str:
 391                 if node[key] != val:
 392                     return False
 393             elif type(val) == dict:
 394                 if not self.match(node[key], val):
 395                     return False
 396         return True
 397
 398
 399     def get_val(self, node, *chain):
 400         """Get value one or more levels down."""
 401
 402         curr = node
 403         for selector in chain:
 404             curr = curr.get(selector, None)
 405             if curr is None:
 406                 break
 407         return curr
 408
 409
 410     def get_loc(self, node):
 411         """Convenience method to get node's line number."""
 412
 413         result = self.get_val(node, 'options', 'location')
 414         if self.metadata_len is not None:
 415             result += self.metadata_len
 416         return result
 417
 418
 419 class CheckNonJekyll(CheckBase):
 420     """Check a file that isn't translated by Jekyll."""
 421
 422     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 423         super(CheckNonJekyll, self).__init__(args, filename, metadata, metadata_len, text, lines, doc)
 424
 425
 426     def check_metadata(self):
 427         self.reporter.check(self.metadata is None,
 428                             self.filename,
 429                             'Unexpected metadata')
 430
 431
 432 class CheckIndex(CheckBase):
 433     """Check the main index page."""
 434
 435     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 436         super(CheckIndex, self).__init__(args, filename, metadata, metadata_len, text, lines, doc)
 437         self.layout = 'lesson'
 438
 439     def check_metadata(self):
 440         super(CheckIndex, self).check_metadata()
 441         self.reporter.check(self.metadata.get('root', '') == '.',
 442                             self.filename,
 443                             'Root not set to "."')
 444
 445
 446 class CheckEpisode(CheckBase):
 447     """Check an episode page."""
 448
 449     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 450         super(CheckEpisode, self).__init__(args, filename, metadata, metadata_len, text, lines, doc)
 451
 452
 453     def check(self):
 454         """Run extra tests."""
 455
 456         super(CheckEpisode, self).check()
 457         self.check_reference_inclusion()
 458
 459
 460     def check_metadata(self):
 461         super(CheckEpisode, self).check_metadata()
 462         if self.metadata:
 463             if 'layout' in self.metadata:
 464                 if self.metadata['layout'] == 'break':
 465                     self.check_metadata_fields(BREAK_METADATA_FIELDS)
 466                 else:
 467                     self.reporter.add(self.filename,
 468                                       'Unknown episode layout "{0}"',
 469                                       self.metadata['layout'])
 470             else:
 471                 self.check_metadata_fields(TEACHING_METADATA_FIELDS)
 472
 473
 474     def check_metadata_fields(self, expected):
 475         for (name, type_) in expected:
 476             if name not in self.metadata:
 477                 self.reporter.add(self.filename,
 478                                   'Missing metadata field {0}',
 479                                   name)
 480             elif type(self.metadata[name]) != type_:
 481                 self.reporter.add(self.filename,
 482                                   '"{0}" has wrong type in metadata ({1} instead of {2})',
 483                                   name, type(self.metadata[name]), type_)
 484
 485
 486     def check_reference_inclusion(self):
 487         """Check that links file has been included."""
 488
 489         if not self.args.reference_path:
 490             return
 491
 492         for (i, last_line, line_len) in reversed(self.lines):
 493             if last_line:
 494                 break
 495
 496         require(last_line,
 497                 'No non-empty lines in {0}'.format(self.filename))
 498
 499         include_filename = os.path.split(self.args.reference_path)[-1]
 500         if include_filename not in last_line:
 501             self.reporter.add(self.filename,
 502                               'episode does not include "{0}"',
 503                               include_filename)
 504
 505
 506 class CheckReference(CheckBase):
 507     """Check the reference page."""
 508
 509     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 510         super(CheckReference, self).__init__(args, filename, metadata, metadata_len, text, lines, doc)
 511         self.layout = 'reference'
 512
 513
 514 class CheckGeneric(CheckBase):
 515     """Check a generic page."""
 516
 517     def __init__(self, args, filename, metadata, metadata_len, text, lines, doc):
 518         super(CheckGeneric, self).__init__(args, filename, metadata, metadata_len, text, lines, doc)
 519         self.layout = 'page'
 520
 521
 522 CHECKERS = [
 523     (re.compile(r'CONTRIBUTING\.md'), CheckNonJekyll),
 524     (re.compile(r'README\.md'), CheckNonJekyll),
 525     (re.compile(r'index\.md'), CheckIndex),
 526     (re.compile(r'reference\.md'), CheckReference),
 527     (re.compile(r'_episodes/.*\.md'), CheckEpisode),
 528     (re.compile(r'.*\.md'), CheckGeneric)
 529 ]
 530
 531
 532 if __name__ == '__main__':
 533     main()