cellularmitosis · April 15, 2020 03:13
diff --git a/README.md b/README.md
diff --git a/lex.py b/lex.py
 def load_tokendefs(fpath):
    import re
    tdefs = []
    with open(fpath) as f:
        for line in f:
            token_name = line.rstrip('\n')
            line2 = f.next()
            pattern = line2.rstrip('\n')
            regex = re.compile(pattern)
            pair = (token_name, regex)
            tdefs.append(pair)
    return tdefs

 def next_token(tdefs, text, offset=0):
    for (token_name, regex) in tdefs:
        m = regex.match(text, offset)
        if m is None:
            continue
        else:
            matched_text = m.group()
            token = (token_name, matched_text)
            return token
    raise Exception("Don't know how to lex '%s'" % text[:16])

 def _test_next_token():
    tdefs = load_tokendefs("tokendefs.txt")
    token = next_token(tdefs, "42 ")
    assert token == ("INT", "42")
    token = next_token(tdefs, " 17")
    assert token == ("WSPACE", " ")
    token = next_token(tdefs, "(1 2 3)")
    assert token == ("OPAREN", "(")

 def tokenize(tdefs, text):
    tokens = []
    offset = 0
    while (len(text) - offset) > 0:
        token = next_token(tdefs, text, offset)
        tokens.append(token)
        matched_text = token[1]
        offset += len(matched_text)
    return tokens

 def _test_tokenize():
    tdefs = load_tokendefs("tokendefs.txt")
    tokens = tokenize(tdefs, "(1 42   65536)")
    assert tokens == [
        ("OPAREN", "("),
        ("INT", "1"),
        ("WSPACE", " "),
        ("INT", "42"),
        ("WSPACE", "   "),
        ("INT", "65536"),
        ("CPAREN", ")")
    ]

 def _test():
    _test_next_token()
    _test_tokenize()


 if __name__ == "__main__":
    tdefs = load_tokendefs("tokendefs.txt")
    import sys
    if len(sys.argv) > 1:
        fname = sys.argv[-1]
        text = open(fname).read()
    else:
        text = sys.stdin.read()
    tokens = tokenize(tdefs, text)
    import pprint
    pprint.pprint(tokens)
diff --git a/parse.py b/parse.py
 from lex import load_tokendefs, tokenize

 # our grammar:
 """
 SEXPR = INT | LIST
 LIST  = OPAREN CPAREN
      | OPAREN SEXPR { WSPACE SEXPR } CPAREN
 """

 def is_toktype(toktype, token):
    return token[0] == toktype

 def parse_terminal(tokens, toktype):
    if len(tokens) == 0:
        return (None, None)
    token = tokens[0]
    if is_toktype(toktype, token):
        return (token, tokens[1:])
    else:
        return (None, None)

 def parse_int(tokens):
    return parse_terminal(tokens, "INT")

 def parse_wspace(tokens):
    return parse_terminal(tokens, "WSPACE")

 def parse_oparen(tokens):
    return parse_terminal(tokens, "OPAREN")

 def parse_cparen(tokens):
    return parse_terminal(tokens, "CPAREN")

 def _test_parse_int():
    tokens = [("INT", 1), ("WSPACE", " ")]
    (ast, remaining) = parse_int(tokens)
    assert ast == ("INT", 1)
    assert remaining == [("WSPACE", " ")]

 def parse_list(tokens):
    # we have to have at least two tokens.
    if len(tokens) < 2:
        return (None, None)
    # the first token must be an OPAREN.
    (ast, remaining) = parse_oparen(tokens)
    if ast is None:
        return (None, None)
    # try to match the empty list.
    (ast, remaining2) = parse_cparen(remaining)
    if ast is not None:
        ast2 = ("LIST", [])
        return (ast2, remaining2)
    # try to match a populated list.
    (sexpr, remaining) = parse_sexpr(remaining)
    if sexpr is None:
        return (None, None)
    children = [sexpr]
    while len(remaining) > 0:
        # CPAREN signals the end of the list.
        (ast, remaining2) = parse_cparen(remaining)
        if ast is not None:
            remaining = remaining2
            break
        if len(remaining) == 1:
            # only one token left and it wasn't a CPAREN.  bad parse.
            return (None, None)
        # otherwise, there should be a space and another sexpr.
        (ast, remaining) = parse_wspace(remaining)
        if ast is None:
            return (None, None)
        (ast, remaining) = parse_sexpr(remaining)
        if ast is None:
            return (None, None)
        children.append(ast)
    ast = ("LIST", children)
    return (ast, remaining)

 def _test_parse_list():
    # parse a list from "() "
    tokens = [("OPAREN", "("), ("CPAREN", ")"), ("WSPACE", " ")]
    (ast, remaining) = parse_list(tokens)
    assert ast == ("LIST", [])
    assert remaining == [("WSPACE", " ")]
    # parse a list from "(42) "
    tokens = [("OPAREN", "("), ("INT", "42"), ("CPAREN", ")"), ("WSPACE", " ")]
    (ast, remaining) = parse_list(tokens)
    assert ast == ("LIST", [("INT", "42")])
    assert remaining == [("WSPACE", " ")]
    # parse "(1 2) "
    tokens = [("OPAREN", "("), ("INT", "1"), ("WSPACE", " "), ("INT", "2"), ("CPAREN", ")"), ("WSPACE", " ")]
    (ast, remaining) = parse_list(tokens)
    assert ast == ("LIST", [("INT", "1"), ("INT", "2")])
    assert remaining == [("WSPACE", " ")]
    # parse "(()) "
    tokens = [("OPAREN", "("), ("OPAREN", "("), ("CPAREN", ")"), ("CPAREN", ")"), ("WSPACE", " ")]
    (ast, remaining) = parse_list(tokens)
    assert ast == ("LIST", [("LIST", [])])
    assert remaining == [("WSPACE", " ")]

 def parse_sexpr(tokens):
    (ast, remaining) = parse_int(tokens)
    if ast is not None:
        return (ast, remaining)
    else:
        return parse_list(tokens)

 def _test_parse_sexpr():
    # parse an int
    tokens = [("INT", 1), ("WSPACE", " ")]
    (ast, remaining) = parse_sexpr(tokens)
    assert ast == ("INT", 1)
    assert remaining == [("WSPACE", " ")]
    # parse a list
    tokens = [("OPAREN", "("), ("INT", "1"), ("WSPACE", " "), ("INT", "2"), ("CPAREN", ")"), ("WSPACE", " ")]
    (ast, remaining) = parse_list(tokens)
    assert ast == ("LIST", [("INT", "1"), ("INT", "2")])
    assert remaining == [("WSPACE", " ")]

 def parse(tokens):
    (ast, remaining_tokens) = parse_sexpr(tokens)
    if len(remaining_tokens) > 0:
        raise Exception("Leftover tokens! %s" % remaining_tokens)
    return ast

 def _test_parse():
    tdefs = load_tokendefs("tokendefs.txt")
    ast = parse(tokenize(tdefs, "1"))
    assert ast == ("INT", "1")
    ast = parse(tokenize(tdefs, "()"))
    assert ast == ("LIST", [])
    ast = parse(tokenize(tdefs, "(1 2 3)"))
    assert ast == ("LIST", [("INT", "1"), ("INT", "2"), ("INT", "3")])
    ast = parse(tokenize(tdefs, "(1 (2 3))"))
    assert ast == ("LIST", [("INT", "1"), ("LIST", [("INT", "2"), ("INT", "3")])])

 def _test():
    _test_parse_int()
    _test_parse_list()
    _test_parse_sexpr()
    _test_parse()


 if __name__ == "__main__":
    import sys
    if len(sys.argv) > 1:
        text = open(sys.argv[-1]).read()
    else:
        text = sys.stdin.read()
    tdefs = load_tokendefs("tokendefs.txt")
    import pprint
    pprint.pprint(parse(tokenize(tdefs, text)))
diff --git a/tokendefs.txt b/tokendefs.txt
 INT
 \d+
 OPAREN
 \(
 CPAREN
 \)
 WSPACE
 \s+
	def load_tokendefs(fpath):
	import re
	tdefs = []
	with open(fpath) as f:
	for line in f:
	token_name = line.rstrip('\n')
	line2 = f.next()
	pattern = line2.rstrip('\n')
	regex = re.compile(pattern)
	pair = (token_name, regex)
	tdefs.append(pair)
	return tdefs

	def next_token(tdefs, text, offset=0):
	for (token_name, regex) in tdefs:
	m = regex.match(text, offset)
	if m is None:
	continue
	else:
	matched_text = m.group()
	token = (token_name, matched_text)
	return token
	raise Exception("Don't know how to lex '%s'" % text[:16])

	def _test_next_token():
	tdefs = load_tokendefs("tokendefs.txt")
	token = next_token(tdefs, "42 ")
	assert token == ("INT", "42")
	token = next_token(tdefs, " 17")
	assert token == ("WSPACE", " ")
	token = next_token(tdefs, "(1 2 3)")
	assert token == ("OPAREN", "(")

	def tokenize(tdefs, text):
	tokens = []
	offset = 0
	while (len(text) - offset) > 0:
	token = next_token(tdefs, text, offset)
	tokens.append(token)
	matched_text = token[1]
	offset += len(matched_text)
	return tokens

	def _test_tokenize():
	tdefs = load_tokendefs("tokendefs.txt")
	tokens = tokenize(tdefs, "(1 42 65536)")
	assert tokens == [
	("OPAREN", "("),
	("INT", "1"),
	("WSPACE", " "),
	("INT", "42"),
	("WSPACE", " "),
	("INT", "65536"),
	("CPAREN", ")")
	]

	def _test():
	_test_next_token()
	_test_tokenize()


	if __name__ == "__main__":
	tdefs = load_tokendefs("tokendefs.txt")
	import sys
	if len(sys.argv) > 1:
	fname = sys.argv[-1]
	text = open(fname).read()
	else:
	text = sys.stdin.read()
	tokens = tokenize(tdefs, text)
	import pprint
	pprint.pprint(tokens)
	from lex import load_tokendefs, tokenize

	# our grammar:
	"""
	SEXPR = INT \| LIST
	LIST = OPAREN CPAREN
	\| OPAREN SEXPR { WSPACE SEXPR } CPAREN
	"""

	def is_toktype(toktype, token):
	return token[0] == toktype

	def parse_terminal(tokens, toktype):
	if len(tokens) == 0:
	return (None, None)
	token = tokens[0]
	if is_toktype(toktype, token):
	return (token, tokens[1:])
	else:
	return (None, None)

	def parse_int(tokens):
	return parse_terminal(tokens, "INT")

	def parse_wspace(tokens):
	return parse_terminal(tokens, "WSPACE")

	def parse_oparen(tokens):
	return parse_terminal(tokens, "OPAREN")

	def parse_cparen(tokens):
	return parse_terminal(tokens, "CPAREN")

	def _test_parse_int():
	tokens = [("INT", 1), ("WSPACE", " ")]
	(ast, remaining) = parse_int(tokens)
	assert ast == ("INT", 1)
	assert remaining == [("WSPACE", " ")]

	def parse_list(tokens):
	# we have to have at least two tokens.
	if len(tokens) < 2:
	return (None, None)
	# the first token must be an OPAREN.
	(ast, remaining) = parse_oparen(tokens)
	if ast is None:
	return (None, None)
	# try to match the empty list.
	(ast, remaining2) = parse_cparen(remaining)
	if ast is not None:
	ast2 = ("LIST", [])
	return (ast2, remaining2)
	# try to match a populated list.
	(sexpr, remaining) = parse_sexpr(remaining)
	if sexpr is None:
	return (None, None)
	children = [sexpr]
	while len(remaining) > 0:
	# CPAREN signals the end of the list.
	(ast, remaining2) = parse_cparen(remaining)
	if ast is not None:
	remaining = remaining2
	break
	if len(remaining) == 1:
	# only one token left and it wasn't a CPAREN. bad parse.
	return (None, None)
	# otherwise, there should be a space and another sexpr.
	(ast, remaining) = parse_wspace(remaining)
	if ast is None:
	return (None, None)
	(ast, remaining) = parse_sexpr(remaining)
	if ast is None:
	return (None, None)
	children.append(ast)
	ast = ("LIST", children)
	return (ast, remaining)

	def _test_parse_list():
	# parse a list from "() "
	tokens = [("OPAREN", "("), ("CPAREN", ")"), ("WSPACE", " ")]
	(ast, remaining) = parse_list(tokens)
	assert ast == ("LIST", [])
	assert remaining == [("WSPACE", " ")]
	# parse a list from "(42) "
	tokens = [("OPAREN", "("), ("INT", "42"), ("CPAREN", ")"), ("WSPACE", " ")]
	(ast, remaining) = parse_list(tokens)
	assert ast == ("LIST", [("INT", "42")])
	assert remaining == [("WSPACE", " ")]
	# parse "(1 2) "
	tokens = [("OPAREN", "("), ("INT", "1"), ("WSPACE", " "), ("INT", "2"), ("CPAREN", ")"), ("WSPACE", " ")]
	(ast, remaining) = parse_list(tokens)
	assert ast == ("LIST", [("INT", "1"), ("INT", "2")])
	assert remaining == [("WSPACE", " ")]
	# parse "(()) "
	tokens = [("OPAREN", "("), ("OPAREN", "("), ("CPAREN", ")"), ("CPAREN", ")"), ("WSPACE", " ")]
	(ast, remaining) = parse_list(tokens)
	assert ast == ("LIST", [("LIST", [])])
	assert remaining == [("WSPACE", " ")]

	def parse_sexpr(tokens):
	(ast, remaining) = parse_int(tokens)
	if ast is not None:
	return (ast, remaining)
	else:
	return parse_list(tokens)

	def _test_parse_sexpr():
	# parse an int
	tokens = [("INT", 1), ("WSPACE", " ")]
	(ast, remaining) = parse_sexpr(tokens)
	assert ast == ("INT", 1)
	assert remaining == [("WSPACE", " ")]
	# parse a list
	tokens = [("OPAREN", "("), ("INT", "1"), ("WSPACE", " "), ("INT", "2"), ("CPAREN", ")"), ("WSPACE", " ")]
	(ast, remaining) = parse_list(tokens)
	assert ast == ("LIST", [("INT", "1"), ("INT", "2")])
	assert remaining == [("WSPACE", " ")]

	def parse(tokens):
	(ast, remaining_tokens) = parse_sexpr(tokens)
	if len(remaining_tokens) > 0:
	raise Exception("Leftover tokens! %s" % remaining_tokens)
	return ast

	def _test_parse():
	tdefs = load_tokendefs("tokendefs.txt")
	ast = parse(tokenize(tdefs, "1"))
	assert ast == ("INT", "1")
	ast = parse(tokenize(tdefs, "()"))
	assert ast == ("LIST", [])
	ast = parse(tokenize(tdefs, "(1 2 3)"))
	assert ast == ("LIST", [("INT", "1"), ("INT", "2"), ("INT", "3")])
	ast = parse(tokenize(tdefs, "(1 (2 3))"))
	assert ast == ("LIST", [("INT", "1"), ("LIST", [("INT", "2"), ("INT", "3")])])

	def _test():
	_test_parse_int()
	_test_parse_list()
	_test_parse_sexpr()
	_test_parse()


	if __name__ == "__main__":
	import sys
	if len(sys.argv) > 1:
	text = open(sys.argv[-1]).read()
	else:
	text = sys.stdin.read()
	tdefs = load_tokendefs("tokendefs.txt")
	import pprint
	pprint.pprint(parse(tokenize(tdefs, text)))