schwanksta · March 27, 2013 20:41 · schwanksta · Mar 27, 2013
diff --git a/parse_scotus.py b/parse_scotus.py
 import re
 import json

 ws_re = re.compile("\s+")
 line_num_re = re.compile("\s\d+\s{2,}", re.M)

 # first, pdftotext -layout <pdf> <text>
 with open("12-307_jnt1.txt", "r") as f:
    data = f.read()


 exclude = (
    "Alderson Reporting Company",
    "Official - Subject to Final Review",
 )

 data = re.sub(line_num_re, "", data)

 for xc in exclude:
    data = data.replace(xc, "")

 data = re.sub(ws_re, " ", data)

 data_split = re.split('([A-Z+.]{3,} [A-Z ]+):', data)
 del data_split[0]
 pairs = zip(data_split[0::2], data_split[1::2])

 js = json.dumps(pairs)

 with open("sc-doma.json", "w") as f:
    f.write(js)
	import re
	import json

	ws_re = re.compile("\s+")
	line_num_re = re.compile("\s\d+\s{2,}", re.M)

	# first, pdftotext -layout <pdf> <text>
	with open("12-307_jnt1.txt", "r") as f:
	data = f.read()


	exclude = (
	"Alderson Reporting Company",
	"Official - Subject to Final Review",
	)

	data = re.sub(line_num_re, "", data)

	for xc in exclude:
	data = data.replace(xc, "")

	data = re.sub(ws_re, " ", data)

	data_split = re.split('([A-Z+.]{3,} [A-Z ]+):', data)
	del data_split[0]
	pairs = zip(data_split[0::2], data_split[1::2])

	js = json.dumps(pairs)

	with open("sc-doma.json", "w") as f:
	f.write(js)
No results found