neilernst · May 22, 2017 21:13
diff --git a/simple_sentence.py b/simple_sentence.py
 # author N Ernst
 # thanks to https://stackoverflow.com/questions/4576077/python-split-text-on-sentences?rq=1

 import nltk.data
 import argparse

 parser = argparse.ArgumentParser()
 parser.add_argument("length", help="recommended sentence length [default 5]",  type=int, default=0)
 parser.add_argument("filename", help="what text file to parse")
 args = parser.parse_args()

 #nltk.download() punkt
 tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
 with open(args.filename) as fp:
    data = fp.read()
    sentences = (tokenizer.tokenize(data))
    gt = list(filter(lambda x: len(x.split(' ')) > args.length, sentences))

 ratio = len(gt)/len(sentences)
 print ("Sentences: {}, longer than {}: {}, ratio: {:.2f}".format(len(sentences), args.length, len(gt), ratio))
	# author N Ernst
	# thanks to https://stackoverflow.com/questions/4576077/python-split-text-on-sentences?rq=1

	import nltk.data
	import argparse

	parser = argparse.ArgumentParser()
	parser.add_argument("length", help="recommended sentence length [default 5]", type=int, default=0)
	parser.add_argument("filename", help="what text file to parse")
	args = parser.parse_args()

	#nltk.download() punkt
	tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
	with open(args.filename) as fp:
	data = fp.read()
	sentences = (tokenizer.tokenize(data))
	gt = list(filter(lambda x: len(x.split(' ')) > args.length, sentences))

	ratio = len(gt)/len(sentences)
	print ("Sentences: {}, longer than {}: {}, ratio: {:.2f}".format(len(sentences), args.length, len(gt), ratio))