paulmwatson · July 22, 2020 13:35
diff --git a/nltk_punkt_sentence_tokenizer_with_custom_abbreviations.py b/nltk_punkt_sentence_tokenizer_with_custom_abbreviations.py
 from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters

 text = 'Sgt. Maj. A. Grinston found approx. 2.2 miles up a creek on Mt. Toohigh.'

 PunktSentenceTokenizer().tokenize(text)
 #=> ['Sgt.', 'Maj.', 'A. Grinston found approx.', '2.2 miles up a creek on Mt.', 'Toohigh.']

 punkt_param = PunktParameters()
 punkt_param.abbrev_types = set(['sgt', 'maj', 'mt', 'approx'])
 tokenizer = PunktSentenceTokenizer(punkt_param)
 tokenizer.train(text)

 tokenizer.tokenize(text)
 #=> ['Sgt. Maj. A. Grinston found approx. 2.2 miles up a creek on Mt. Toohigh.']
	from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters

	text = 'Sgt. Maj. A. Grinston found approx. 2.2 miles up a creek on Mt. Toohigh.'

	PunktSentenceTokenizer().tokenize(text)
	#=> ['Sgt.', 'Maj.', 'A. Grinston found approx.', '2.2 miles up a creek on Mt.', 'Toohigh.']

	punkt_param = PunktParameters()
	punkt_param.abbrev_types = set(['sgt', 'maj', 'mt', 'approx'])
	tokenizer = PunktSentenceTokenizer(punkt_param)
	tokenizer.train(text)

	tokenizer.tokenize(text)
	#=> ['Sgt. Maj. A. Grinston found approx. 2.2 miles up a creek on Mt. Toohigh.']
No results found