chetkhatri · November 24, 2016 06:34 · chetkhatri · Nov 24, 2016
diff --git a/sample-nltk b/sample-nltk
 import nltk
 import re
 with open('/home/chetan/Documents/sample-certificate.txt','r') as file:
 	text = file.read()
 # print(text)
 sentences = nltk.sent_tokenize(text)
 tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
 # print(tokenized_sentences)
 sign_date = {}

 for indecies, elements in enumerate(tokenized_sentences):
 	for index, element in enumerate(elements):
 		elements.append(element)
 		if(element == "dated"):
 			sign_date[indecies] = index 
 			print(index)
 		elif(element == ','):
 			sign_date.append(index)
 			sign_date[indecies] = index
 		
 print(elements)
 regex = re.compile(r"BP(\d{8})")
 result = regex.search(text)
 print('Agreement Number: '+result.group())
	import nltk
	import re
	with open('/home/chetan/Documents/sample-certificate.txt','r') as file:
	text = file.read()
	# print(text)
	sentences = nltk.sent_tokenize(text)
	tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
	# print(tokenized_sentences)
	sign_date = {}

	for indecies, elements in enumerate(tokenized_sentences):
	for index, element in enumerate(elements):
	elements.append(element)
	if(element == "dated"):
	sign_date[indecies] = index
	print(index)
	elif(element == ','):
	sign_date.append(index)
	sign_date[indecies] = index

	print(elements)
	regex = re.compile(r"BP(\d{8})")
	result = regex.search(text)
	print('Agreement Number: '+result.group())
No results found