alexeyev · July 2, 2018 11:55
diff --git a/simple_plagiarism_check.py b/simple_plagiarism_check.py
 import difflib

 text_one = open("1.txt", "r").read()
 text_two = open("2.txt", "r").read()

 sm = difflib.SequenceMatcher(isjunk=None, a=text_one, b=text_two)
 mbs = sm.get_matching_blocks()

 for mb in mbs:
    if mb.size > 10:
        print("{", text_one[mb.a:mb.a + mb.size].replace("\n", " "))
        print("}", text_two[mb.b:mb.b + mb.size].replace("\n", " "))
        print()

 print("difflib: a total of ", len(mbs), "blocks matching exactly")
 print("difflib: ratio ", sm.ratio())

 ## -----------------

 from fuzzywuzzy import fuzz

 simple_ratio = fuzz.ratio(text_one, text_two)
 print("fuzzywuzzy: simple ratio =", simple_ratio)

 ## takes a while to compute

 # partial_ratio = fuzz.partial_ratio(text_one, text_two)
 # print(partial_ratio)
 #
 #
 # token_sort_ratio = fuzz.token_sort_ratio(text_one, text_two)
 # print(token_sort_ratio)
 #
 #
 # token_set_ratio = fuzz.token_set_ratio(text_one, text_two)
 # print(token_set_ratio)
	import difflib

	text_one = open("1.txt", "r").read()
	text_two = open("2.txt", "r").read()

	sm = difflib.SequenceMatcher(isjunk=None, a=text_one, b=text_two)
	mbs = sm.get_matching_blocks()

	for mb in mbs:
	if mb.size > 10:
	print("{", text_one[mb.a:mb.a + mb.size].replace("\n", " "))
	print("}", text_two[mb.b:mb.b + mb.size].replace("\n", " "))
	print()

	print("difflib: a total of ", len(mbs), "blocks matching exactly")
	print("difflib: ratio ", sm.ratio())

	## -----------------

	from fuzzywuzzy import fuzz

	simple_ratio = fuzz.ratio(text_one, text_two)
	print("fuzzywuzzy: simple ratio =", simple_ratio)

	## takes a while to compute

	# partial_ratio = fuzz.partial_ratio(text_one, text_two)
	# print(partial_ratio)
	#
	#
	# token_sort_ratio = fuzz.token_sort_ratio(text_one, text_two)
	# print(token_sort_ratio)
	#
	#
	# token_set_ratio = fuzz.token_set_ratio(text_one, text_two)
	# print(token_set_ratio)