dkoslicki · April 20, 2017 23:52
diff --git a/TestBias.py b/TestBias.py
 import sourmash_lib
 import numpy as np
 import matplotlib.pyplot as plt

 n = 10000  # sequence length
 ksize = 10  # k-mer length
 h = 5000  # number of hashes in sketch
 i_range = range(1, 50000, 100)  # range of intersection sizes
 true_jaccards = np.zeros(len(i_range))
 estimate_jaccards = np.zeros(len(i_range))
 it = 0
 for i_size in i_range:
 	# Append a common string to two different random strings (true jaccard will be ~ i_size/n)
 	common_string = ''.join(np.random.choice(['A', 'C', 'T', 'G'], i_size))
 	seq1 = ''.join(np.random.choice(['A', 'C', 'T', 'G'], n)) + common_string
 	seq2 = ''.join(np.random.choice(['A', 'C', 'T', 'G'], n)) + common_string

 	# Calculate exact Jaccard index
 	kmers1 = set()
 	kmers2 = set()
 	for i in xrange(len(seq1) - ksize + 1):
 		kmers1.add(seq1[i:i+ksize])

 	for i in xrange(len(seq2) - ksize + 1):
 		kmers2.add(seq2[i:i+ksize])

 	true_jaccard = len(kmers1.intersection(kmers2)) / float(len(kmers1.union(kmers2)))
 	# in case E1.jaccard(E2) is computing containment. It isn't (using commit 6609b3a)
 	#true_jaccard = len(kmers1.intersection(kmers2)) / float(len(kmers1))
 	true_jaccards[it] = true_jaccard

 	# Calculate sourmash estimate of Jaccard index
 	E1 = sourmash_lib.MinHash(n=h, ksize=ksize)
 	E2 = sourmash_lib.MinHash(n=h, ksize=ksize)
 	E1.add_sequence(seq1)
 	E2.add_sequence(seq2)
 	estimate_jaccard = E1.jaccard(E2)
 	estimate_jaccards[it] = estimate_jaccard
 	it += 1

 differences = true_jaccards - estimate_jaccards
 sorted_true = sorted(true_jaccards)
 sorted_estimates = np.array([x for (y, x) in sorted(zip(true_jaccards, estimate_jaccards), key=lambda pair: pair[0])])
 sorted_differences = sorted_true - sorted_estimates
 plt.figure()
 plt.plot(sorted_true, sorted_differences)
 axes = plt.gca()
 axes.set_ylim([np.min(plt.yticks()[0])*1.5, np.max(plt.yticks()[0])*1.5])
 plt.title('True - estimate Jaccard index')
 plt.text(0, 0, 'Underestimate', rotation=90, horizontalalignment='center', verticalalignment='bottom', multialignment='center', color='b', fontsize=14)
 plt.text(0, 0, 'Overestimate', rotation=90, horizontalalignment='center', verticalalignment='top', multialignment='center', color='r', fontsize=14)
 plt.axhline(0, color='black', linestyle='dashed', linewidth=2)
 plt.ylabel('Difference')
 plt.xlabel('True Jaccard index')
 plt.savefig('Differences.png')

 plt.figure()
 n, bins, patches = plt.hist(differences, 50, normed=1, facecolor='green', alpha=0.75)
 plt.axvline(0, color='b', linestyle='dashed', linewidth=2)
 plt.title('Histogram of (true - estimate) Jaccard index\n Mean: %f' % np.mean(differences))
 plt.text(0, max(plt.yticks()[0])-1, 'Underestimate', rotation=0, horizontalalignment='left', verticalalignment='top', multialignment='left', color='b', fontsize=14)
 plt.text(plt.xticks()[0][1], max(plt.yticks()[0])-1, 'Overestimate', rotation=0, horizontalalignment='left', verticalalignment='top', multialignment='left', color='r', fontsize=14)
 plt.xlabel('Difference')
 plt.savefig('Histogram.png')
	import sourmash_lib
	import numpy as np
	import matplotlib.pyplot as plt

	n = 10000 # sequence length
	ksize = 10 # k-mer length
	h = 5000 # number of hashes in sketch
	i_range = range(1, 50000, 100) # range of intersection sizes
	true_jaccards = np.zeros(len(i_range))
	estimate_jaccards = np.zeros(len(i_range))
	it = 0
	for i_size in i_range:
	# Append a common string to two different random strings (true jaccard will be ~ i_size/n)
	common_string = ''.join(np.random.choice(['A', 'C', 'T', 'G'], i_size))
	seq1 = ''.join(np.random.choice(['A', 'C', 'T', 'G'], n)) + common_string
	seq2 = ''.join(np.random.choice(['A', 'C', 'T', 'G'], n)) + common_string

	# Calculate exact Jaccard index
	kmers1 = set()
	kmers2 = set()
	for i in xrange(len(seq1) - ksize + 1):
	kmers1.add(seq1[i:i+ksize])

	for i in xrange(len(seq2) - ksize + 1):
	kmers2.add(seq2[i:i+ksize])

	true_jaccard = len(kmers1.intersection(kmers2)) / float(len(kmers1.union(kmers2)))
	# in case E1.jaccard(E2) is computing containment. It isn't (using commit 6609b3a)
	#true_jaccard = len(kmers1.intersection(kmers2)) / float(len(kmers1))
	true_jaccards[it] = true_jaccard

	# Calculate sourmash estimate of Jaccard index
	E1 = sourmash_lib.MinHash(n=h, ksize=ksize)
	E2 = sourmash_lib.MinHash(n=h, ksize=ksize)
	E1.add_sequence(seq1)
	E2.add_sequence(seq2)
	estimate_jaccard = E1.jaccard(E2)
	estimate_jaccards[it] = estimate_jaccard
	it += 1

	differences = true_jaccards - estimate_jaccards
	sorted_true = sorted(true_jaccards)
	sorted_estimates = np.array([x for (y, x) in sorted(zip(true_jaccards, estimate_jaccards), key=lambda pair: pair[0])])
	sorted_differences = sorted_true - sorted_estimates
	plt.figure()
	plt.plot(sorted_true, sorted_differences)
	axes = plt.gca()
	axes.set_ylim([np.min(plt.yticks()[0])1.5, np.max(plt.yticks()[0])1.5])
	plt.title('True - estimate Jaccard index')
	plt.text(0, 0, 'Underestimate', rotation=90, horizontalalignment='center', verticalalignment='bottom', multialignment='center', color='b', fontsize=14)
	plt.text(0, 0, 'Overestimate', rotation=90, horizontalalignment='center', verticalalignment='top', multialignment='center', color='r', fontsize=14)
	plt.axhline(0, color='black', linestyle='dashed', linewidth=2)
	plt.ylabel('Difference')
	plt.xlabel('True Jaccard index')
	plt.savefig('Differences.png')

	plt.figure()
	n, bins, patches = plt.hist(differences, 50, normed=1, facecolor='green', alpha=0.75)
	plt.axvline(0, color='b', linestyle='dashed', linewidth=2)
	plt.title('Histogram of (true - estimate) Jaccard index\n Mean: %f' % np.mean(differences))
	plt.text(0, max(plt.yticks()[0])-1, 'Underestimate', rotation=0, horizontalalignment='left', verticalalignment='top', multialignment='left', color='b', fontsize=14)
	plt.text(plt.xticks()[0][1], max(plt.yticks()[0])-1, 'Overestimate', rotation=0, horizontalalignment='left', verticalalignment='top', multialignment='left', color='r', fontsize=14)
	plt.xlabel('Difference')
	plt.savefig('Histogram.png')