jakevdp · September 29, 2011 14:04
diff --git a/README b/README
 code demonstrating the problem seen in issue #365

 to run the example:
  tar -zxvf data.tgz
  python test.py
diff --git a/data.tgz b/data.tgz
diff --git a/test.py b/test.py
 import numpy as np
 from operator import itemgetter
 from sklearn.feature_extraction.text import Vectorizer
 from sklearn.neighbors import KNeighborsClassifier
 from sklearn.datasets import load_files

 data_train = load_files('data_train')
 data_test = load_files('data_test')

 categories = data_train.target_names

 # split a training set and a test set
 y_train, y_test = data_train.target, data_test.target

 vectorizer = Vectorizer()

 X_train = vectorizer.fit_transform(data_train.data)
 X_test = vectorizer.transform(data_test.data)

 vocabulary = np.array([t for t, i in sorted(vectorizer.vocabulary.iteritems(),
                                            key=itemgetter(1))])

 knnfitted = KNeighborsClassifier(n_neighbors=1000,
                                 algorithm='brute').fit(X_train, y_train)
 pred = knnfitted.predict(X_test)
 print 1.0 * sum(pred) / len(pred)
	code demonstrating the problem seen in issue #365

	to run the example:
	tar -zxvf data.tgz
	python test.py
	import numpy as np
	from operator import itemgetter
	from sklearn.feature_extraction.text import Vectorizer
	from sklearn.neighbors import KNeighborsClassifier
	from sklearn.datasets import load_files

	data_train = load_files('data_train')
	data_test = load_files('data_test')

	categories = data_train.target_names

	# split a training set and a test set
	y_train, y_test = data_train.target, data_test.target

	vectorizer = Vectorizer()

	X_train = vectorizer.fit_transform(data_train.data)
	X_test = vectorizer.transform(data_test.data)

	vocabulary = np.array([t for t, i in sorted(vectorizer.vocabulary.iteritems(),
	key=itemgetter(1))])

	knnfitted = KNeighborsClassifier(n_neighbors=1000,
	algorithm='brute').fit(X_train, y_train)
	pred = knnfitted.predict(X_test)
	print 1.0 * sum(pred) / len(pred)