fscottfoti · September 25, 2015 19:31 · fscottfoti · Sep 25, 2015
diff --git a/geomid2.py b/geomid2.py
 from sklearn.neighbors import KDTree

 def nearest_neighbor(df1, df2):
    kdt = KDTree(df1.as_matrix())
    distances, indexes = kdt.query(df2.as_matrix(), k=1, return_distance=True)
    return pd.Series(distances.flatten(), index=df1.index.values[indexes.flatten()])


 import sys
 import pandas as pd
 import numpy as np
 args = sys.argv[1:]

 df1 = pd.read_csv(args[0], index_col="GEOM_ID")
 df1["area"] = df1.area.apply(np.sqrt)

 df2 = pd.read_csv(args[1], index_col="GEOM_ID")
 df2["area"] = df2.area.apply(np.sqrt)

 s = nearest_neighbor(df1, df2).order()
 print s.describe()
 print s.tail()
diff --git a/matches (distant).csv b/matches (distant).csv
	from sklearn.neighbors import KDTree

	def nearest_neighbor(df1, df2):
	kdt = KDTree(df1.as_matrix())
	distances, indexes = kdt.query(df2.as_matrix(), k=1, return_distance=True)
	return pd.Series(distances.flatten(), index=df1.index.values[indexes.flatten()])


	import sys
	import pandas as pd
	import numpy as np
	args = sys.argv[1:]

	df1 = pd.read_csv(args[0], index_col="GEOM_ID")
	df1["area"] = df1.area.apply(np.sqrt)

	df2 = pd.read_csv(args[1], index_col="GEOM_ID")
	df2["area"] = df2.area.apply(np.sqrt)

	s = nearest_neighbor(df1, df2).order()
	print s.describe()
	print s.tail()