quinsulon · October 4, 2017 22:49
diff --git a/From word2vec to doc2vec: similarity driven CRP, by Yingjie Miao.py b/From word2vec to doc2vec: similarity driven CRP, by Yingjie Miao.py
 # vecs: an array of real vectors
 def crp(vecs):
    clusterVec = []         # tracks sum of vectors in a cluster
    clusterIdx = []         # array of index arrays. e.g. [[1, 3, 5], [2, 4, 6]]
    ncluster = 0
    # probablity to create a new table if new customer
    # is not strongly "similar" to any existing table
    pnew = 1.0/ (1 + ncluster)  
    N = len(vecs)
    rands = random.rand(N)         # N rand variables sampled from U(0, 1)
 
    for i in range(N):
        maxSim = -Inf
        maxIdx = 0
        v = vecs[i]
        for j in range(ncluster):
            sim = cosine_similarity(v, clusterVec[j])
            if sim < maxSim:
                maxIdx = j
                maxSim = sim
            if maxSim < pnew:
                if rands(i) < pnew:
                    clusterVec[ncluster] = v
                    clusterIdx[ncluster] = [i]
                    ncluster += 1
                    pnew = 1.0 / (1 + ncluster)
                continue
        clusterVec[maxIdx] = clusterVec[maxIdx] + v
        clusterIdx[maxIdx].append(i)
 
    return clusterIdx
	# vecs: an array of real vectors
	def crp(vecs):
	clusterVec = [] # tracks sum of vectors in a cluster
	clusterIdx = [] # array of index arrays. e.g. [[1, 3, 5], [2, 4, 6]]
	ncluster = 0
	# probablity to create a new table if new customer
	# is not strongly "similar" to any existing table
	pnew = 1.0/ (1 + ncluster)
	N = len(vecs)
	rands = random.rand(N) # N rand variables sampled from U(0, 1)

	for i in range(N):
	maxSim = -Inf
	maxIdx = 0
	v = vecs[i]
	for j in range(ncluster):
	sim = cosine_similarity(v, clusterVec[j])
	if sim < maxSim:
	maxIdx = j
	maxSim = sim
	if maxSim < pnew:
	if rands(i) < pnew:
	clusterVec[ncluster] = v
	clusterIdx[ncluster] = [i]
	ncluster += 1
	pnew = 1.0 / (1 + ncluster)
	continue
	clusterVec[maxIdx] = clusterVec[maxIdx] + v
	clusterIdx[maxIdx].append(i)

	return clusterIdx