Colin Pollock colinpollock

colinpollock / spacy_similarity.py

Created October 5, 2019 23:54

	import spacy

	nlp = spacy.load('en_vectors_web_lg')

	text1 = 'The medical field is moving forward rapidly.'
	text2 = 'Medicine is vital to the industry.'
	text3 = 'Reggie Miller is a basketball player.'

	doc1 = nlp(text1)
	doc2 = nlp(text2)

colinpollock / with_context.py

Created December 12, 2019 00:56

	sentence = 'Reggie Miller grew up in Riverside before going to UCLA.'
	phrase = 'Riverside'
	start_index = sentence.find(phrase)
	end_index = start_index + len(phrase)
	sentence[start_index-10:end_index+10]
	# 'rew up in Riverside before go'

colinpollock / splitting.py

Created February 12, 2020 03:06

colinpollock / cluster_categories.py

Created February 12, 2023 03:28

	"""Make initial clusters of categories to bootstrap top-level categories."""

	from collections import defaultdict

	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.cluster import KMeans, MiniBatchKMeans

	from j_util import get_rows