Rahul Agarwal MLWhiz

🤓

Focusing

Autodidact Data Scientist, Amateur Guitarist, Pessimistic Go-getter.

MLWhiz / connected_components_mapreduce.py

Created January 20, 2019 18:06

MLWhiz / connected_components_graphframes.py

Created January 20, 2019 18:07

	from graphframes import *
	def vertices(line):
	vert = [int(x) for x in line.split(" ")]
	return vert

	vertices = adjacency_list.flatMap(lambda x: vertices(x)).distinct().collect()
	vertices = sqlContext.createDataFrame([[x] for x in vertices], ["id"])

	def create_edges(line):
	a = [int(x) for x in line.split(" ")]

MLWhiz / stem_text.py

Created February 9, 2019 08:00

	from nltk.stem import SnowballStemmer
	from nltk.tokenize.toktok import ToktokTokenizer
	def stem_text(text):
	tokenizer = ToktokTokenizer()
	stemmer = SnowballStemmer('english')
	tokens = tokenizer.tokenize(text)
	tokens = [token.strip() for token in tokens]
	tokens = [stemmer.stem(token) for token in tokens]
	return ' '.join(tokens)

MLWhiz / lemma.py

Created February 9, 2019 08:01

	from nltk.stem import WordNetLemmatizer
	from nltk.tokenize.toktok import ToktokTokenizer
	def lemma_text(text):
	tokenizer = ToktokTokenizer()
	tokens = tokenizer.tokenize(text)
	tokens = [token.strip() for token in tokens]
	tokens = [wordnet_lemmatizer.lemmatize(token) for token in tokens]
	return ' '.join(tokens)

MLWhiz / clean_steps.py

Created February 9, 2019 08:02

MLWhiz / countvect.py

Created February 9, 2019 08:02

	cnt_vectorizer = CountVectorizer(dtype=np.float32,
	strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
	ngram_range=(1, 3),min_df=3)


	# we fit count vectorizer to get ngrams from both train and test data.
	cnt_vectorizer.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))

	xtrain_cntv = cnt_vectorizer.transform(train_df.cleaned_text.values)
	xtest_cntv = cnt_vectorizer.transform(test_df.cleaned_text.values)

MLWhiz / tfv.py

Created February 9, 2019 08:05

	# Always start with these features. They work (almost) everytime!
	tfv = TfidfVectorizer(dtype=np.float32, min_df=3, max_features=None,
	strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
	ngram_range=(1, 3), use_idf=1,smooth_idf=1,sublinear_tf=1,
	stop_words = 'english')

	# Fitting TF-IDF to both training and test sets (semi-supervised learning)
	tfv.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))
	xtrain_tfv = tfv.transform(train_df.cleaned_text.values)
	xvalid_tfv = tfv.transform(test_df.cleaned_text.values)

MLWhiz / hv.py

Created February 9, 2019 08:06

	# Always start with these features. They work (almost) everytime!
	hv = HashingVectorizer(dtype=np.float32,
	strip_accents='unicode', analyzer='word',
	ngram_range=(1, 4),n_features=2**12,non_negative=True)
	# Fitting Hash Vectorizer to both training and test sets (semi-supervised learning)
	hv.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))
	xtrain_hv = hv.transform(train_df.cleaned_text.values)
	xvalid_hv = hv.transform(test_df.cleaned_text.values)
	y_train = train_df.target.values

MLWhiz / glove_embedding.py

Created February 9, 2019 08:07

	# load the GloVe vectors in a dictionary:
	def load_glove_index():
	EMBEDDING_FILE = '../input/embeddings/glove.840B.300d/glove.840B.300d.txt'
	def get_coefs(word,*arr): return word, np.asarray(arr, dtype='float32')[:300]
	embeddings_index = dict(get_coefs(*o.split(" ")) for o in open(EMBEDDING_FILE))
	return embeddings_index

	embeddings_index = load_glove_index()

	print('Found %s word vectors.' % len(embeddings_index))

MLWhiz / load_embedding.py

Created February 21, 2019 17:03

	from nltk.stem import PorterStemmer
	ps = PorterStemmer()
	from nltk.stem.lancaster import LancasterStemmer
	lc = LancasterStemmer()
	from nltk.stem import SnowballStemmer
	sb = SnowballStemmer("english")
	def load_glove(word_dict, lemma_dict):
	EMBEDDING_FILE = '../input/embeddings/glove.840B.300d/glove.840B.300d.txt'
	def get_coefs(word,*arr): return word, np.asarray(arr, dtype='float32')
	embeddings_index = dict(get_coefs(*o.split(" ")) for o in open(EMBEDDING_FILE))