Volodymyr Miz mizvol

🦒

Focusing

Researcher, Software Engineer. Interests: Machine Learning, Data Analysis, Visualization, Signal Processing.

mizvol / Tags LDA topic analysis.ipynb

Created January 18, 2017 10:03

LDA topic analysis of Instagram hashtags for clustering. Analysis + Visualization in D3JS

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

mizvol / sparkTest.scala

Last active July 17, 2017 20:49

	import org.apache.spark.sql.SparkSession

	object SparkWordCount extends App {

	val spark = SparkSession.builder
	.master("local[*]")
	.appName("Spark Word Count")
	.getOrCreate()

	val lines = spark.sparkContext.parallelize(

mizvol / build.sbt

Last active October 26, 2018 15:29

mizvol / mongoAggregatePosts.js

Created April 21, 2017 10:03

	db.allPosts.aggregate([
	{$group: {_id: "$user.id", tags: {$addToSet: "$tags"}}},
	{$unwind: "$tags"},
	{$unwind: "$tags"},
	{$group: {_id: "$_id", tags: {$addToSet: "$tags"}}},
	{$out: "tags"}
	])

mizvol / tagsListDF.py

Created April 21, 2017 10:05

	import pymongo as pm
	import unicodedata

	client = pm.MongoClient()
	db = client.instagram
	tagsDB = db.tags

	tagsList = []
	for tag in tagsDB.find():
	tagsList.append((str(tag['_id']), [unicodedata.normalize('NFKD', t).encode('ascii','ignore')

mizvol / tagsLDA.py

Created April 21, 2017 10:06

	from pyspark.mllib.clustering import LDA, LDAModel
	from pyspark.mllib.feature import IDF
	from pyspark.ml.feature import CountVectorizer

	#vectorize tags array for each user
	vectorizer = CountVectorizer(inputCol="tokens", outputCol="features").fit(tagsListDF)
	countVectors = vectorizer.transform(tagsListDF).select("id", "features")

	#find TF-IDF coefficients for each tag
	frequencyVectors = countVectors.map(lambda vector: vector[1])

mizvol / jsonTags.py

Created April 21, 2017 10:08

	topicIndices = ldaModel.describeTopics(maxTermsPerTopic=5)
	vocablist = vectorizer.vocabulary

	topicsRDD = sc.parallelize(topicIndices)
	termsRDD = topicsRDD.map(lambda topic: (zip(itemgetter(*topic[0])(vocablist), topic[1])))

	indexedTermsRDD = termsRDD.zipWithIndex()
	termsRDD = indexedTermsRDD.flatMap(lambda term: [(t[0], t[1], term[1]) for t in term[0]])
	termDF = termsRDD.toDF(['term', 'probability', 'topicId'])

mizvol / getInstaPosts.py

Created April 21, 2017 10:51

	from requests import get, Session, adapters

	def getInstaPosts(latitude, longitude, distance, minTimestamp, maxTimestamp, count):
	params = {
	'lat': latitude,
	'lng': longitude,
	'distance': distance, # radius of requested area
	'min_timestamp': str(minTimestamp), #start date
	'max_timestamp': str(maxTimestamp), #end date
	'count': COUNT, # number of posts(100 max)

mizvol / mongoAggregateById.js

Created April 21, 2017 10:52

mizvol / getFollowers.py

Created April 21, 2017 10:53

	def getFollowers(userId, nextCursor):
	params = {
	'cursor': nextCursor,
	'access_token': INSTAGRAM_ACCESS_TOKEN
	}

	session = Session()
	session.mount("https://", adapters.HTTPAdapter(max_retries=50))
	response = session.get("https://api.instagram.com/v1/users/" + userId + "/followed-by", params = params, verify = True)