karamanbk

83 followers · 0 following

View GitHub Profile

Recently created

Least recently created

Recently updated

Least recently updated

karamanbk / g2_revenue_clustering.py

Created May 3, 2019 20:23

	#apply clustering
	kmeans = KMeans(n_clusters=4)
	kmeans.fit(tx_user[['Revenue']])
	tx_user['RevenueCluster'] = kmeans.predict(tx_user[['Revenue']])


	#order the cluster numbers
	tx_user = order_cluster('RevenueCluster', 'Revenue',tx_user,True)

	#show details of the dataframe

karamanbk / g2_overall_score.py

Last active May 3, 2019 20:30

	#calculate overall score and use mean() to see details
	tx_user['OverallScore'] = tx_user['RecencyCluster'] + tx_user['FrequencyCluster'] + tx_user['RevenueCluster']
	tx_user.groupby('OverallScore')['Recency','Frequency','Revenue'].mean()

karamanbk / g2_name_clusters.py

Created May 3, 2019 20:34

	tx_user['Segment'] = 'Low-Value'
	tx_user.loc[tx_user['OverallScore']>2,'Segment'] = 'Mid-Value'
	tx_user.loc[tx_user['OverallScore']>4,'Segment'] = 'High-Value'

karamanbk / g2_cluster_graph.py

Created May 3, 2019 20:40

	#Revenue vs Frequency
	tx_graph = tx_user.query("Revenue < 50000 and Frequency < 2000")

	plot_data = [
	go.Scatter(
	x=tx_graph.query("Segment == 'Low-Value'")['Frequency'],
	y=tx_graph.query("Segment == 'Low-Value'")['Revenue'],
	mode='markers',
	name='Low',
	marker= dict(size= 7,

karamanbk / g2_jpn.ipynb

Created May 3, 2019 20:45

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

karamanbk / g3_3m_rfm.py

Last active October 1, 2020 16:37

	#import libraries
	from datetime import datetime, timedelta,date
	import pandas as pd
	%matplotlib inline
	from sklearn.metrics import classification_report,confusion_matrix
	import matplotlib.pyplot as plt
	import numpy as np
	import seaborn as sns
	from __future__ import division
	from sklearn.cluster import KMeans

karamanbk / g3_ltv.py

Created May 4, 2019 09:20

	#calculate revenue and create a new dataframe for it
	tx_6m['Revenue'] = tx_6m['UnitPrice'] * tx_6m['Quantity']
	tx_user_6m = tx_6m.groupby('CustomerID')['Revenue'].sum().reset_index()
	tx_user_6m.columns = ['CustomerID','m6_Revenue']


	#plot LTV histogram
	plot_data = [
	go.Histogram(
	x=tx_user_6m.query('m6_Revenue < 10000')['m6_Revenue']

karamanbk / g3_merge.py

Last active March 31, 2020 01:22

	tx_merge = pd.merge(tx_user, tx_user_6m, on='CustomerID', how='left')
	tx_merge = tx_merge.fillna(0)

	tx_graph = tx_merge.query("m6_Revenue < 30000")

	plot_data = [
	go.Scatter(
	x=tx_graph.query("Segment == 'Low-Value'")['OverallScore'],
	y=tx_graph.query("Segment == 'Low-Value'")['m6_Revenue'],
	mode='markers',

karamanbk / g3_ltv_clusters.py

Last active March 31, 2020 01:22

	#remove outliers
	tx_merge = tx_merge[tx_merge['m6_Revenue']<tx_merge['m6_Revenue'].quantile(0.99)]


	#creating 3 clusters
	kmeans = KMeans(n_clusters=3)
	kmeans.fit(tx_merge[['m6_Revenue']])
	tx_merge['LTVCluster'] = kmeans.predict(tx_merge[['m6_Revenue']])

	#order cluster number based on LTV

karamanbk / g3_ltv_fe.py

Last active March 31, 2020 01:23

	#convert categorical columns to numerical
	tx_class = pd.get_dummies(tx_cluster)

	#calculate and show correlations
	corr_matrix = tx_class.corr()
	corr_matrix['LTVCluster'].sort_values(ascending=False)

	#create X and y, X will be feature set and y is the label - LTV
	X = tx_class.drop(['LTVCluster','m6_Revenue'],axis=1)
	y = tx_class['LTVCluster']