Abhayparashar31 · July 22, 2022 03:41
diff --git a/Filling_Categories_Proportionally.py b/Filling_Categories_Proportionally.py
 def fill_proportionally(col, dataset):
    import random
    random.seed(0)
    
    # getting all unique values (without nan)
    values = dataset[col].dropna().unique()
    
    # getting weights for probability weighting
    weights = dataset[col].value_counts().values / dataset[col].value_counts().values.sum()
    print('Before Imputation Probablity Weights\n',weights)
    # filling
    dataset[col] = dataset[col].apply(lambda x: random.choices(values, weights=weights)[0] if pd.isnull(x) else x)
    
 import pandas as pd
 df = pd.read_csv('https://raw.githubusercontent.com/Abhayparashar31/datasets/master/titanic.csv')

 ### Imputing Missing Categories 
 fill_proportionally('Embarked', df)
	def fill_proportionally(col, dataset):
	import random
	random.seed(0)

	# getting all unique values (without nan)
	values = dataset[col].dropna().unique()

	# getting weights for probability weighting
	weights = dataset[col].value_counts().values / dataset[col].value_counts().values.sum()
	print('Before Imputation Probablity Weights\n',weights)
	# filling
	dataset[col] = dataset[col].apply(lambda x: random.choices(values, weights=weights)[0] if pd.isnull(x) else x)

	import pandas as pd
	df = pd.read_csv('https://raw.githubusercontent.com/Abhayparashar31/datasets/master/titanic.csv')

	### Imputing Missing Categories
	fill_proportionally('Embarked', df)