gjreda · October 19, 2018 03:45 · earroyo · Oct 19, 2018
diff --git a/pandas-groupby-cumsum.py b/pandas-groupby-cumsum.py
 """
 add grouped cumulative sum column to pandas dataframe

 Add a new column to a pandas dataframe which holds the cumulative sum for a given grouped window

 Desired output:
 user_id,day,session_minutes,cumulative_minutes
 516530,0,NaN,0
 516530,1,0,0
 516532,0,5,5
 516532,1,33,38
 516534,0,32,32
 516534,1,104,136
 516535,0,5,5
 516535,1,0,5
 """
 import pandas as pd
 from StringIO import StringIO

 data = """
 user_id,day,session_minutes
 516530,0,NaN
 516530,1,0
 516532,0,5
 516532,1,33
 516534,0,32
 516534,1,104
 516535,0,5
 516535,1,0
 """

 df = pd.read_csv(StringIO(data))
 cumsums = df.groupby(['user_id', 'day']).sum().fillna(0).groupby(level=0).cumsum()
 df.set_index(['user_id', 'day'], inplace=True)
 df['cumulative_minutes'] = cumsums
 df.reset_index(inplace=True)
 print(df)

 #   user_id  day  session_minutes  cumulative_minutes
 # 0   516530    0              NaN                   0
 # 1   516530    1                0                   0
 # 2   516532    0                5                   5
 # 3   516532    1               33                  38
 # 4   516534    0               32                  32
 # 5   516534    1              104                 136
 # 6   516535    0                5                   5
 # 7   516535    1                0                   5
	"""
	add grouped cumulative sum column to pandas dataframe

	Add a new column to a pandas dataframe which holds the cumulative sum for a given grouped window

	Desired output:
	user_id,day,session_minutes,cumulative_minutes
	516530,0,NaN,0
	516530,1,0,0
	516532,0,5,5
	516532,1,33,38
	516534,0,32,32
	516534,1,104,136
	516535,0,5,5
	516535,1,0,5
	"""
	import pandas as pd
	from StringIO import StringIO

	data = """
	user_id,day,session_minutes
	516530,0,NaN
	516530,1,0
	516532,0,5
	516532,1,33
	516534,0,32
	516534,1,104
	516535,0,5
	516535,1,0
	"""

	df = pd.read_csv(StringIO(data))
	cumsums = df.groupby(['user_id', 'day']).sum().fillna(0).groupby(level=0).cumsum()
	df.set_index(['user_id', 'day'], inplace=True)
	df['cumulative_minutes'] = cumsums
	df.reset_index(inplace=True)
	print(df)

	# user_id day session_minutes cumulative_minutes
	# 0 516530 0 NaN 0
	# 1 516530 1 0 0
	# 2 516532 0 5 5
	# 3 516532 1 33 38
	# 4 516534 0 32 32
	# 5 516534 1 104 136
	# 6 516535 0 5 5
	# 7 516535 1 0 5