Focusing

Kung-Hsiang Steeve Huang khuangaf

Focusing

Research Scientist @ Salesforce Research | Formerly: PhD @ UIUC, PhD Fellow @ Amazon, MSc @ USC, BEng @ HKUST | He/him/his 🇹🇼

khuangaf / gist:924ad4bc739c6684131f5226e182af19

Created May 28, 2019 14:47

	dataset = dataset.shuffle()
	train_dataset = dataset[:800000]
	val_dataset = dataset[800000:900000]
	test_dataset = dataset[900000:]
	len(train_dataset), len(val_dataset), len(test_dataset)

khuangaf / gist:80761d5376d7be4f09a6e7d957780f25

Created May 28, 2019 14:37

	import torch
	from torch_geometric.data import InMemoryDataset
	from tqdm import tqdm

	class YooChooseBinaryDataset(InMemoryDataset):
	def __init__(self, root, transform=None, pre_transform=None):
	super(YooChooseBinaryDataset, self).__init__(root, transform, pre_transform)
	self.data, self.slices = torch.load(self.processed_paths[0])

	@property

khuangaf / gist:04a332b44d1ff8cb6f71f73c0d2d0473

Created May 28, 2019 13:35

	import torch
	from torch_geometric.data import InMemoryDataset
	from tqdm import tqdm

	class YooChooseBinaryDataset(InMemoryDataset):

	def process(self):

	data_list = []

khuangaf / gist:d060fc08106661af0638e79c1dadee55

Created May 28, 2019 13:34

	import torch
	from torch_geometric.data import InMemoryDataset
	from tqdm import tqdm

	class YooChooseBinaryDataset(InMemoryDataset):

	def process(self):

	data_list = []

khuangaf / gist:289e5bb7e16e941a6e3ab0bf3e79828c

Created May 28, 2019 13:22

	data_list = []

	# process by session_id
	grouped = df.groupby('session_id')
	for session_id, group in tqdm(grouped):
	sess_item_id = LabelEncoder().fit_transform(group.item_id)
	group = group.reset_index(drop=True)
	group['sess_item_id'] = sess_item_id
	node_features = group.loc[group.session_id==session_id,['sess_item_id','item_id']].sort_values('sess_item_id').item_id.drop_duplicates().values

khuangaf / gist:9640f8831156a984a8d30a0c1449cb2b

Created May 28, 2019 13:22

	data_list = []

	# process by session_id
	grouped = df.groupby('session_id')
	for session_id, group in tqdm(grouped):
	sess_item_id = LabelEncoder().fit_transform(group.item_id)
	group = group.reset_index(drop=True)
	group['sess_item_id'] = sess_item_id
	node_features = group.loc[group.session_id==session_id,['sess_item_id','item_id']].sort_values('sess_item_id').item_id.drop_duplicates().values

khuangaf / gist:55e317df96958f661d1e245c7fd3cd57

Created May 28, 2019 03:19

	#randomly sample a couple of them
	sampled_session_id = np.random.choice(df.session_id.unique(), 1000000, replace=False)
	df = df.loc[df.session_id.isin(sampled_session_id)]
	df.nunique()

khuangaf / gist:3a7a5703c296084d10239620fb833990

Created May 26, 2019 13:33

	import torch
	from torch.nn import Sequential as Seq, Linear, ReLU
	from torch_geometric.nn import MessagePassing

	class SAGEConv(MessagePassing):
	def __init__(self, in_channels, out_channels):
	super(SAGEConv, self).__init__(aggr='max') # "Max" aggregation.
	self.lin = torch.nn.Linear(in_channels, out_channels)
	self.act = torch.nn.ReLU()
	self.update_weight = Parameter(torch.Tensor(in_channels + out_channels, in_channels))

khuangaf / gist:7f876c6ad4e4adcd36caea98b159b6f6

Created May 11, 2019 15:13

	import torch
	from torch_geometric.data import InMemoryDataset


	class MyOwnDataset(InMemoryDataset):
	def __init__(self, root, transform=None, pre_transform=None):
	super(MyOwnDataset, self).__init__(root, transform, pre_transform)
	self.data, self.slices = torch.load(self.processed_paths[0])

	@property

khuangaf / gist:235590365235b015ae82e2a823a56221

Created May 11, 2019 15:08

	df['label'] = df.session_id.isin(buy_df.session_id)
	df.head()