David Foster davidADSP

Founding Partner, Applied Data Science Partners | Author of 'Generative Deep Learning' (O'Reilly)

davidADSP / pseudocode.py

Last active December 1, 2019 22:02

ReplayBuffer (https://arxiv.org/src/1911.08265v1/anc/pseudocode.py)

	class ReplayBuffer(object):

	def __init__(self, config: MuZeroConfig):
	self.window_size = config.window_size
	self.batch_size = config.batch_size
	self.buffer = []

	def save_game(self, game):
	if len(self.buffer) > self.window_size:
	self.buffer.pop(0)

davidADSP / pseudocode.py

Created November 29, 2019 13:32

SharedStorage (https://arxiv.org/src/1911.08265v1/anc/pseudocode.py)

	class SharedStorage(object):

	def __init__(self):
	self._networks = {}

	def latest_network(self) -> Network:
	if self._networks:
	return self._networks[max(self._networks.keys())]
	else:
	# policy -> uniform, value -> 0, reward -> 0

davidADSP / pseudocode.py

Last active November 29, 2019 13:31

MuZeroConfig (https://arxiv.org/src/1911.08265v1/anc/pseudocode.py)

davidADSP / pseudocode.py

Last active January 26, 2021 09:16

muzero (https://arxiv.org/src/1911.08265v1/anc/pseudocode.py)

	def muzero(config: MuZeroConfig):
	storage = SharedStorage()
	replay_buffer = ReplayBuffer(config)

	for _ in range(config.num_actors):
	launch_job(run_selfplay, config, storage, replay_buffer)

	train_network(config, storage, replay_buffer)

	return storage.latest_network()