Nikola Živković NMZivkovic

Freedom. Wisdom. Exellence.

NMZivkovic / training.py

Created December 23, 2019 12:06

	agent.train_step_counter.assign(0)

	avg_return = get_average_return(evaluation_env, agent.policy, EVAL_EPISODES)
	returns = [avg_return]

	for _ in range(NUMBER_ITERATION):

	for _ in range(COLLECTION_STEPS):
	experience_replay.timestamp_data(train_env, agent.collect_policy)

NMZivkovic / ExperienceReply.py

Created December 23, 2019 11:46

	class ExperienceReply(object):
	def __init__(self, agent, enviroment):
	self._replay_buffer = TFUniformReplayBuffer(
	data_spec=agent.collect_data_spec,
	batch_size=enviroment.batch_size,
	max_length=50000)

	self._random_policy = RandomTFPolicy(train_env.time_step_spec(),
	enviroment.action_spec())

NMZivkovic / average_return.py

Created December 23, 2019 11:16

	def get_average_return(environment, policy, episodes=10):

	total_return = 0.0

	for _ in range(episodes):
	time_step = environment.reset()
	episode_return = 0.0

	while not time_step.is_last():
	action_step = policy.action(time_step)

NMZivkovic / DQNAgent.py

Created December 23, 2019 11:12

	counter = tf.Variable(0)

	agent = DqnAgent(
	train_env.time_step_spec(),
	train_env.action_spec(),
	q_network = q_network,
	optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=1e-3),
	td_errors_loss_fn = common.element_wise_squared_loss,
	train_step_counter = counter)

NMZivkovic / qnetwork.py

Created December 23, 2019 11:08

	hidden_layers = (100,)

	q_network = QNetwork(
	train_env.observation_spec(),
	train_env.action_spec(),
	fc_layer_params=hidden_layers)

NMZivkovic / qnet_constructor.py

Created December 23, 2019 11:02

	class QNetwork(network.Network):
	"""Feed Forward network."""

	def __init__(self,
	input_tensor_spec,
	action_spec,
	preprocessing_layers=None,
	preprocessing_combiner=None,
	conv_layer_params=None,
	fc_layer_params=(75, 40),

NMZivkovic / enviroments.py

Created December 23, 2019 10:40

	train_env = suite_gym.load('CartPole-v0')
	evaluation_env = suite_gym.load('CartPole-v0')

	print('Observation Spec:')
	print(train_env.time_step_spec().observation)

	print('Reward Spec:')
	print(train_env.time_step_spec().reward)

	print('Action Spec:')

NMZivkovic / imports_globals.py

Last active December 23, 2019 11:00

	import base64
	import imageio
	import matplotlib
	import matplotlib.pyplot as plt

	import tensorflow as tf

	from tf_agents.agents.dqn.dqn_agent import DqnAgent
	from tf_agents.networks.q_network import QNetwork

NMZivkovic / usage.py

Created December 7, 2019 12:06

	dataProcessor = DataProcessor(32, 300, 500, list_dataset)
	dataProcessor.load_process()

	image_batch, label_batch = dataProcessor.get_batch()

NMZivkovic / load_process.py

Last active February 2, 2020 16:36

	def load_process(self, shuffle_size = 1000):
	self.loaded_dataset = self.dataset.map(self._load_labeled_data, num_parallel_calls=tf.data.experimental.AUTOTUNE)

	self.loaded_dataset = self.loaded_dataset.cache()

	# Shuffle data and create batches
	self.loaded_dataset = self.loaded_dataset.shuffle(buffer_size=shuffle_size)
	self.loaded_dataset = self.loaded_dataset.repeat()
	self.loaded_dataset = self.loaded_dataset.batch(self.batch_size)