ispapadakis · July 15, 2022 17:34
diff --git a/pid_cartpole.py b/pid_cartpole.py
 import numpy as np
 import gym

 def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

 env = gym.make('CartPole-v1')
 desired_state = np.array([0, 0, 0, 0])
 desired_mask = np.array([0, 0, 1, 0])

 P, I, D = 0.1, 0.01, 0.5

 for i_episode in range(20):
    state = env.reset()
    integral = 0
    derivative = 0
    prev_error = 0
    for t in range(500):
        env.render()
        error = state - desired_state

        integral += error
        derivative = error - prev_error
        prev_error = error

        pid = np.dot(P * error + I * integral + D * derivative, desired_mask)
        action = sigmoid(pid)
        action = np.round(action).astype(np.int32)

        state, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
 env.close()
	import numpy as np
	import gym

	def sigmoid(x):
	return 1.0 / (1.0 + np.exp(-x))

	env = gym.make('CartPole-v1')
	desired_state = np.array([0, 0, 0, 0])
	desired_mask = np.array([0, 0, 1, 0])

	P, I, D = 0.1, 0.01, 0.5

	for i_episode in range(20):
	state = env.reset()
	integral = 0
	derivative = 0
	prev_error = 0
	for t in range(500):
	env.render()
	error = state - desired_state

	integral += error
	derivative = error - prev_error
	prev_error = error

	pid = np.dot(P * error + I * integral + D * derivative, desired_mask)
	action = sigmoid(pid)
	action = np.round(action).astype(np.int32)

	state, reward, done, info = env.step(action)
	if done:
	print("Episode finished after {} timesteps".format(t+1))
	break
	env.close()