suragnair · November 29, 2023 16:15 · Tanuj1209 · Sep 8, 2020 · suragnair · Sep 9, 2020
diff --git a/mcts.py b/mcts.py
 def search(s, game, nnet):
    if game.gameEnded(s): return -game.gameReward(s)

    if s not in visited:
        visited.add(s)
        P[s], v = nnet.predict(s)
        return -v
  
    max_u, best_a = -float("inf"), -1
    for a in game.getValidActions(s):
        u = Q[s][a] + c_puct*P[s][a]*sqrt(sum(N[s]))/(1+N[s][a])
        if u>max_u:
            max_u = u
            best_a = a
    a = best_a
    
    sp = game.nextState(s, a)
    v = search(sp, game, nnet)

    Q[s][a] = (N[s][a]*Q[s][a] + v)/(N[s][a]+1)
    N[s][a] += 1
    return -v
	def search(s, game, nnet):
	if game.gameEnded(s): return -game.gameReward(s)

	if s not in visited:
	visited.add(s)
	P[s], v = nnet.predict(s)
	return -v

	max_u, best_a = -float("inf"), -1
	for a in game.getValidActions(s):
	u = Q[s][a] + c_puctP[s][a]sqrt(sum(N[s]))/(1+N[s][a])
	if u>max_u:
	max_u = u
	best_a = a
	a = best_a

	sp = game.nextState(s, a)
	v = search(sp, game, nnet)

	Q[s][a] = (N[s][a]*Q[s][a] + v)/(N[s][a]+1)
	N[s][a] += 1
	return -v