. Author manuscript; available in PMC: 2022 Dec 22.

Published in final edited form as: IEEE Trans Cybern. 2021 Dec 22;51(12):5717–5727. doi: 10.1109/TCYB.2019.2958912

Algorithm 3.

Experience Replay for Stochastic Environment (ExperienceReplay)

(1)	g ← 0
(2)	Choose a simulated continuous state, ${\underline{x}}_{t}$ , from the state-space
(3)	while g < K do
(4)	${\underline{s}}_{t} \leftarrow ϕ ({\underline{x}}_{t})$
(5)	${\underline{a}}_{t} \leftarrow a r g \max_{a^{'} \in A_{p}} ((1 - λ) e^{Δ Q ({\underline{s}}_{t}, a^{'})} + (λ) κ)$
(6)	$(Δ {\bar{x}}_{N \underline{_{c_{l}}}}^{a}, {\bar{r}}_{N_{\underline{c_{l}}}}^{a}) \leftarrow M ({\underline{s}}_{t}, {\underline{a}}_{t})$
(7)	${\underline{x}}_{t + 1} \leftarrow {\underline{x}}_{t} + Δ {\bar{x}}_{N \underline{c_{l}}}^{a}$
(8)	${\underline{s}}_{t + 1} \leftarrow ϕ ({\underline{x}}_{t + 1})$
(9)	Use (1) and (2) to update the Q-value and ΔQ-value
(10)	${\underline{x}}_{t} \leftarrow {\underline{x}}_{t + 1}$
(11)	g ← g + 1
(12)	end while