Table - PMC

Skip to main content

View full-text article in PMC

. 2020 Apr 21;20(8):2361. doi: 10.3390/s20082361

Algorithm 2: Pseudocode for distributed Q-learning

Initialization:

for each

s_{u}^{t} \in S_{u}^{t}, a_{u}^{t} \in A_{u}^{t}

do

initialize Q-table and policy

π_{u}^{*} (s_{u}^{t})

end for

Learning:

loop

estimate state

s_{u}^{t}

generate a random real number x

\in [0, 1]

if

x < ε

// for exploration

elect action

a_{u}^{t}

randomly

else

select action

a_{u}^{t}

according to

π_{u}^{*} (s_{u}^{t})

receive action

a_{B B U}^{t}

from algorithm1

determine action

a_{u}^{*}

by comparing

a_{u}^{t}

and

a_{B B U}^{t}

execute action

a_{u}^{t}

calculate reward

r_{u}^{t}

update Q-value

Q (s_{u}^{t}, a_{u}^{t})

and

π_{u}^{*} (s_{u}^{t})

end loop