Multi-Armed Bandit-Based User Network Node Selection

. 2024 Jun 24;24(13):4104. doi: 10.3390/s24134104

Algorithm 1. Dynamic variance sampling algorithm flow.

for

t = 1,2, \dots, T

do
for each node

i = 1, \dots, N

, sample

θ_{i} (t)

independently from the

N ({\hat{μ}}_{i} (t), \frac{1}{k_{i} (t) + 1})

distribution
select node:

i (t) = {a r g m a x}_{i} θ_{i} (t)

observe reward:

r_{i (t)}

update selected times:

k_{i (t)} (t + 1) = k_{i (t)} (t) + 1

update mean benefit:

μ_{i (t)} (t + 1) = \frac{μ_{i (t)} (t) \times k_{i (t)} (t) + r_{i (t)}}{k_{i (t)} + 1}

end for