A Contextual-Bandit-Based Approach for Informed Decision-Making in Clinical Trials

. 2022 Aug 21;12(8):1277. doi: 10.3390/life12081277

Algorithm 2 Upper confidence bound (UCB)

1:
for $i = 1, 2, \dots, K$ do
2:
Apply treatment i ▹ apply each treatment once
3:
for $i = K + 1, K + 2, \dots,$ do
4:
for $u \in {1, \dots, K}$ do
5:
Estimate $\hat{θ_{u}} = [\frac{α_{u}}{α_{u} + β_{u}}]$ ▹ estimate mean rewards
6:
$n_{u, i} \leftarrow$ # of times treatment u has been applied so far
7:
$U_{i} = {arg max}_{u} [\hat{θ_{u}} + \sqrt{\frac{\ln i}{n_{u, i}}}]$ ▹ select and apply action
8:
Apply $U_{i}$ and observe $C_{i}$
9:
$(α_{U_{i}}, β_{U_{i}}) \leftarrow (α_{U_{i}}, β_{U_{i}}) + (C_{i}, 1 - C_{i})$ ▹ update distribution