A Contextual-Bandit-Based Approach for Informed Decision-Making in Clinical Trials

. 2022 Aug 21;12(8):1277. doi: 10.3390/life12081277

Algorithm 3 Contextual bandit for clinical trial optimization

1:
for $m = 1, 2, \dots, 2^{D}$ do ▹ initialize all context-free bandits
2:
$M A B (m) \leftarrow$ initialize context-free bandit()
3:
for $i = 1, 2, \dots,$ do
4:
$X_{i} \leftarrow$ observe context(patient i)
5:
$M A B ★ = M A B (X_{i})$ ▹ bandit associated with context $X_{i}$
6:
$U_{i} \leftarrow$ select treatment( $M A B ★$ ) ▹ select a treatment based on priors in $M A B ★$
7:
Apply $U_{i}$ and observe $C_{i}$
8:
update prior( $U_{i}$ , $M A B ★$ ) ▹ update the prior of $U_{i}$ in $M A B ★$