. 2020 Apr 9;8:298. doi: 10.3389/fbioe.2020.00298

Algorithm 1.

Training Procedure

1: Training set

{C_{i}}_{i = 1}^{M}

, number of training steps T, batch size B.

2: Initialize the neural net params θ.

3: Initialize baseline value.

4: for t = 1 to T do

5: Select a batch of samples C_i for i ∈ {1, ⋯ , B}.

6: Sample solution π_i based on p_θ(·|C_i) for i ∈ {1, ⋯ , B}.

7: Let g_θ=

\frac{1}{B} \sum_{i = 1}^{B} [(A C (π_{i} | C_{i}) - b (C_{i})) \nabla_{θ} l o g p_{θ} (π_{i} | C_{i})]

8: Update θ = ADAM(θ, g_θ).

9: Update baseline b(C_i) = b(C_i)+α(AC(π_i|C_i) − b(C_i)) for i ∈ {1, ⋯ , B}.

10: end for

11: return neural net parameters θ.