Soft DAgger: Sample-Efficient Imitation Learning for Control of Soft Robots

. 2023 Oct 6;23(19):8278. doi: 10.3390/s23198278

Algorithm 2 Student Policy OpTimization (SPOT)

1:
Input: $D_{B}$ and $D_{E}$ Stage 01
2:
Output: $τ_{θ}$
3:
$f_{ϕ} (τ | X) \leftarrow D_{B}$ Stage 02 as per Equation (1)
4:
Initialize $π_{θ}$ , $D_{π}$ , $L_{E}$
5:
while not done do:
6:
Episode = sample( $D_{E}$ )
7:
for $i = 0 : L_{E}$ do:
8:
$(state : x_{t_{c}}, action : f_{ϕ} (x_{d})) \leftarrow f_{ϕ} (τ_{ϕ} | x_{d})$
9:
Append: $D_{i} \leftarrow 〈 x_{t_{c}}, τ_{ϕ} 〉$
10:
Policy Buffer: $D_{π} \leftarrow D_{π} \cup D_{i}$
11:
Every $n_{b}$ and $D_{π} \geq 2 L_{E}$ do:
12:
Compute Loss: $L_{θ}$ From Equation (2)
13:
Policy Training: $π_{θ} \leftarrow L_{θ}$ Stage 03