Soft DAgger: Sample-Efficient Imitation Learning for Control of Soft Robots

. 2023 Oct 6;23(19):8278. doi: 10.3390/s23198278

Algorithm 1 Policy and Model Optimization (PMO)

1:
Input: $D_{B}$ and $D_{E}$ Stage 01
2:
Output: $τ_{θ}$
3:
$f_{ϕ_{0}} (τ | X) \leftarrow D_{B}$ Stage 02 as per Equation (1)
4:
Initialize $π_{θ}$ , $D_{π}$ , $L_{E}$
5:
while not done do:
6:
Episode = sample( $D_{E}$ )
7:
for $i = 0 : L_{E}$ do:
8:
$(state : x_{t_{c}}, action : f_{ϕ_{i}} (x_{d})) \leftarrow f_{ϕ_{i}} (τ_{ϕ_{i}} | x_{d})$
9:
Append: $D_{i} \leftarrow 〈 x_{t_{c}}, τ_{ϕ_{i}} 〉$
10:
$D_{B} \leftarrow D_{B} \cup D_{i}$
11:
$D_{π} \leftarrow D_{π} \cup D_{i}$
12:
Every $n_{b}$ and $D_{π} \geq 2 L_{E}$ do:
13:
Compute loss for DBM: MSE ( $L_{ϕ}$ )
14:
DBM Optimization: $f_{ϕ_{i}} \leftarrow L_{ϕ}$ Stage 02 on repeat
15:
Compute Behavioral loss: ( $L_{B}$ ) From Equations (3) and (4)
16:
Compute policy loss: ( $L_{θ}$ ) From Equations (3) and (4)
17:
Policy Training & Optimization: $π_{θ} \leftarrow L_{θ}$ Stage 03