DT-HRL: Mastering Long-Sequence Manipulation with Reimagined Hierarchical Reinforcement Learning

. 2025 Sep 1;10(9):577. doi: 10.3390/biomimetics10090577

Algorithm 1 Decision Transformer–based Hierarchical Reinforcement Learning (DT-HRL)

Input: Offline dataset 𝒟, action primitive set 𝒫, task embedding

ϕ_{task} (\cdot)

, goal embedding

ϕ_{goal} (\cdot)

, learning rate

η

, path-efficiency loss term

L_{PE}

Output: Hierarchical policy

π = {π_{θ}^{h i g h}, π_{θ}^{l o w}}

// Train High-Level Decision Transformer //

1. Initialization

2. for episode do

3. Sample a task

τ

and trajectory

{{(s_{t}, a_{t}, r_{t}, g_{t})}_{t = 0}^{T}

from 𝒟

S = [s_{t - H}, \dots, s_{t}], A = [a_{t - H}, \dots, a_{t}]

â_{t + 1} \leftarrow π_{θ}^{h i g h} (S, A, ϕ_{t a s k} (τ), ϕ_{g o a l} (g_{t}))

a_{H} = â_{t + 1}

▷ Delivered to low-level policy

L \leftarrow CrossEntropy (â_{t + 1}, a_{t + 1}) + λ L_{P E}

θ \leftarrow θ - η \nabla_{θ} L

9. end for

// Low-Level Execution //

10. function

π_{θ}^{l o w} (a_{H})

11.

s_{0} \leftarrow initial state

12. for

k = 0

to K

13.

a_{k + 1} \leftarrow π_{θ}^{l o w} (s_{k}, a_{H})

▷ Execute low-level controller

14.

s_{k + 1} \leftarrow E n v i r o n m e n t (s_{k}, a_{k + 1})

15. if done then

16. break

17. end if

18. end for

19. end function