Autonomous Navigation of Unmanned Aircraft Using Space Target LOS Measurements and QLEKF

. 2022 Sep 15;22(18):6992. doi: 10.3390/s22186992

Algorithm 1 : Q-learning extended Kalman filter

{\hat{x}}_{P, 0}^{B} = {\hat{x}}_{P, 0}^{E} = {\hat{x}}_{P, 0}

P_{P, 0}^{B} = P_{P, 0}^{E} = P_{P, 0}

⊳

Initialization

2: k

\leftarrow

Θ \leftarrow 0

4: for each period, do

5: for all

a \in A

, do

C^{B} \leftarrow 0

C^{E} \leftarrow 0

7: for

t = 1, 2, \dots, T

, do

k \leftarrow k + 1

[{\hat{x}}_{P, k}^{B}, P_{P, k}^{B}, {\tilde{y}}_{P, k}^{B}] \leftarrow EKF ({\hat{x}}_{P, k - 1}^{B}, P_{P, k - 1}^{B}, y_{P, k}, Q_{P, k}, R_{P, k})

⊳

Benchmark filter

10:

[{\hat{x}}_{P, k}^{E}, P_{P, k}^{E}, {\tilde{y}}_{P, k}^{E}] \leftarrow EKF ({\hat{x}}_{P, k - 1}^{E}, P_{P, k - 1}^{E}, y_{P, k}, {\hat{Q}}_{P, k}^{(s, a)}, R_{P, k})

⊳

Exploring filter

11:

[{\hat{x}}_{P, k}, P_{P, k}, {\tilde{y}}_{P, k}] \leftarrow EKF ({\hat{x}}_{P, k - 1}, P_{P, k - 1}, y_{P, k}, {\hat{Q}}_{P, k}^{(s, a_{\max})}, R_{P, k})

⊳

Main filter

12:

C^{B} \leftarrow C^{B} + \frac{1}{T - 1} [{({\tilde{y}}_{k}^{B})}^{T} R_{k}^{- 1} {\tilde{y}}_{k}^{B} - C^{B}]

13:

C^{E} \leftarrow C^{E} + \frac{1}{T - 1} [{({\tilde{y}}_{k}^{E})}^{T} R_{k}^{- 1} {\tilde{y}}_{k}^{E} - C^{E}]

14: end for

15:

R (s, a) \leftarrow C^{B} - C^{E}

⊳

Calculation of Reward

16:

Θ \leftarrow Θ + α [R (s, a) + γ \max_{a^{'}} (Φ^{T} (s ’, a ’) Θ) - Φ^{T} (s, a) Θ] Φ (s, a)

⊳

Update of weight

17:

{\hat{x}}_{P, k}^{E} \leftarrow {\hat{x}}_{P, k}^{B}

P_{P, k}^{E} \leftarrow P_{P, k}^{B}

⊳

Resetting of exploring filter

18: end for

19:

a_{\max} \leftarrow \arg \max_{a^{'}} (Φ^{T} (s, a) Θ)

⊳

Selection of the best action

20: end for

21: return

{{\hat{x}}_{P, k}}

and

{P_{P, k}}

⊳

Result of state estimation