Generative AI and Blockchain-Integrated Multi-Agent Framework for Resilient and Sustainable Fruit Cold-Chain Logistics

. 2025 Aug 27;14(17):3004. doi: 10.3390/foods14173004

Algorithm 5 SLA-Aware Delivery Scheduling via Cooperative Multi-Agent RL with Context-Aware Weights and Coordination

1:
Input: Delivery queue Q, route availability R, SLA terms S, demand forecast F
2:
Agents: $A_{1}, A_{2}, \dots, A_{n}$ (e.g., vehicle or hub controllers)
3:
Initialize: Policy $π_{i} (s_{i})$ for each agent i, shared critic $Q (s_{1}, \dots, s_{n}, a_{1}, \dots, a_{n})$
4:
Initialize: Replay buffer $R$ , intention buffer $B \leftarrow \emptyset$
5:
Initialize: Reward weighting coefficients $α_{1}, α_{2}, α_{3}$
6:
for each training episode do
7:
Generate demand and disruptions from F
8:
Initialize global state $S_{0} = {s_{0}^{(1)}, \dots, s_{0}^{(n)}}$ from environment
9:
for each timestep t do
10:
for each agent i do

▹ e.g., assign vehicle or reschedule

12:
Append $(s_{i}, a_{i})$ to $B$
13:
end for
14:
if conflicting vehicle assignments or resource overuse in $B$ then
15:
Apply penalty $ρ$ or resolve using SLA priority or distance heuristics
16:
end if
17:
Execute actions $a = [a_{1}, \dots, a_{n}]$ , observe $s^{'} = [s_{1}^{'}, \dots, s_{n}^{'}]$
18:
for each agent i do
19:
Observe: delay $δ_{i}$ , SLA violation flag $v_{i}$ , fuel used $f_{i}$ , emissions $e_{i}$
20:
Extract context vector: $c t x^{(i)} = [δ_{i}, v_{i}, e_{i}]$
21:
Compute dynamic weights:
$ω_{j}^{(i)} = \frac{α_{j} \cdot c t x_{j}^{(i)}}{\sum_{k} α_{k} \cdot c t x_{k}^{(i)}}, j = 1, 2, 3$
22:
Compute reward:
$r_{i} = - (ω_{1}^{(i)} \cdot δ_{i} + ω_{2}^{(i)} \cdot v_{i} + ω_{3}^{(i)} \cdot e_{i}) - ρ$
23:
Store transition $(s_{i}, a_{i}, r_{i}, s_{i}^{'})$ in $R$
24:
end for
25:
Sample mini-batch from $R$
26:
Update shared critic Q by minimizing temporal-difference loss:
$L = {(r + γ Q (s_{1}^{'}, \dots, s_{n}^{'}, π_{1} (s_{1}^{'}), \dots, π_{n} (s_{n}^{'})) - Q (s_{1}, \dots, s_{n}, a_{1}, \dots, a_{n}))}^{2}$
27:
for each agent i do
28:
Update actor policy $π_{i}$ to maximize expected reward:
$\nabla_{θ_{i}} J \approx E [\nabla_{a_{i}} Q (s, a) \cdot \nabla_{θ_{i}} π_{i} (s_{i})]$
29:
end for
30:
Clear $B \leftarrow \emptyset$
31:
end for
32:
end for
33:
Output: Trained delivery policies $π_{1}^{*}, \dots, π_{n}^{*}$