. 2021 Feb 15;104:29–42. doi: 10.1016/j.tranpol.2021.01.008

Table 4.

Tabular comparison of learned policies and benchmark.

Network	Policy	Obj( $10^{6}$ )	Confirmed cases( $10^{3}$ )	Turnover( $10^{9}$ )	Improvement
WS-10	All ban	−1475.12	38.61	0.00	\
	No ban	−1478.66	39.70	19.90	\
	RL-SCO1	−1436.21	37.79	4.38	2.64%
	RL-SCO2	−1439.98	37.80	2.52	2.38%
WS-15	All ban	−2052.70	53.29	0.00	\
	No ban	−2216.61	60.00	30.73	\
	RL-SCO1	−2002.33	52.41	6.19	2.45%
	RL-SCO2	−1984.13	52.35	11.82	3.34%
WS-20	All ban	−2652.22	69.13	0.00	\
	No ban	−2708.81	73.67	30.07	\
	RL-SCO1	−2507.47	66.36	10.78	5.46%
	RL-SCO2	−2510.63	66.17	8.28	5.34%
Real-15	All ban	−2311.43	54.67	0.00	\
	No ban	−2295.67	61.16	89.89	\
	Real	−2284.22	54.75	10.38	\
	RL-SCO1	−2254.24	55.10	25.65	1.31%
	RL-SCO2	−2254.25	56.55	44.36	1.31%