. 2025 Sep 9;11:e3170. doi: 10.7717/peerj-cs.3170

Table 6. Pairwise comparison results for each perceptual evaluation question.

Each cell reports the Bonferroni-corrected $p$ -value and the corresponding effect size $r$ , with magnitude interpreted as small, medium, or large.

	Image consistency		Inappr. Reduction		Text alignment		Overall quality
	$p$ -value	Effect size $r$	$p$ -value	Effect size $\| r \|$	$p$ -value	Effect size $\| r \|$	$p$ -value	Effect size $\| r \|$
SLD-Weak vs SLD-Max	<0.001	0.513 (large)	0.003	0.209 (small)	1.000	0.022 (small)	<0.001	0.419 (medium)
SLD-Weak vs. ESD	0.002	0.264 (small)	0.074	0.137 (small)	1.000	0.010 (small)	<0.001	0.297 (small)
SLD-Weak vs. Ours	<0.001	0.990 (large)	<0.001	0.633 (large)	<0.001	0.719 (large)	<0.001	0.643 (large)
SLD-Max vs. ESD	<0.001	0.602 (large)	1.000	0.109 (small)	1.000	0.048 (small)	<0.001	0.531 (large)
SLD-Max vs. Ours	<0.001	0.990 (large)	<0.001	0.472 (medium)	<0.001	0.661 (large)	<0.001	0.419 (medium)
ESD vs. Ours	<0.001	0.990 (large)	<0.001	0.615 (large)	<0.001	0.723 (large)	<0.001	0.798 (large)