. 2025 Sep 9;11:e3170. doi: 10.7717/peerj-cs.3170

Table 2. Pairwise comparison results for each quantitative evaluation.

Each cell reports the Bonferroni-corrected p-value and the corresponding effect size, with magnitude interpretation.

	Inappr. Reduction		Image similarity		Text-image alignment
	$p$ -value	Effect size $\| g \|$	$p$ -value	Effect size $\| r \|$	$p$ -value	Effect size $\| r \|$
SD vs. SLD-Weak	$< 0.001$	0.372 (large)	–	–	0.811	0.033 (negligible)
SD vs. SLD-Max	$< 0.001$	0.803 (large)	–	–	$< 0.001$	0.097 (negligible)
SD vs. ESD	$< 0.001$	0.189 (medium)	–	–	$< 0.001$	0.069 (negligible)
SD vs. Ours	0.002	0.112 (small)	–	–	0.004	0.073 (negligible)
SLD-Weak vs. SLD-Max	$< 0.001$	0.711 (large)	$< 0.001$	0.525 (large)	$< 0.001$	0.086 (negligible)
SLD-Weak vs. ESD	$< 0.001$	0.203 (medium)	$< 0.001$	0.954 (large)	0.062	0.033 (negligible)
SLD-Weak vs. Ours	$< 0.001$	0.283 (large)	$< 0.001$	0.994 (large)	$< 0.001$	0.073 (negligible)
SLD-Max vs. ESD	$< 0.001$	0.753 (large)	$< 0.001$	0.973 (large)	0.079	0.044 (negligible)
SLD-Max vs. Ours	$< 0.001$	0.781 (large)	$< 0.001$	0.997 (large)	$< 0.001$	0.121 (small)
ESD vs. Ours	0.029	0.084 (small)	$< 0.001$	0.559 (large)	$< 0.001$	0.130 (small)