Skip to main content
. 2024 Feb 20;7:41. doi: 10.1038/s41746-024-01029-4

Table 1.

Fleiss Kappa of different prompts in different models

Model Prompt Fleiss Kappa 95% CI
gpt-4-Web IO 0.525 0.523 0.527
0-COT 0.450 0.448 0.452
P-COT 0.334 0.332 0.337
ROT 0.467 0.465 0.470
gpt-4-API IO 0.288 0.286 0.290
0-COT 0.067 0.065 0.069
P-COT 0.331 0.330 0.333
ROT 0.205 0.203 0.206
gpt-4-API-0 IO 0.525 0.523 0.526
0-COT 0.285 0.283 0.287
P-COT 0.660 0.658 0.661
ROT 0.451 0.449 0.453
Bard IO 0.374 0.372 0.376
0-COT 0.355 0.353 0.357
P-COT 0.323 0.321 0.326
ROT 0.180 0.178 0.182
gpt-3.5-Web IO 0.409 0.407 0.411
0-COT −0.002 −0.004 0.000
P-COT 0.276 0.274 0.278
ROT 0.016 0.014 0.018
gpt-3.5-API IO 0.188 0.186 0.190
0-COT 0.004 0.002 0.006
P-COT 0.031 0.029 0.033
ROT 0.014 0.012 0.016
gpt-3.5-API-0 IO 0.984 0.983 0.986
0-COT 0.461 0.459 0.464
P-COT 0.533 0.531 0.535
ROT 0.581 0.578 0.583
gpt-3.5-ft IO 0.162 0.160 0.164
0-COT 0.021 0.020 0.023
P-COT 0.065 0.063 0.067
ROT 0.033 0.032 0.035
gpt-3.5-ft-0 IO 0.982 0.980 0.984
0-COT 0.412 0.410 0.414
P-COT 0.355 0.353 0.356
ROT 0.398 0.396 0.400