. 2011 Oct 3;12(Suppl 8):S5. doi: 10.1186/1471-2105-12-S8-S5

Table 10.

Performance statistics evaluated by TAP-K and F-measure on test data and training data sets.

Corpus	Data set	TAP-5	TAP-10	TAP-20	Precision	Recall	F-measure
Test data (1st run)	50 (gold standard)	0.3254	0.3538	0.3535	53.85%	39.44%	45.53%
Test data (2nd run)	50 (gold standard)	0.3216	0.3435	0.3435	55.54%	39.07%	45.87%
Test data (3rd run)	50 (gold standard)	0.3297	0.3514	0.3514	56.23%	39.72%	46.56%

Test data (1st run)	50 (silver standard)	0.3567	0.3600	0.3600	58.94%	38.95%	46.90%
Test data (2nd run)	50 (silver standard)	0.3291	0.3291	0.3291	58.60%	37.64%	45.84%
Test data (3rd run)	50 (silver standard)	0.3382	0.3382	0.3382	59.46%	38.35%	46.62%

Test data (1st run)	507(silver standard)	0.4591	0.4591	0.4591	71.79%	44.69%	55.09%
Test data (2nd run)	507(silver standard)	0.4323	0.4323	0.4323	72.08%	42.70%	53.64%
Test data (3rd run)	507(silver standard)	0.4327	0.4327	0.4327	72.41%	42.82%	53.82%

Training data	32 (gold standard)	0.4703	0.4969	0.4969	63.82%	67.71%	65.70%