Application of Coefficient for Evaluating Agreement in disordered multi-classification data

Qihong LIANG; Zhaoyu CHEN; Zheng ZHANG; Shuang HUANG; Shengli AN

doi:10.12122/j.issn.1673-4254.2021.09.12

. 2021 Aug 31;41(9):1374–1380. [Article in Chinese] doi: 10.12122/j.issn.1673-4254.2021.09.12

Show available content in

一致性评价系数应用于无序多分类资料的效果评价

Qihong LIANG ¹, Zhaoyu CHEN ¹, Zheng ZHANG ¹, Shuang HUANG ^2,^*, Shengli AN ^1,^*

PMCID: PMC8526316 PMID: 34658352

Abstract

目的

基于AC₁系数的构建思想, 建立一致性评价系数（CEA）在两评价者无序多分类结局的评价方法, 并可避免Kappa系数的缺陷。

方法

通过随机抽样生成诊断试验类型数据, 使用Monte Carlo模拟, 在样本量、指定事件在总体的占比、偶然评价率、类别数等不同参数组合下进行重抽样, 比较Kappa系数、AC₁系数和CEA系数的均方误、方差和方差的期望。通过从总体中随机抽样1000次得到CEA系数的分布描述。

结果

偶然评价率的不一致会导致CEA系数的均方误波动较大。与Kappa系数相比, AC₁系数和CEA系数在指定事件的占比为极端值的情况更为稳定。在小样本、偶然评价率不一致的情况下, Kappa系数的方差和方差的期望变大, CEA系数变化较小。大样本条件下, CEA系数近似服从正态分布。

结论

Kappa系数、AC₁系数、CEA系数均受偶然评价率的影响最大, 样本量次之。针对无序多分类结局, CEA系数在不同的样本量、偶然评价率下具有更稳健的性质。

Keywords: 一致性评价, CEA系数, AC₁系数, Kappa, 诊断试验

在医学诊断实践中，通常需要用不同的测量方法或不同的评价者对测量对象的结果进行判断，对测量方法或评价者组间、组内偏差的评价称为一致性评价^[1]。目前，国内外有学者提出多种方法进行一致性评价，对于无序多分类结局，1955年提出了π index^{[2, 3]}，1960年、1968年先后提出了Kappa系数、加权Kappa系数^{[4, 5]}，1973年对加权Kappa系数进行扩展到多测量者的评价中^[6]。然而，有研究^[7]于1990年首先提出了Kappa悖论，指出其在特殊情况下存在缺陷。2008年提出的AC₁系数，解决了Kappa悖论^[8]的问题，具有更好的统计评价效果^[9]。基于AC₁系数，本课题组于2018年提出了一种针对二分类结局的一致性评价系数（CEA），其准确性、稳定性都较AC₁系数高^[10]。此外，已对CEA系数在三分类资料中的应用效果进行评价，但其在指定事件在总体的占比接近偶然评价率时下会产生较大偏差^[11]，且缺少对CEA方差的估计与置信区间的计算。目前对CEA系数在无序多分类资料的应用尚未见研究，本研究将CEA系数的应用拓展到无序多分类资料，确定其置信区间计算方法并对其应用效果进行评价，完善CEA系数在一致性评价中的应用。

1. 资料和方法

1.1. 常用一致性评价系数的构建

在两评价者无序多分类资料中，评价者分别为Rater A、Rater B，有k种类型，即无序多分类评价结果为1, …, k，可得列联表（表 1），其中n_ij代表评价者A把测量对象判为i类且评价者B把测量对象判为j类的数量^[12]。

1.

两评价者判别结果列联表

Contingency table to assess agreement by two raters

		Rater B
		l	...	k	Total
Rater A	1	n ₁₁	...	n _1k	n ₁₊
	...	...	n_ij	...	...
	k	n _k1	...	n_kk	n_+k
	Total	n ₊₁	...	n_+k	n

Open in a new tab

一致性评价系数的构建思想是在观察一致性中扣除偶然因素的影响，进而衡量两评价者在无序多分类结局间的一致性程度^[13]，其基本构建公式为 Inline graphic ，其中p₀为观察一致率，p_e为偶然一致率。Kappa系数、AC₁系数的观察一致率计算公式均为，其区别在于偶然一致率p_e的估计方法不同^[14]。不同一致性评价系数对偶然一致率p_e的定义见表 2。

2.

两种一致性评价系数对pe的定义

Definition of two consistency evaluation coefficients for pe

Consistency evaluation coefficients	p_e
Kappa
AC₁

Open in a new tab

1.2. 无序多分类CEA系数的构建

CEA系数的构建在表 1中引入了偶然评价与确定评价的概念。当任意一个评价者不确定将测量对象判别到哪一类型时，称评价者做出偶然评价，反之称为确定评价。在偶然评价中，假定评价者从k个判别类型中随机等可能地选取一个判别类型作为评价结果，则把测量对象判别到正确类型的概率为1/k，即偶然正确率为即偶然正确率为1/k。只要有任意一个评价者做出偶然评价，评价者A和评价者B就会出现偶然一致性或偶然非一致性。在确定评价中，评价者A和评价者B对测量对象都做出了确定的判断，因此两评价者的判别结果将完全一致，只有确定一致性，而没有非一致性。根据两个评价者做出的偶然评价与确定评价，可得表 3，其中n_ijCR代表评价者A做确定评价把测量对象判为i类且评价者B做偶然评价把测量对象判为j类的数量，以此类推。

3.

区分偶然评价和确定评价的判别结果

Results of distinguishing the random evaluation and the certain evaluation

Rater A		Rater B
		Random			Certain
		1	...	k	1	...	k
Random	1	n_11RR	...	n_1kRR	n_11RC	...	n_1kRC
	...	...	n_ijRR	...	...	n_ijRC	...
	k	n_k1RR	...	n_kkRR	n_k1RC	...	n_kkRC
Certain	1	n_11CR	...	n_1kCR	n_11CC	...	0
	...	...	n_ijCR	...	...	n_iiCC	...
	k	n_k1CR	...	n_kkCR	0	...	n_kkCC

Open in a new tab

假定判别类型“1”为k个判别结果中的指定事件，作以下定义：p_r为指定事件在总体中的占比，即在所有事件中发生指定事件“1”的概率；r_a、r_b分别为评价者A、评价者B作出偶然评价的概率；p_a、p_b分别为评价者A、评价者B把所有测量对象判别到指定事件“1”的概率；p₀为评价者A和评价者B同时把同一测量对象判别到同一类型的概率，即观察一致率，其构成包含偶然一致性与确定一致性；p_e为偶然一致率；_{p_d}为偶然非一致率。

基于上述定义，由表 1、表 3，可得p₀、p_e的计算公式：

根据二分类CEA系数的构建思想^[15]，CEA的基本公式为：

其中，p_e^*为针对CEA的偶然一致率估计值，表 1可由真实数据所得，因此计算CEA即可转化为求偶然一致率p_e估计值的问题。

表 1中的观察一致性与观察非一致性，两者均有偶然和确定两部分，即：观察一致率+观察非一致率=1、观察一致=偶然一致+确定一致、观察非一致=偶然非一致+确定非一致。对应表 3，偶然一致为n_iiRC/RR/CR，确定一致为n_jjCC，偶然非一致为n_ijRC/RR/CR（i≠j），确定非一致为0，故有p₀+p_d=1。

考虑评价者做出偶然评价的概率r_a、r_b，有以下关系式：

式子可理解为：任意一个评价者做出偶然判断即为偶然评价，三种情况对应公式（4）的三部分；对于同一个观察单位，评价者A、B分别将其归到1, …, k类，则一共有k²种情况，其中A、B评价一致的情况有k种，非一致的有k²-k种，所以两评价者一致的概率为k/k²=1/k，非一致的概率为（k²-k）/k²=（k-1）/k。

评价者A、评价者B把测量对象判别到正确类的概率由确定评价和偶然评价组成。当样本量足够大时，确定评价的正确率可近似用指定事件在总体的占比p_r代替，偶然评价的正确率为1/k，因此有：

变换后有：

通过公式（6）和公式（7）整理可得到关于p_r的函数：

因此求解p_e的问题可转化为求一元二次方程f（p_r）=0的解p_r的问题。由于0 < p₀ < 1，当Δ>0时，方程有两个不等的解，取更接近（p_a +p_b）/2的值作为p_r的估计值；当Δ≤0时，取样本中两评价者都评价为指定事件的占比（n₁₁/n）作为p_r的估计值。将p_r的解代入公式（8）和公式（9），再通过公式（4）计算p_e的估计值，最终得到CEA。

1.3. 无序多分类CEA系数方差的估计

根据Gwet构建AC₁系数的思想^[7]，当一致性评价推广到多个评价者时，测量者关于不同评价者的判别结果分布按表 4展示，其中，r代表评价者数，n代表测量对象的样本数，r_ik代表把第i个测量对象判别到第k类的评价者数。本研究只考虑在两评价者的条件下推导CEA系数的方差，即r=2。

4.

按测量对象与判别类型的多评价者结果分布

Distribution of participants and categories by multiple raters

Participant	Category				Total
Participant	1	2	…	k	Total
1	r₁₁	r₁₂	…	r_1k	r
2	r₂₁	r₂₂	…	r_2k	r
…	…	…	…	…	…
n	r_n1	r_n2	…	r_nk	r
Total	r₊₁	r₊₂	…	r_+k	nr

Open in a new tab

参考Gwet使用的线性近似方法估计方差^[16]，通过构建一个包含所有项的样本方差去逼近真实方差，在大样本的情况下，近似方差与真实方差一致，其计算式如下：

式中， Inline graphic 是通过解一元二次方程估计出的CEA系数，是每一个测量对象的一致性系数，可通过以下公式估计：

Inline graphic 表示每一个测量对象的一致性系数，p_e|i表示每一个测量对象的偶然一致率，其中。

综合上述公式，样本量较大时，通过构建表 4得到CEA系数方差的估计值。

1.4. 无序多分类CEA系数的置信区间

Gwet在研究AC₁系数方差估计与置信区间构建的文章通过模拟指出，基于上述思想构建的系数在大样本情况下具有近似正态性，因此保证了置信区间的有效性^[12]。当样本量足够大时，计算出CEA系数的估计值和方差后，其95%的置信区间即为 Inline graphic 。

2. 模拟与实例

2.1. 模拟步骤

使用Monte Carlo模拟评价CEA系数的有效性，并对Kappa、AC₁、CEA三种系数的方差估计值进行比较。模拟基于两评价者A、B，参数包括样本量n、类别数k、指定事件在总体中占比p_r、两评价者的偶然评价率r_a和r_b。模拟步骤如下：（1）随机抽样产生一个样本量为n、包含1, …, k的数列，其中指定事件“1”的概率为p_r，其余为（1-p_r）/（k-1）；（2）从步骤（1）中产生的数据中分两次随机抽取r_a*100%、r_b*100%的样本作为两评价者做出偶然评价样本，每种判别类型的概率均为1/k；（3）以含有偶然评价的样本作为原始样本，用Bootstrap法进行重抽样500次，算出每个重抽样样本的一致性评价系数及其方差。参数设置为n=20、60、100，k=3、4、5，p_r= 0.05~0.95（间隔0.01），r_a=0.05、0.20，r_b=0.05、0.20。

对CEA系数进行敏感性分析。由于CEA系数的构造与各类别所占比例有关，在实际研究，某一诊断评价中不同疾病在总体中的占比往往大不相同，即对于同一个多分类结局资料，指定事件有多种选择，其在总体的占比p_r会有不同的取值，因此模拟部分探究p_r在不同样本量n、不同偶然评价率（r_a、r_b）及不同类别数k下对CEA系数的影响。采用500次重抽样得到的一致性评价系数的均方误以评价其准确度。

对CEA系数的方差进行评价。探讨指定事件在总体的占比、偶然评价率与样本量对Kappa、AC₁、CEA三种系数的影响并进行对比。采用500次重抽样得到的一致性评价系数的方差和方差的期望评价估计值的稳定性。

为了考察CEA系数的分布情况，从总体中随机抽样生成一组样本量n=50、100，类别数k=3，指定事件在总体中占比分别为p_r=0.05、0.25、0.75、0.95的样本，计算相应的CEA系数。重复上述过程1000次，得到给定参数下1000个CEA系数的分布，绘制分布直方图验证CEA系数在不同样本下的渐近正态性行及置信区间的有效性。

2.2. 模拟结果

2.2.1. 敏感性分析

固定偶然评价率（r_a、r_b），不同样本量n与类别数k下，指定事件的占比p_r对CEA系数均方误的影响较小，呈现较为稳定状态。同一k下，n越大，则CEA系数的均方误越小。同一n下，不同k对CEA几乎没有影响（图 1、2）。

不同样本量及类别数下*p_r*对CEA的影响

Influence of *p_r* on CEA under different sample sizes and type numbers (*r_a*=*r_b*=0.05).

不同样本量及类别数下*p_r*对CEA的影响

Influence of *p_r* on CEA under different sample sizes and type numbers (*r_a*=0.05, *r_b*=0.20).

由图 1、2知样本量对CEA系数影响较大，样本量为60与100时CEA均方误接近，因此下述模拟中样本量分别取n=20、100（图 3、4）。结果显示不同样本量下，两评价者偶然评价率不一致时（r_a≠r_b）的均方误都比偶然一致率相等时（r_a=r_b）高。当样本量较大（n=100）、偶然评价率有差异（r_a≠r_b）的情况下（图 4），均方误随着p_r的变化出现较大波动，但当p_r大于0.5后，波动趋于平缓，且CEA系数的均方误始终保持在较小数值（0.005）以下。

不同类别数及偶然评价率下*p_r*对CEA的影响

Influence of *p_r* on CEA under different type numbers and the accidental evaluation *r_a*tes (n=20).

不同类别数及偶然评价率下*p_r*对CEA的影响

Influence of *p_r* on CEA under different type numbers and the accidental evaluation *r_a*tes (n=100).

对比图 5、6，两种类别数下（k=3、k=5），CEA的均方误变化情况接近，受类别数k的影响较小。样本较小（n=20）、偶然评价率不一致（r_a≠r_b）情况下的均方误在包括前述所有参数设置中最高。

不同样本量及偶然评价率下*p_r*对CEA的影响

Influence of *p_r* on CEA under different sample sizes and the accidental evaluation *r_a*tes (k=3).

不同样本量及偶然评价率下*p_r*对CEA的影响

Influence of *p_r* on CEA under different sample sizes and the accidental evaluation *r_a*tes (k=5).

综上，CEA系数在各种参数设置下，其均方误都保持在0.02以下，几乎不受类别数k的影响，且随着指定事件在总体占比p_r的变化无明显变化趋势。偶然评价率（r_a、r_b）对其影响最大，样本量次之，小样本与较高的非一致偶然评价率（r_a≠r_b）会导致均方误较高。

2.2.2. 方差比较

参考Gwet对方差进行Monte Carlo模拟的思路^[9]，对CEA、AC₁、Kappa进行比较，x表示三种一致性评价系数。在特定参数下，从总体中抽样所获得的一份样本，每一次重抽样都可得到一个系数的估计值x_s及其方差v_s（x）（s指第s次重抽样）。Var（x）表示500次重抽样所得系数的方差，即 Inline graphic ，用以评价系数的波动情况，其值越小越好；E[v(x)]表示这500次重抽样方差的期望，即可通过公式（11）估计，E[v(x)]与Var(x)越接近说明方差的估计值与真实值越接近。前述结果提示类别数k对CEA系数的影响最小，因此本部分模拟全部取k=3，研究样本量n与偶然一致率（r_a、r_b）对方差的影响，模拟结果见表 5。

5.

不同参数下各一致性评价系数的方差及方差估计值的期望

Variance and the expectation of estimators of each consistency evaluation coefficient under different parameters (%)

Line	n	Var (CEA)	E[v (CEA)]	Var (AC1)	E[v (AC1)]	Var (Kappa)	E[v (Kappa)]
^: p_r=0.05, r_a=r_b=0.05; ^#: p_r=0.05, r_a=0.05, r_b=0.20; ^s: p_r=0.95, r_a=r_b=0.05; ^& : p_r=0.95, r_a=0.05, r_b*=0.20.
1	20^*	0.31	0.12	0.34	0.10	1.22	13.64
2	60^*	0.11	0.14	0.14	0.10	0.31	0.54
3	100^*	0.07	0.12	0.08	0.10	0.19	0.66
4	20^#	1.06	0.46	1.01	0.44	2.61	81.80
5	60^#	0.34	0.64	0.34	0.46	0.67	2.08
6	100^#	0.19	0.60	0.19	0.49	0.40	2.47
7	20^s	0.33	0.00	0.40	0.02	15.03	5472.15
8	60^s	0.13	0.00	0.16	0.01	3.52	3906.00
9	100^s	0.07	0.00	0.08	0.00	2.49	4189.60
10	20 ^&	1.08	0.03	1.33	0.15	8.46	1551.29
11	60 ^&	0.31	0.04	0.41	0.11	2.38	1658.10
12	100 ^&	0.21	0.02	0.27	0.07	1.70	2100.75

Open in a new tab

上述任意一种参数设置下，CEA系数的方差均比AC₁系数、Kappa系数小，Kappa系数的方差最大，且样本量越大，方差越小。三种一致性评价系数在偶然评价率不一致时（Line4~Line6、Line10~Line12）的方差均比偶然评价率一致时（Line1~Line3、Line7~Line9）高。虽然指定事件的占比处于极端值时（p_r=0.05、p_r=0.95），但CEA系数和AC₁系数在其方差和方差的期望均不会出现较大变化，而Kappa系数在指定事件的占比较高时（p_r=0.95），方差的期望则发生较大提高。随着样本量的提高，CEA系数和AC₁系数方差的期望受样本量的影响不大，Kappa系数方差的期望不仅相对较前者高，且变化趋势不稳定。

综上，CEA、AC₁、Kappa受偶然一致性的影响最大，样本量次之。CEA系和AC₁无论在何种情况下均比Kappa系数更加稳定。即便是在小样本的情况下，CEA的方差和方差的期望要比AC₁、Kappa更接近。

2.2.3. CEA系数的分布

固定模拟的样本量n=50、100，类别数k=3，不同p_r（0.05、0.25、0.75、0.95）下随机抽样1000次所得的CEA系数分布直方图均服从正态分布（图略），且样本量越大，CEA系数越趋近服从正态分布，与AC¹系数的结论相同。因此用 Inline graphic 作为CEA系数95%的置信区间是有效的。

2.3. 实例应用

数据来自美国国家精神健康研究所一个包含不同医生在5种精神疾病类型中对30名患者进行诊断的数据^[17]。本文对数据中两名医生的诊断结果（表 6）进行一致性检验，通过R软件实现一致性评价^[18]，参数设置为2个评价者、5分类资料。3种一致性评价方法的结果如表 7，CEA系数的置信区间范围要比AC₁、Kappa系数更小。

6.

两名医生诊断结果

Result of diagnosis by two physicians

Item		Rater B
Item		Depression	Personality disorder	Schizophrenia	Neurosis	Other
Rater A	Depression	7	1	2	3	0
	Personality Disorder	0	8	1	1	0
	Schizophrenia	0	0	2	0	0
	Neurosis	0	0	0	1	0
	Other	0	0	0	0	4

Open in a new tab

7.

3种一致性评价系数的估计结果

Results of three consistency evaluation coefficients

Type	Estimator	v (x)	95% CI
CEA	0.7143	0.0056	(0.5676, 0.8610)
AC₁	0.7202	0.0063	(0.5642, 0.8756)
Kappa	0.6512	0.0087	(0.4684, 0.8340)

Open in a new tab

3. 讨论

有文献通过模拟研究比较了Kappa系数和AC₁系数在无序多分类结果中的应用效果^[19]，得出AC₁系数比Kappa系数更稳健的、受发病率影响更小的结论^[20-22]。本课题组前期所提出的CEA系数也显示了较Kappa更为稳健的优势^{[11, 15]}。然而，少有研究人员使用AC₁或CEA作为一致性评价方法特别是在医学领域，Kappa系数仍被普遍应用^[23]。本研究完善了CEA系数在无序多分类资料中的应用，并对3种一致性评价方法进行了对比评价。

设置不同的影响一致性评价的因素：类别数k、指定事件在总体的占比p_r、偶然评价率（r_a、r_b）和样本量n，Monte Carlo模拟研究结果显示：（1）无论何种情况，类别数对CEA系数几乎没有影响；（2）指定事件的占比在各种情况下对CEA系数影响较小，其影响程度与样本量、偶然评价率有关。当两评价者偶然评价率一致时，指定事件的影响程度较小；当样本量较小（n=30）、偶然评价率不一致时，CEA系数受指定事件的影响程度随着其占比的提高而减缓；（3）CEA系数受偶然评价率的影响相对较大，偶然评价率不一致的情况会导致CEA系数的偏差变大；（4）样本量越大，CEA系数越稳定。

对比Kappa系数、AC₁系数、CEA系数的稳定性结果显示：（1）3种一致性评价系数均受样本量、偶然评价率的影响，样本量越大，系数越稳定；偶然评价率不一致会导致系数的波动程度较大，其中Kappa系数所受的影响相对其余两者要大；（2）CEA系数和AC₁系数受指定事件占比p_r的影响较小，而Kappa系数指定事件的占比取极端值的情况下（p_r=0.05、p_r=0.95）会出现方差不稳定的现象（即Kappa悖论）；（3）即便是在小样本（n=30）的情况下，CEA系数的稳定性也较AC₁系数、Kappa系数好。此外，CEA系数的分布接近于正态分布，其置信区间的构建是可靠性的。

综上，对于两评价者在无序多分类结局的一致性评价中，均显示本研究所提出的CEA系数具有更为稳定的特性。

本研究的前提假设是评价者在进行偶然评价时随机等可能地将观测对象判别到某一类型中，没有额外考虑评价者先验信息的影响，后续对CEA系数的改进中拟考虑诊断经验的影响。此外，本研究仅对CEA在两评价者的无序多分类结果中的应用效果进行研究评价，对于CEA系数的假设检验仍有待补充。软件实现上，Kappa系数和AC₁系数在多评价者间^[24]和有序多分类资料均有较多软件可以实现^{[25, 26]}，包括SPSS、SAS，CEA系数在以上方面的理论推广和程序实现值得进一步完善。

Biography

梁绮红，在读硕士研究生，E-mail: 1042935790@qq.com

Funding Statement

广东省组织构建与检测重点实验室开放课题基金（zzgjzd2021001）

Contributor Information

梁绮红 (Qihong LIANG), Email: 1042935790@qq.com.

黄爽 (Shuang HUANG), Email: hs531@163.com.

安胜利 (Shengli AN), Email: ASL0418@126.com.

References

1.单彬. 多研究者(或方法)间一致性评价方法的研究[D]. 北京: 解放军军事医学科学院, 2006.
2.Scott WA. Reliability of content analysis: the case of nominal scaling. Public Opinion Quarterly. 1955;19(3):321–5. doi: 10.1086/266577. [Scott WA. Reliability of content analysis: the case of nominal scaling [J]. Public Opinion Quarterly, 1955, 19(3): 321-5.] [DOI] [Google Scholar]
3.Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α. Underst Stat. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α[J]. Underst Stat, 2003, 2(3): 205-19.] [DOI] [Google Scholar]
4.COHEN JACOB. A coefficient of agreement for nominal scales. Educational and Psychological Measurement. 1960;20(1):37–46. doi: 10.1177/001316446002000104. [COHEN JACOB. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960, 20(1): 37-46.] [DOI] [Google Scholar]
5.Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychol Bull. 1968;70(4):213–20. doi: 10.1037/h0026256. [Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit[J]. Psychol Bull, 1968, 70 (4): 213-20.] [DOI] [PubMed] [Google Scholar]
6.FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement. 1973;33(3):613–9. doi: 10.1177/001316447303300309. [FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability[J]. Educational and Psychological Measurement, 1973, 33 (3): 613-9.] [DOI] [Google Scholar]
7.Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes. J Clin Epidemiol. 1990;43(6):551–8. doi: 10.1016/0895-4356(90)90159-M. [Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes[J]. J Clin Epidemiol, 1990, 43(6): 551-8.] [DOI] [PubMed] [Google Scholar]
8.Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association. Boston, MA, US. 2010 [Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association[J]. Boston, MA, US, 2010.] [Google Scholar]
9.Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement. http://pdfs.semanticscholar.org/087b/e7b3d737ee817b64246e7c9a4fb6cd57dc24.pdf. Br J Math Stat Psychol. 2008;61(pt 1):29–48. doi: 10.1348/000711006X126600. [Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement[J]. Br J Math Stat Psychol, 2008, 61(pt 1): 29-48.] [DOI] [PubMed] [Google Scholar]
10.张竞文, 许军, 安胜利. 基于AC1系数的一致性评价方法. http://www.j-smu.com/CN/Y2018/V38/I04/455. 南方医科大学学报. 2018;38(4):455–9. doi: 10.3969/j.issn.1673-4254.2018.04.14. [张竞文, 许军, 安胜利. 基于AC1系数的一致性评价方法[J]. 南方医科大学学报, 2018, 38(4): 455-9.] [DOI] [PMC free article] [PubMed] [Google Scholar]
11.韦红霞, 陈昭宇, 许军, et al. 一致性评价系数CEA在三分类资料的应用效果评价. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT202005012.htm. 中国卫生统计. 2020;37(5):691–4, 697. [韦红霞, 陈昭宇, 许军, 等. 一致性评价系数CEA在三分类资料的应用效果评价[J]. 中国卫生统计, 2020, 37(5): 691-4, 697.] [Google Scholar]
12.黄正南. 一致系数的公式及其与相关系数的关系. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199505000.htm. 中国卫生统计. 1995;(5):1–4. [黄正南. 一致系数的公式及其与相关系数的关系[J]. 中国卫生统计, 1995(5): 1-4.] [Google Scholar]
13.闫岩, 华琳, 张建. 对诊断一致性kappa系数及评价指标的探讨. 中国卫生统计. 2007;24(3):313–5. doi: 10.3969/j.issn.1002-3674.2007.03.031. [闫岩, 华琳, 张建. 对诊断一致性kappa系数及评价指标的探讨[J]. 中国卫生统计, 2007, 24(3): 313-5.] [DOI] [Google Scholar]
14.公为洁, 赵志, 顾豪高, et al. 二分类资料的五种一致性评价指标应用效果比较. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201604021.htm. 中国卫生统计. 2016;33(4):636–8, 640. [公为洁, 赵志, 顾豪高, 等. 二分类资料的五种一致性评价指标应用效果比较[J]. 中国卫生统计, 2016, 33(4): 636-8, 640.] [Google Scholar]
15.张竞文. 基于AC1系数的二分类结局的一致性评价方法[D]. 广州: 南方医科大学, 2018.
16.Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters. Psychometrika. 2008;73(3):407–30. doi: 10.1007/s11336-007-9054-8. [Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters[J]. Psychometrika, 2008, 73(3): 407- 30.] [DOI] [Google Scholar]
17.Fleiss, Joseph L. Measuring nominal scale agreement among many raters. Psychological Bulletin. 1971;76(5):378–82. doi: 10.1037/h0031619. [Fleiss, Joseph L. Measuring nominal scale agreement among many raters[J]. Psychological Bulletin, 1971, 76(5): 378-82.] [DOI] [Google Scholar]
18.郭轶斌, 郭威, 秦宇辰, et al. 基于kappa系数的一致性检验及其软件实现. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201601058.htm. 中国卫生统计. 2016;33(1):169–70, 174. [郭轶斌, 郭威, 秦宇辰, 等. 基于kappa系数的一致性检验及其软件实现[J]. 中国卫生统计, 2016, 33(1): 169-70, 174.] [Google Scholar]
19.Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance. Educ Psychol Meas. 2016;76(4):609–37. doi: 10.1177/0013164415596420. [Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance[J]. Educ Psychol Meas, 2016, 76(4): 609- 37.] [DOI] [PMC free article] [PubMed] [Google Scholar]
20.LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α. Understanding Statistics. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α[J]. Understanding Statistics, 2003, 2(3): 205-19.] [DOI] [Google Scholar]
21.Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples. BMC Med Res Methodol. 2013;13:61. doi: 10.1186/1471-2288-13-61. [Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples[J]. BMC Med Res Methodol, 2013, 13: 61.] [DOI] [PMC free article] [PubMed] [Google Scholar]
22.Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics. Turkiye Klinikleri Journal of Biostatistics. 2015;7(1):25–38. doi: 10.5336/biostatic.2014-41410. [Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics[J]. Turkiye Klinikleri Journal of Biostatistics, 2015, 7(1): 25-38.] [DOI] [Google Scholar]
23.公为洁, 温兴煊, 何贤英, et al. 一阶一致性系数AC1对二分类结局一致性的测评. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201505010.htm. 中国卫生统计. 2015;32(5):774–6. [公为洁, 温兴煊, 何贤英, 等. 一阶一致性系数AC1对二分类结局一致性的测评[J]. 中国卫生统计, 2015, 32(5): 774-6.] [Google Scholar]
24.栾建安, 王纪宪, 苏炳华, et al. 多类别多评估者的KAPPA分析. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199506014.htm. 中国卫生统计. 1995;(6):20–2. [栾建安, 王纪宪, 苏炳华, 等. 多类别多评估者的KAPPA分析[J]. 中国卫生统计, 1995, (6): 20-2.] [Google Scholar]
25.王军. Kappa系数在一致性评价中的应用研究[D]. 成都: 四川大学, 2006.
26.李春波, 何燕玲, 张明园. 一致性检验方法的合理应用. 上海精神医学. 2000;12(4):228–30, 232. doi: 10.3969/j.issn.1002-0829.2000.04.016. [李春波, 何燕玲, 张明园. 一致性检验方法的合理应用[J]. 上海精神医学, 2000, 12(4): 228-30, 232.] [DOI] [Google Scholar]

[b1] 1.单彬. 多研究者(或方法)间一致性评价方法的研究[D]. 北京: 解放军军事医学科学院, 2006.

[b2] 2.Scott WA. Reliability of content analysis: the case of nominal scaling. Public Opinion Quarterly. 1955;19(3):321–5. doi: 10.1086/266577. [Scott WA. Reliability of content analysis: the case of nominal scaling [J]. Public Opinion Quarterly, 1955, 19(3): 321-5.] [DOI] [Google Scholar]

[b3] 3.Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α. Underst Stat. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α[J]. Underst Stat, 2003, 2(3): 205-19.] [DOI] [Google Scholar]

[b4] 4.COHEN JACOB. A coefficient of agreement for nominal scales. Educational and Psychological Measurement. 1960;20(1):37–46. doi: 10.1177/001316446002000104. [COHEN JACOB. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960, 20(1): 37-46.] [DOI] [Google Scholar]

[b5] 5.Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychol Bull. 1968;70(4):213–20. doi: 10.1037/h0026256. [Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit[J]. Psychol Bull, 1968, 70 (4): 213-20.] [DOI] [PubMed] [Google Scholar]

[b6] 6.FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement. 1973;33(3):613–9. doi: 10.1177/001316447303300309. [FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability[J]. Educational and Psychological Measurement, 1973, 33 (3): 613-9.] [DOI] [Google Scholar]

[b7] 7.Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes. J Clin Epidemiol. 1990;43(6):551–8. doi: 10.1016/0895-4356(90)90159-M. [Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes[J]. J Clin Epidemiol, 1990, 43(6): 551-8.] [DOI] [PubMed] [Google Scholar]

[b8] 8.Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association. Boston, MA, US. 2010 [Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association[J]. Boston, MA, US, 2010.] [Google Scholar]

[b9] 9.Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement. http://pdfs.semanticscholar.org/087b/e7b3d737ee817b64246e7c9a4fb6cd57dc24.pdf. Br J Math Stat Psychol. 2008;61(pt 1):29–48. doi: 10.1348/000711006X126600. [Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement[J]. Br J Math Stat Psychol, 2008, 61(pt 1): 29-48.] [DOI] [PubMed] [Google Scholar]

[b10] 10.张竞文, 许军, 安胜利. 基于AC1系数的一致性评价方法. http://www.j-smu.com/CN/Y2018/V38/I04/455. 南方医科大学学报. 2018;38(4):455–9. doi: 10.3969/j.issn.1673-4254.2018.04.14. [张竞文, 许军, 安胜利. 基于AC1系数的一致性评价方法[J]. 南方医科大学学报, 2018, 38(4): 455-9.] [DOI] [PMC free article] [PubMed] [Google Scholar]

[b11] 11.韦红霞, 陈昭宇, 许军, et al. 一致性评价系数CEA在三分类资料的应用效果评价. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT202005012.htm. 中国卫生统计. 2020;37(5):691–4, 697. [韦红霞, 陈昭宇, 许军, 等. 一致性评价系数CEA在三分类资料的应用效果评价[J]. 中国卫生统计, 2020, 37(5): 691-4, 697.] [Google Scholar]

[b12] 12.黄正南. 一致系数的公式及其与相关系数的关系. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199505000.htm. 中国卫生统计. 1995;(5):1–4. [黄正南. 一致系数的公式及其与相关系数的关系[J]. 中国卫生统计, 1995(5): 1-4.] [Google Scholar]

[b13] 13.闫岩, 华琳, 张建. 对诊断一致性kappa系数及评价指标的探讨. 中国卫生统计. 2007;24(3):313–5. doi: 10.3969/j.issn.1002-3674.2007.03.031. [闫岩, 华琳, 张建. 对诊断一致性kappa系数及评价指标的探讨[J]. 中国卫生统计, 2007, 24(3): 313-5.] [DOI] [Google Scholar]

[b14] 14.公为洁, 赵志, 顾豪高, et al. 二分类资料的五种一致性评价指标应用效果比较. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201604021.htm. 中国卫生统计. 2016;33(4):636–8, 640. [公为洁, 赵志, 顾豪高, 等. 二分类资料的五种一致性评价指标应用效果比较[J]. 中国卫生统计, 2016, 33(4): 636-8, 640.] [Google Scholar]

[b15] 15.张竞文. 基于AC1系数的二分类结局的一致性评价方法[D]. 广州: 南方医科大学, 2018.

[b16] 16.Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters. Psychometrika. 2008;73(3):407–30. doi: 10.1007/s11336-007-9054-8. [Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters[J]. Psychometrika, 2008, 73(3): 407- 30.] [DOI] [Google Scholar]

[b17] 17.Fleiss, Joseph L. Measuring nominal scale agreement among many raters. Psychological Bulletin. 1971;76(5):378–82. doi: 10.1037/h0031619. [Fleiss, Joseph L. Measuring nominal scale agreement among many raters[J]. Psychological Bulletin, 1971, 76(5): 378-82.] [DOI] [Google Scholar]

[b18] 18.郭轶斌, 郭威, 秦宇辰, et al. 基于kappa系数的一致性检验及其软件实现. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201601058.htm. 中国卫生统计. 2016;33(1):169–70, 174. [郭轶斌, 郭威, 秦宇辰, 等. 基于kappa系数的一致性检验及其软件实现[J]. 中国卫生统计, 2016, 33(1): 169-70, 174.] [Google Scholar]

[b19] 19.Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance. Educ Psychol Meas. 2016;76(4):609–37. doi: 10.1177/0013164415596420. [Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance[J]. Educ Psychol Meas, 2016, 76(4): 609- 37.] [DOI] [PMC free article] [PubMed] [Google Scholar]

[b20] 20.LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α. Understanding Statistics. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α[J]. Understanding Statistics, 2003, 2(3): 205-19.] [DOI] [Google Scholar]

[b21] 21.Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples. BMC Med Res Methodol. 2013;13:61. doi: 10.1186/1471-2288-13-61. [Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples[J]. BMC Med Res Methodol, 2013, 13: 61.] [DOI] [PMC free article] [PubMed] [Google Scholar]

[b22] 22.Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics. Turkiye Klinikleri Journal of Biostatistics. 2015;7(1):25–38. doi: 10.5336/biostatic.2014-41410. [Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics[J]. Turkiye Klinikleri Journal of Biostatistics, 2015, 7(1): 25-38.] [DOI] [Google Scholar]

[b23] 23.公为洁, 温兴煊, 何贤英, et al. 一阶一致性系数AC1对二分类结局一致性的测评. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201505010.htm. 中国卫生统计. 2015;32(5):774–6. [公为洁, 温兴煊, 何贤英, 等. 一阶一致性系数AC1对二分类结局一致性的测评[J]. 中国卫生统计, 2015, 32(5): 774-6.] [Google Scholar]

[b24] 24.栾建安, 王纪宪, 苏炳华, et al. 多类别多评估者的KAPPA分析. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199506014.htm. 中国卫生统计. 1995;(6):20–2. [栾建安, 王纪宪, 苏炳华, 等. 多类别多评估者的KAPPA分析[J]. 中国卫生统计, 1995, (6): 20-2.] [Google Scholar]

[b25] 25.王军. Kappa系数在一致性评价中的应用研究[D]. 成都: 四川大学, 2006.

[b26] 26.李春波, 何燕玲, 张明园. 一致性检验方法的合理应用. 上海精神医学. 2000;12(4):228–30, 232. doi: 10.3969/j.issn.1002-0829.2000.04.016. [李春波, 何燕玲, 张明园. 一致性检验方法的合理应用[J]. 上海精神医学, 2000, 12(4): 228-30, 232.] [DOI] [Google Scholar]

PERMALINK

一致性评价系数应用于无序多分类资料的效果评价

Application of Coefficient for Evaluating Agreement in disordered multi-classification data

Qihong LIANG

Zhaoyu CHEN

Zheng ZHANG

Shuang HUANG

Shengli AN

Abstract

目的

方法

结果

结论

Abstract

Objective

Methods

Results

Conclusion

1. 资料和方法

1.1. 常用一致性评价系数的构建

1.

2.

1.2. 无序多分类CEA系数的构建

3.

1.3. 无序多分类CEA系数方差的估计

4.

1.4. 无序多分类CEA系数的置信区间

2. 模拟与实例

2.1. 模拟步骤

2.2. 模拟结果

2.2.1. 敏感性分析

1.

2.

3.

4.

5.

6.

2.2.2. 方差比较

5.

2.2.3. CEA系数的分布

2.3. 实例应用

6.

7.

3. 讨论

Biography

Funding Statement

Contributor Information

References

ACTIONS

PERMALINK

RESOURCES

Similar articles

Cited by other articles

Links to NCBI Databases