Abstract
目的
基于AC1系数的构建思想, 建立一致性评价系数(CEA)在两评价者无序多分类结局的评价方法, 并可避免Kappa系数的缺陷。
方法
通过随机抽样生成诊断试验类型数据, 使用Monte Carlo模拟, 在样本量、指定事件在总体的占比、偶然评价率、类别数等不同参数组合下进行重抽样, 比较Kappa系数、AC1系数和CEA系数的均方误、方差和方差的期望。通过从总体中随机抽样1000次得到CEA系数的分布描述。
结果
偶然评价率的不一致会导致CEA系数的均方误波动较大。与Kappa系数相比, AC1系数和CEA系数在指定事件的占比为极端值的情况更为稳定。在小样本、偶然评价率不一致的情况下, Kappa系数的方差和方差的期望变大, CEA系数变化较小。大样本条件下, CEA系数近似服从正态分布。
结论
Kappa系数、AC1系数、CEA系数均受偶然评价率的影响最大, 样本量次之。针对无序多分类结局, CEA系数在不同的样本量、偶然评价率下具有更稳健的性质。
Keywords: 一致性评价, CEA系数, AC1系数, Kappa, 诊断试验
Abstract
Objective
To assess the performance of the Coefficient for Evaluating Agreement (CEA) established based on AC1 coefficient in evaluating the consistency between two raters for disordered multi- classification outcome data in comparison with the Kappa coefficient.
Methods
The diagnostic test data generated by random sampling and Monte Carlo simulation were used for resampling with different parameter combinations (including sample size, proportion of specified events in the population, accidental evaluation rate and number of categories) to compare the mean square error, variance, and variance of the mean of Kappa, AC1 and CEA. The distribution description of CEA was obtained by random sampling for 1000 times from the population.
Results
The inconsistency of the incidental evaluation rate caused substantial fluctuation of the mean square error of CEA. Compared with the Kappa coefficient, AC1 and CEA was more stable when the population contained extreme proportions of the specified events. For small samples and inconsistent evaluation rates by chance, the variance and the expectation of variance became obviously expanded for Kappa coefficient and showed smaller changes for CEA. CEA showed nearly a normal distribution for a large sample size.
Conclusion
Kappa, AC1 and CEA are all the most strongly affected by the accidental evaluation rate, followed then by sample size. For disordered multi-classification outcome data, CEA is more robust against the variations of sample size and accidental evaluation rate.
Keywords: agreement evaluation, Coefficient for Evaluating Agreement, AC1 coefficient, Kappa, diagnostic test
在医学诊断实践中,通常需要用不同的测量方法或不同的评价者对测量对象的结果进行判断,对测量方法或评价者组间、组内偏差的评价称为一致性评价[1]。目前,国内外有学者提出多种方法进行一致性评价,对于无序多分类结局,1955年提出了π index[2, 3],1960年、1968年先后提出了Kappa系数、加权Kappa系数[4, 5],1973年对加权Kappa系数进行扩展到多测量者的评价中[6]。然而,有研究[7]于1990年首先提出了Kappa悖论,指出其在特殊情况下存在缺陷。2008年提出的AC1系数,解决了Kappa悖论[8]的问题,具有更好的统计评价效果[9]。基于AC1系数,本课题组于2018年提出了一种针对二分类结局的一致性评价系数(CEA),其准确性、稳定性都较AC1系数高[10]。此外,已对CEA系数在三分类资料中的应用效果进行评价,但其在指定事件在总体的占比接近偶然评价率时下会产生较大偏差[11],且缺少对CEA方差的估计与置信区间的计算。目前对CEA系数在无序多分类资料的应用尚未见研究,本研究将CEA系数的应用拓展到无序多分类资料,确定其置信区间计算方法并对其应用效果进行评价,完善CEA系数在一致性评价中的应用。
1. 资料和方法
1.1. 常用一致性评价系数的构建
在两评价者无序多分类资料中,评价者分别为Rater A、Rater B,有k种类型,即无序多分类评价结果为1, …, k,可得列联表(表 1),其中nij代表评价者A把测量对象判为i类且评价者B把测量对象判为j类的数量[12]。
1.
两评价者判别结果列联表
Contingency table to assess agreement by two raters
| Rater B | |||||
| l | ... | k | Total | ||
| Rater A | 1 | n 11 | ... | n 1k | n 1+ |
| ... | ... | nij | ... | ... | |
| k | n k1 | ... | nkk | n+k | |
| Total | n +1 | ... | n+k | n | |
一致性评价系数的构建思想是在观察一致性中扣除偶然因素的影响,进而衡量两评价者在无序多分类结局间的一致性程度[13],其基本构建公式为
,其中p0为观察一致率,pe为偶然一致率。Kappa系数、AC1系数的观察一致率计算公式均为
,其区别在于偶然一致率pe的估计方法不同[14]。不同一致性评价系数对偶然一致率pe的定义见表 2。
2.
两种一致性评价系数对pe的定义
Definition of two consistency evaluation coefficients for pe
| Consistency evaluation coefficients |
pe |
| Kappa |
|
| AC1 |
|
1.2. 无序多分类CEA系数的构建
CEA系数的构建在表 1中引入了偶然评价与确定评价的概念。当任意一个评价者不确定将测量对象判别到哪一类型时,称评价者做出偶然评价,反之称为确定评价。在偶然评价中,假定评价者从k个判别类型中随机等可能地选取一个判别类型作为评价结果,则把测量对象判别到正确类型的概率为1/k,即偶然正确率为即偶然正确率为1/k。只要有任意一个评价者做出偶然评价,评价者A和评价者B就会出现偶然一致性或偶然非一致性。在确定评价中,评价者A和评价者B对测量对象都做出了确定的判断,因此两评价者的判别结果将完全一致,只有确定一致性,而没有非一致性。根据两个评价者做出的偶然评价与确定评价,可得表 3,其中nijCR代表评价者A做确定评价把测量对象判为i类且评价者B做偶然评价把测量对象判为j类的数量,以此类推。
3.
区分偶然评价和确定评价的判别结果
Results of distinguishing the random evaluation and the certain evaluation
| Rater A | Rater B | |||||||
| Random | Certain | |||||||
| 1 | ... | k | 1 | ... | k | |||
| Random | 1 | n11RR | ... | n1kRR | n11RC | ... | n1kRC | |
| ... | ... | nijRR | ... | ... | nijRC | ... | ||
| k | nk1RR | ... | nkkRR | nk1RC | ... | nkkRC | ||
| Certain | 1 | n11CR | ... | n1kCR | n11CC | ... | 0 | |
| ... | ... | nijCR | ... | ... | niiCC | ... | ||
| k | nk1CR | ... | nkkCR | 0 | ... | nkkCC | ||
假定判别类型“1”为k个判别结果中的指定事件,作以下定义:pr为指定事件在总体中的占比,即在所有事件中发生指定事件“1”的概率;ra、rb分别为评价者A、评价者B作出偶然评价的概率;pa、pb分别为评价者A、评价者B把所有测量对象判别到指定事件“1”的概率;p0为评价者A和评价者B同时把同一测量对象判别到同一类型的概率,即观察一致率,其构成包含偶然一致性与确定一致性;pe为偶然一致率;pd为偶然非一致率。
![]() |
1 |
![]() |
2 |
根据二分类CEA系数的构建思想[15],CEA的基本公式为:
![]() |
3 |
其中,pe*为针对CEA的偶然一致率估计值,表 1可由真实数据所得,因此计算CEA即可转化为求偶然一致率pe估计值的问题。
表 1中的观察一致性与观察非一致性,两者均有偶然和确定两部分,即:观察一致率+观察非一致率=1、观察一致=偶然一致+确定一致、观察非一致=偶然非一致+确定非一致。对应表 3,偶然一致为niiRC/RR/CR,确定一致为njjCC,偶然非一致为nijRC/RR/CR(i≠j),确定非一致为0,故有p0+pd=1。
考虑评价者做出偶然评价的概率ra、rb,有以下关系式:
![]() |
4 |
![]() |
5 |
式子可理解为:任意一个评价者做出偶然判断即为偶然评价,三种情况对应公式(4)的三部分;对于同一个观察单位,评价者A、B分别将其归到1, …, k类,则一共有k2种情况,其中A、B评价一致的情况有k种,非一致的有k2-k种,所以两评价者一致的概率为k/k2=1/k,非一致的概率为(k2-k)/k2=(k-1)/k。
评价者A、评价者B把测量对象判别到正确类的概率由确定评价和偶然评价组成。当样本量足够大时,确定评价的正确率可近似用指定事件在总体的占比pr代替,偶然评价的正确率为1/k,因此有:
![]() |
6 |
![]() |
7 |
变换后有:
![]() |
8 |
![]() |
9 |
通过公式(6)和公式(7)整理可得到关于pr的函数:
![]() |
因此求解pe的问题可转化为求一元二次方程f(pr)=0的解pr的问题。由于0 < p0 < 1,当Δ>0时,方程有两个不等的解,取更接近(pa +pb)/2的值作为pr的估计值;当Δ≤0时,取样本中两评价者都评价为指定事件的占比(n11/n)作为pr的估计值。将pr的解代入公式(8)和公式(9),再通过公式(4)计算pe的估计值,最终得到CEA。
1.3. 无序多分类CEA系数方差的估计
根据Gwet构建AC1系数的思想[7],当一致性评价推广到多个评价者时,测量者关于不同评价者的判别结果分布按表 4展示,其中,r代表评价者数,n代表测量对象的样本数,rik代表把第i个测量对象判别到第k类的评价者数。本研究只考虑在两评价者的条件下推导CEA系数的方差,即r=2。
4.
按测量对象与判别类型的多评价者结果分布
Distribution of participants and categories by multiple raters
| Participant | Category | Total | |||
| 1 | 2 | … | k | ||
| 1 | r11 | r12 | … | r1k | r |
| 2 | r21 | r22 | … | r2k | r |
| … | … | … | … | … | … |
| n | rn1 | rn2 | … | rnk | r |
| Total | r+1 | r+2 | … | r+k | nr |
参考Gwet使用的线性近似方法估计方差[16],通过构建一个包含所有项的样本方差去逼近真实方差,在大样本的情况下,近似方差与真实方差一致,其计算式如下:
![]() |
10 |
式中,
是通过解一元二次方程估计出的CEA系数,
是每一个测量对象的一致性系数,可通过以下公式估计:
![]() |
11 |
表示每一个测量对象的一致性系数,pe|i表示每一个测量对象的偶然一致率,其中
。
综合上述公式,样本量较大时,通过构建表 4得到CEA系数方差的估计值。
1.4. 无序多分类CEA系数的置信区间
Gwet在研究AC1系数方差估计与置信区间构建的文章通过模拟指出,基于上述思想构建的系数在大样本情况下具有近似正态性,因此保证了置信区间的有效性[12]。当样本量足够大时,计算出CEA系数的估计值和方差后,其95%的置信区间即为
。
2. 模拟与实例
2.1. 模拟步骤
使用Monte Carlo模拟评价CEA系数的有效性,并对Kappa、AC1、CEA三种系数的方差估计值进行比较。模拟基于两评价者A、B,参数包括样本量n、类别数k、指定事件在总体中占比pr、两评价者的偶然评价率ra和rb。模拟步骤如下:(1)随机抽样产生一个样本量为n、包含1, …, k的数列,其中指定事件“1”的概率为pr,其余为(1-pr)/(k-1);(2)从步骤(1)中产生的数据中分两次随机抽取ra*100%、rb*100%的样本作为两评价者做出偶然评价样本,每种判别类型的概率均为1/k;(3)以含有偶然评价的样本作为原始样本,用Bootstrap法进行重抽样500次,算出每个重抽样样本的一致性评价系数及其方差。参数设置为n=20、60、100,k=3、4、5,pr= 0.05~0.95(间隔0.01),ra=0.05、0.20,rb=0.05、0.20。
对CEA系数进行敏感性分析。由于CEA系数的构造与各类别所占比例有关,在实际研究,某一诊断评价中不同疾病在总体中的占比往往大不相同,即对于同一个多分类结局资料,指定事件有多种选择,其在总体的占比pr会有不同的取值,因此模拟部分探究pr在不同样本量n、不同偶然评价率(ra、rb)及不同类别数k下对CEA系数的影响。采用500次重抽样得到的一致性评价系数的均方误以评价其准确度。
对CEA系数的方差进行评价。探讨指定事件在总体的占比、偶然评价率与样本量对Kappa、AC1、CEA三种系数的影响并进行对比。采用500次重抽样得到的一致性评价系数的方差和方差的期望评价估计值的稳定性。
为了考察CEA系数的分布情况,从总体中随机抽样生成一组样本量n=50、100,类别数k=3,指定事件在总体中占比分别为pr=0.05、0.25、0.75、0.95的样本,计算相应的CEA系数。重复上述过程1000次,得到给定参数下1000个CEA系数的分布,绘制分布直方图验证CEA系数在不同样本下的渐近正态性行及置信区间的有效性。
2.2. 模拟结果
2.2.1. 敏感性分析
固定偶然评价率(ra、rb),不同样本量n与类别数k下,指定事件的占比pr对CEA系数均方误的影响较小,呈现较为稳定状态。同一k下,n越大,则CEA系数的均方误越小。同一n下,不同k对CEA几乎没有影响(图 1、2)。
1.

不同样本量及类别数下pr对CEA的影响
Influence of pr on CEA under different sample sizes and type numbers (ra=rb=0.05).
2.

不同样本量及类别数下pr对CEA的影响
Influence of pr on CEA under different sample sizes and type numbers (ra=0.05, rb=0.20).
由图 1、2知样本量对CEA系数影响较大,样本量为60与100时CEA均方误接近,因此下述模拟中样本量分别取n=20、100(图 3、4)。结果显示不同样本量下,两评价者偶然评价率不一致时(ra≠rb)的均方误都比偶然一致率相等时(ra=rb)高。当样本量较大(n=100)、偶然评价率有差异(ra≠rb)的情况下(图 4),均方误随着pr的变化出现较大波动,但当pr大于0.5后,波动趋于平缓,且CEA系数的均方误始终保持在较小数值(0.005)以下。
3.

不同类别数及偶然评价率下pr对CEA的影响
Influence of pr on CEA under different type numbers and the accidental evaluation rates (n=20).
4.

不同类别数及偶然评价率下pr对CEA的影响
Influence of pr on CEA under different type numbers and the accidental evaluation rates (n=100).
对比图 5、6,两种类别数下(k=3、k=5),CEA的均方误变化情况接近,受类别数k的影响较小。样本较小(n=20)、偶然评价率不一致(ra≠rb)情况下的均方误在包括前述所有参数设置中最高。
5.

不同样本量及偶然评价率下pr对CEA的影响
Influence of pr on CEA under different sample sizes and the accidental evaluation rates (k=3).
6.

不同样本量及偶然评价率下pr对CEA的影响
Influence of pr on CEA under different sample sizes and the accidental evaluation rates (k=5).
综上,CEA系数在各种参数设置下,其均方误都保持在0.02以下,几乎不受类别数k的影响,且随着指定事件在总体占比pr的变化无明显变化趋势。偶然评价率(ra、rb)对其影响最大,样本量次之,小样本与较高的非一致偶然评价率(ra≠rb)会导致均方误较高。
2.2.2. 方差比较
参考Gwet对方差进行Monte Carlo模拟的思路[9],对CEA、AC1、Kappa进行比较,x表示三种一致性评价系数。在特定参数下,从总体中抽样所获得的一份样本,每一次重抽样都可得到一个系数的估计值xs及其方差vs(x)(s指第s次重抽样)。Var(x)表示500次重抽样所得系数的方差,即
,用以评价系数的波动情况,其值越小越好;E[v(x)]表示这500次重抽样方差的期望,即
可通过公式(11)估计,E[v(x)]与Var(x)越接近说明方差的估计值与真实值越接近。前述结果提示类别数k对CEA系数的影响最小,因此本部分模拟全部取k=3,研究样本量n与偶然一致率(ra、rb)对方差的影响,模拟结果见表 5。
5.
不同参数下各一致性评价系数的方差及方差估计值的期望
Variance and the expectation of estimators of each consistency evaluation coefficient under different parameters (%)
| Line | n | Var (CEA) | E[v (CEA)] | Var (AC1) | E[v (AC1)] | Var (Kappa) | E[v (Kappa)] |
| *: pr=0.05, ra=rb=0.05; #: pr=0.05, ra=0.05, rb=0.20; s: pr=0.95, ra=rb=0.05; & : pr=0.95, ra=0.05, rb=0.20. | |||||||
| 1 | 20* | 0.31 | 0.12 | 0.34 | 0.10 | 1.22 | 13.64 |
| 2 | 60* | 0.11 | 0.14 | 0.14 | 0.10 | 0.31 | 0.54 |
| 3 | 100* | 0.07 | 0.12 | 0.08 | 0.10 | 0.19 | 0.66 |
| 4 | 20# | 1.06 | 0.46 | 1.01 | 0.44 | 2.61 | 81.80 |
| 5 | 60# | 0.34 | 0.64 | 0.34 | 0.46 | 0.67 | 2.08 |
| 6 | 100# | 0.19 | 0.60 | 0.19 | 0.49 | 0.40 | 2.47 |
| 7 | 20s | 0.33 | 0.00 | 0.40 | 0.02 | 15.03 | 5472.15 |
| 8 | 60s | 0.13 | 0.00 | 0.16 | 0.01 | 3.52 | 3906.00 |
| 9 | 100s | 0.07 | 0.00 | 0.08 | 0.00 | 2.49 | 4189.60 |
| 10 | 20 & | 1.08 | 0.03 | 1.33 | 0.15 | 8.46 | 1551.29 |
| 11 | 60 & | 0.31 | 0.04 | 0.41 | 0.11 | 2.38 | 1658.10 |
| 12 | 100 & | 0.21 | 0.02 | 0.27 | 0.07 | 1.70 | 2100.75 |
上述任意一种参数设置下,CEA系数的方差均比AC1系数、Kappa系数小,Kappa系数的方差最大,且样本量越大,方差越小。三种一致性评价系数在偶然评价率不一致时(Line4~Line6、Line10~Line12)的方差均比偶然评价率一致时(Line1~Line3、Line7~Line9)高。虽然指定事件的占比处于极端值时(pr=0.05、pr=0.95),但CEA系数和AC1系数在其方差和方差的期望均不会出现较大变化,而Kappa系数在指定事件的占比较高时(pr=0.95),方差的期望则发生较大提高。随着样本量的提高,CEA系数和AC1系数方差的期望受样本量的影响不大,Kappa系数方差的期望不仅相对较前者高,且变化趋势不稳定。
综上,CEA、AC1、Kappa受偶然一致性的影响最大,样本量次之。CEA系和AC1无论在何种情况下均比Kappa系数更加稳定。即便是在小样本的情况下,CEA的方差和方差的期望要比AC1、Kappa更接近。
2.2.3. CEA系数的分布
固定模拟的样本量n=50、100,类别数k=3,不同pr(0.05、0.25、0.75、0.95)下随机抽样1000次所得的CEA系数分布直方图均服从正态分布(图略),且样本量越大,CEA系数越趋近服从正态分布,与AC1系数的结论相同。因此用
作为CEA系数95%的置信区间是有效的。
2.3. 实例应用
数据来自美国国家精神健康研究所一个包含不同医生在5种精神疾病类型中对30名患者进行诊断的数据[17]。本文对数据中两名医生的诊断结果(表 6)进行一致性检验,通过R软件实现一致性评价[18],参数设置为2个评价者、5分类资料。3种一致性评价方法的结果如表 7,CEA系数的置信区间范围要比AC1、Kappa系数更小。
6.
两名医生诊断结果
Result of diagnosis by two physicians
| Item | Rater B | |||||
| Depression | Personality disorder | Schizophrenia | Neurosis | Other | ||
| Rater A | Depression | 7 | 1 | 2 | 3 | 0 |
| Personality Disorder | 0 | 8 | 1 | 1 | 0 | |
| Schizophrenia | 0 | 0 | 2 | 0 | 0 | |
| Neurosis | 0 | 0 | 0 | 1 | 0 | |
| Other | 0 | 0 | 0 | 0 | 4 | |
7.
3种一致性评价系数的估计结果
Results of three consistency evaluation coefficients
| Type | Estimator | v (x) | 95% CI |
| CEA | 0.7143 | 0.0056 | (0.5676, 0.8610) |
| AC1 | 0.7202 | 0.0063 | (0.5642, 0.8756) |
| Kappa | 0.6512 | 0.0087 | (0.4684, 0.8340) |
3. 讨论
有文献通过模拟研究比较了Kappa系数和AC1系数在无序多分类结果中的应用效果[19],得出AC1系数比Kappa系数更稳健的、受发病率影响更小的结论[20-22]。本课题组前期所提出的CEA系数也显示了较Kappa更为稳健的优势[11, 15]。然而,少有研究人员使用AC1或CEA作为一致性评价方法特别是在医学领域,Kappa系数仍被普遍应用[23]。本研究完善了CEA系数在无序多分类资料中的应用,并对3种一致性评价方法进行了对比评价。
设置不同的影响一致性评价的因素:类别数k、指定事件在总体的占比pr、偶然评价率(ra、rb)和样本量n,Monte Carlo模拟研究结果显示:(1)无论何种情况,类别数对CEA系数几乎没有影响;(2)指定事件的占比在各种情况下对CEA系数影响较小,其影响程度与样本量、偶然评价率有关。当两评价者偶然评价率一致时,指定事件的影响程度较小;当样本量较小(n=30)、偶然评价率不一致时,CEA系数受指定事件的影响程度随着其占比的提高而减缓;(3)CEA系数受偶然评价率的影响相对较大,偶然评价率不一致的情况会导致CEA系数的偏差变大;(4)样本量越大,CEA系数越稳定。
对比Kappa系数、AC1系数、CEA系数的稳定性结果显示:(1)3种一致性评价系数均受样本量、偶然评价率的影响,样本量越大,系数越稳定;偶然评价率不一致会导致系数的波动程度较大,其中Kappa系数所受的影响相对其余两者要大;(2)CEA系数和AC1系数受指定事件占比pr的影响较小,而Kappa系数指定事件的占比取极端值的情况下(pr=0.05、pr=0.95)会出现方差不稳定的现象(即Kappa悖论);(3)即便是在小样本(n=30)的情况下,CEA系数的稳定性也较AC1系数、Kappa系数好。此外,CEA系数的分布接近于正态分布,其置信区间的构建是可靠性的。
综上,对于两评价者在无序多分类结局的一致性评价中,均显示本研究所提出的CEA系数具有更为稳定的特性。
本研究的前提假设是评价者在进行偶然评价时随机等可能地将观测对象判别到某一类型中,没有额外考虑评价者先验信息的影响,后续对CEA系数的改进中拟考虑诊断经验的影响。此外,本研究仅对CEA在两评价者的无序多分类结果中的应用效果进行研究评价,对于CEA系数的假设检验仍有待补充。软件实现上,Kappa系数和AC1系数在多评价者间[24]和有序多分类资料均有较多软件可以实现[25, 26],包括SPSS、SAS,CEA系数在以上方面的理论推广和程序实现值得进一步完善。
Biography
梁绮红,在读硕士研究生,E-mail: 1042935790@qq.com
Funding Statement
广东省组织构建与检测重点实验室开放课题基金(zzgjzd2021001)
Contributor Information
梁 绮红 (Qihong LIANG), Email: 1042935790@qq.com.
黄 爽 (Shuang HUANG), Email: hs531@163.com.
安 胜利 (Shengli AN), Email: ASL0418@126.com.
References
- 1.单彬. 多研究者(或方法)间一致性评价方法的研究[D]. 北京: 解放军军事医学科学院, 2006.
- 2.Scott WA. Reliability of content analysis: the case of nominal scaling. Public Opinion Quarterly. 1955;19(3):321–5. doi: 10.1086/266577. [Scott WA. Reliability of content analysis: the case of nominal scaling [J]. Public Opinion Quarterly, 1955, 19(3): 321-5.] [DOI] [Google Scholar]
- 3.Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α. Underst Stat. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [Hsu LM, Field R. Interrater agreement measures: comments on kappan, cohen's kappa, scott's π, and aickin's Α[J]. Underst Stat, 2003, 2(3): 205-19.] [DOI] [Google Scholar]
- 4.COHEN JACOB. A coefficient of agreement for nominal scales. Educational and Psychological Measurement. 1960;20(1):37–46. doi: 10.1177/001316446002000104. [COHEN JACOB. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960, 20(1): 37-46.] [DOI] [Google Scholar]
- 5.Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychol Bull. 1968;70(4):213–20. doi: 10.1037/h0026256. [Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit[J]. Psychol Bull, 1968, 70 (4): 213-20.] [DOI] [PubMed] [Google Scholar]
- 6.FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement. 1973;33(3):613–9. doi: 10.1177/001316447303300309. [FLEISS JOSEPH L., COHEN JACOB. The equivalence of weighted Kappa and the intraclass correlation coefficient as measures of reliability[J]. Educational and Psychological Measurement, 1973, 33 (3): 613-9.] [DOI] [Google Scholar]
- 7.Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes. J Clin Epidemiol. 1990;43(6):551–8. doi: 10.1016/0895-4356(90)90159-M. [Cicchetti DV, Feinstein AR. High agreement but low kappa: Ⅱ. Resolving the paradoxes[J]. J Clin Epidemiol, 1990, 43(6): 551-8.] [DOI] [PubMed] [Google Scholar]
- 8.Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association. Boston, MA, US. 2010 [Zhao X. When to use Cohen's Kapppa, if ever? The annual meeting of the International communication association[J]. Boston, MA, US, 2010.] [Google Scholar]
- 9.Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement. http://pdfs.semanticscholar.org/087b/e7b3d737ee817b64246e7c9a4fb6cd57dc24.pdf. Br J Math Stat Psychol. 2008;61(pt 1):29–48. doi: 10.1348/000711006X126600. [Gwet KL. Computing inter-rater reliability and its variance in the presence of high agreement[J]. Br J Math Stat Psychol, 2008, 61(pt 1): 29-48.] [DOI] [PubMed] [Google Scholar]
- 10.张 竞文, 许 军, 安 胜利. 基于AC1系数的一致性评价方法. http://www.j-smu.com/CN/Y2018/V38/I04/455. 南方医科大学学报. 2018;38(4):455–9. doi: 10.3969/j.issn.1673-4254.2018.04.14. [张竞文, 许军, 安胜利. 基于AC1系数的一致性评价方法[J]. 南方医科大学学报, 2018, 38(4): 455-9.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 11.韦 红霞, 陈 昭宇, 许 军, et al. 一致性评价系数CEA在三分类资料的应用效果评价. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT202005012.htm. 中国卫生统计. 2020;37(5):691–4, 697. [韦红霞, 陈昭宇, 许军, 等. 一致性评价系数CEA在三分类资料的应用效果评价[J]. 中国卫生统计, 2020, 37(5): 691-4, 697.] [Google Scholar]
- 12.黄 正南. 一致系数的公式及其与相关系数的关系. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199505000.htm. 中国卫生统计. 1995;(5):1–4. [黄正南. 一致系数的公式及其与相关系数的关系[J]. 中国卫生统计, 1995(5): 1-4.] [Google Scholar]
- 13.闫 岩, 华 琳, 张 建. 对诊断一致性kappa系数及评价指标的探讨. 中国卫生统计. 2007;24(3):313–5. doi: 10.3969/j.issn.1002-3674.2007.03.031. [闫岩, 华琳, 张建. 对诊断一致性kappa系数及评价指标的探讨[J]. 中国卫生统计, 2007, 24(3): 313-5.] [DOI] [Google Scholar]
- 14.公 为洁, 赵 志, 顾 豪高, et al. 二分类资料的五种一致性评价指标应用效果比较. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201604021.htm. 中国卫生统计. 2016;33(4):636–8, 640. [公为洁, 赵志, 顾豪高, 等. 二分类资料的五种一致性评价指标应用效果比较[J]. 中国卫生统计, 2016, 33(4): 636-8, 640.] [Google Scholar]
- 15.张竞文. 基于AC1系数的二分类结局的一致性评价方法[D]. 广州: 南方医科大学, 2018.
- 16.Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters. Psychometrika. 2008;73(3):407–30. doi: 10.1007/s11336-007-9054-8. [Gwet KL. Variance estimation of nominal-scale inter-rater reliability with random selection of raters[J]. Psychometrika, 2008, 73(3): 407- 30.] [DOI] [Google Scholar]
- 17.Fleiss, Joseph L. Measuring nominal scale agreement among many raters. Psychological Bulletin. 1971;76(5):378–82. doi: 10.1037/h0031619. [Fleiss, Joseph L. Measuring nominal scale agreement among many raters[J]. Psychological Bulletin, 1971, 76(5): 378-82.] [DOI] [Google Scholar]
- 18.郭 轶斌, 郭 威, 秦 宇辰, et al. 基于kappa系数的一致性检验及其软件实现. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201601058.htm. 中国卫生统计. 2016;33(1):169–70, 174. [郭轶斌, 郭威, 秦宇辰, 等. 基于kappa系数的一致性检验及其软件实现[J]. 中国卫生统计, 2016, 33(1): 169-70, 174.] [Google Scholar]
- 19.Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance. Educ Psychol Meas. 2016;76(4):609–37. doi: 10.1177/0013164415596420. [Gwet KL. Testing the difference of correlated agreement coefficients for statistical significance[J]. Educ Psychol Meas, 2016, 76(4): 609- 37.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 20.LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α. Understanding Statistics. 2003;2(3):205–19. doi: 10.1207/S15328031US0203_03. [LOUIS M. HSU, RONALD FIELD. Interrater agreement measures: Comments on Kappan, Cohen's Kappa, Scott's π, and aickin's α[J]. Understanding Statistics, 2003, 2(3): 205-19.] [DOI] [Google Scholar]
- 21.Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples. BMC Med Res Methodol. 2013;13:61. doi: 10.1186/1471-2288-13-61. [Wongpakaran N, Wongpakaran T, Wedding D, et al. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples[J]. BMC Med Res Methodol, 2013, 13: 61.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 22.Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics. Turkiye Klinikleri Journal of Biostatistics. 2015;7(1):25–38. doi: 10.5336/biostatic.2014-41410. [Erdoğan S, Temel G O. A Comparison of the sensitivity, Specificity and prevalence response of coefficients of individual agreement (CIA) with Cohen's Kappa and Gwet's AC1 Statistics[J]. Turkiye Klinikleri Journal of Biostatistics, 2015, 7(1): 25-38.] [DOI] [Google Scholar]
- 23.公 为洁, 温 兴煊, 何 贤英, et al. 一阶一致性系数AC1对二分类结局一致性的测评. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201505010.htm. 中国卫生统计. 2015;32(5):774–6. [公为洁, 温兴煊, 何贤英, 等. 一阶一致性系数AC1对二分类结局一致性的测评[J]. 中国卫生统计, 2015, 32(5): 774-6.] [Google Scholar]
- 24.栾 建安, 王 纪宪, 苏 炳华, et al. 多类别多评估者的KAPPA分析. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT199506014.htm. 中国卫生统计. 1995;(6):20–2. [栾建安, 王纪宪, 苏炳华, 等. 多类别多评估者的KAPPA分析[J]. 中国卫生统计, 1995, (6): 20-2.] [Google Scholar]
- 25.王军. Kappa系数在一致性评价中的应用研究[D]. 成都: 四川大学, 2006.
- 26.李 春波, 何 燕玲, 张 明园. 一致性检验方法的合理应用. 上海精神医学. 2000;12(4):228–30, 232. doi: 10.3969/j.issn.1002-0829.2000.04.016. [李春波, 何燕玲, 张明园. 一致性检验方法的合理应用[J]. 上海精神医学, 2000, 12(4): 228-30, 232.] [DOI] [Google Scholar]














