Abstract
目的
消化内镜是消化系统疾病的重要诊治手段,消化内镜人工智能(artificial intelligence,AI)辅助系统(以下简称“消化内镜AI”)在消化内镜领域中具有广泛的应用前景。内镜受检者的信任和接受是消化内镜AI研发、应用、推广的基石,目前国内外缺乏受检者对消化内镜AI接受度的衡量工具。本研究旨在编制受检者对消化内镜AI接受度量表,并评估其信效度。
方法
通过文献调查构建条目池和维度,运用Delphi法构建初版量表。对受检者进行第1阶段的问卷调查,根据数据对量表进行信效度检验;利用修改后的量表对受检者进行第2阶段调查,进一步验证量表的结构效度。
结果
受检者对消化内镜AI接受度量表包含准确性、伦理、获益与意愿3个维度11个条目。第1阶段调查收回有效问卷351份,总克龙巴赫α系数为0.864;量表总分与验证条目得分的相关系数为0.636,结构效度中KMO(Kaiser-Meyer-Olkin)值为0.788。第2阶段调查收回有效问卷335份,结构效度中χ 2/df为3.774,近似均方根误差(root mean squared error of approximation,RMSEA)为0.091。
结论
本研究编制的受检者对消化内镜AI接受度量表具有良好的信效度。
Keywords: 消化内镜人工智能, 接受度, 量表
Abstract
Objective
Digestive endoscopy is an important diagnostic and therapeutic tool for digestive system diseases. The artificial intelligence (AI)-assisted system in endoscopy (hereinafter referred to as AI in digestive endoscopy) has broad application prospects in the field of digestive endoscopy. The trust and acceptance of endoscopic subjects are the cornerstone of the research, application, and promotion of AI in digestive endoscopy. Currently, the tools for measuring the acceptance of AI in digestive endoscopy by subjects are limited at home and abroad. This study aims to develop a scale for measuring the acceptance of AI in digestive endoscopy by subjects, then to evaluate its reliability and validity.
Methods
By conducting literature research, an item pool and dimensions were constructed, and a preliminary scale was constructed using Delphi method. Through the first stage of the survey on the subjects, the reliability and validity of the scale were tested, and the revised scale was used for the second stage of survey on the subjects to further verify the structural validity of the scale.
Results
The acceptance scale for AI in digestive endoscopy included 11 items in 3 dimensions: accuracy, ethics, benefit and willingness. In the first stage of the survey, 351 valid questionnaires were collected, and the Cronbach’s α was 0.864. The correlation coefficient between the total score of the scale and the score of the test item was 0.636, and the Kaiser-Meyer-Olkin (KMO) value in exploratory factor analysis was 0.788. In the second stage of the survey, 335 valid questionnaires were collected, and in confirmatory factor analysis, the χ 2/df was 3.774, while the root mean squared error of approximation (RMSEA) was 0.091.
Conclusion
Acceptance scale for AI in digestive endoscopy by subjects developed in this study has good reliability and validity.
Keywords: artificial intelligence in digestive endoscopy, acceptance, scale
消化内镜是诊治消化系统疾病不可替代的工具,近年来中国消化内镜发展迅速,内镜下早癌筛查及微创治疗等新技术层出不穷,然而,不同地区/不同医院内镜医师对内镜诊疗新技术的掌握水平参差不齐,内镜初学者及基层医院的内镜医师可能出现漏诊、误诊的情况。消化内镜人工智能(artificial intelligence,AI)辅助系统(以下简称“消化内镜AI”)的出现有望解决这些问题。消化内镜AI作为最前沿的高新技术,在消化内镜质量控制、疾病诊断和治疗、疾病预后判断等方面[1-2]获得了重大突破,在消化内镜领域发挥越来越重要的作用。近年来,基于深度强化学习(deep reinforcement learning,DRL)和深度卷积神经网络(deep convolutional neural network,DCNN)构建的实时消化内镜AI已被证明能够主动示踪可疑癌变区和监测盲点,可用于提高内镜检查的质量[3-5],提高内镜初学者的诊断水平[6]。
消化内镜AI在消化内镜中有广泛的应用前景,但消化内镜AI的研发聚焦于技术上的突破,缺乏内镜受检者对消化内镜AI接受度的调查研究,而作为消化内镜AI的直接预期受益者和重要的利益相关者,了解受检者对消化内镜AI的接受度是消化内镜AI研发过程中非常重要的环节[7]。内镜AI最终是为受检者服务的,内镜受检者承担了使用消化内镜AI的风险[8-9],受检者的接受和信任是内镜AI应用的基石。内镜受检者的担忧和拒绝是应用和普及消化内镜AI的重大障碍,甚至可能激化医患矛盾。因此,了解受检者对内镜AI的担忧,在内镜AI研发过程中进行改进;加强内镜AI的宣传,助力内镜AI的优化和推广,有助于深化消化内镜的智能化变革。
内镜AI是近年来消化内镜领域学者关注的焦点,评估受检者对消化内镜AI的接受度十分重要,而目前国内外缺乏定量衡量受检者接受度的工具。本研究旨在通过文献调查、研究组讨论、Delphi法、量表测评编制受检者对消化内镜AI接受度量表,以评估内镜医师和受检者对消化内镜AI的接受度。将接受度这一指标量化有助于后期研究受检者对消化内镜AI接受度的影响因素,为消化内镜AI的研发及应用提供参考。
1. 对象与方法
1.1. 对象
1.1.1. 专家
本研究于2021年12月邀请10位专家填写专家咨询问卷,专家包括7位消化内镜专家,3位公共卫生学专家;高级职称6人,中级职称4人。被邀专家信息保密,相互间不进行讨论。专家纳入标准:1)硕士研究生及以上学历,中级及以上职称;2)5年以上消化内镜经验或公共卫生学经验;3)自愿参与本研究并且对消化内镜AI有一定的了解。专家咨询问卷包括专家基本信息、评估量表维度和条目的重要性和可行性、专家熟悉程度和判断依据3个部分,其中熟悉程度按照“十分熟悉”~“十分不熟悉”分别记1.0、0.8、0.6、0.4、0.2分,判断依据对专家评分的影响程度计分见表1。
表 1.
专家判断依据计分表
Table 1 Scoring table for expert judgment basis
判断依据 | 判断依据对专家评分的影响程度 | ||
---|---|---|---|
大 | 中 | 小 | |
实践经验 | 0.5 | 0.4 | 0.3 |
理论依据 | 0.3 | 0.2 | 0.1 |
参考文献 | 0.1 | 0.1 | 0.1 |
直觉判断 | 0.1 | 0.1 | 0.1 |
1.1.2. 受检者
纳入标准:1)中南大学湘雅三医院内镜受检者;2)自愿参与问卷调查者。排除标准:1)年龄小于14岁者;2)无法自主查看问卷者,包括文盲、视力严重缺陷者;3)无法自主填写问卷者,包括卧床的危重患者、肢体残疾者等;4)纸质问卷填写未完成者。研究人员将所设计的问卷输入电子问卷平台生成问卷二维码,对受检者进行消化内镜AI的介绍,请受检者使用手机扫描二维码进行填写,不方便使用手机的受检者则填写纸质问卷,并设置奖励,以提高受检者填写问卷的积极性。第1阶段调查时间为2022年2月,向中南大学湘雅三医院内镜受检者发放初版问卷,获取数据计算克龙巴赫α系数、折半系数,并进行信度检验及探索性因子分析;第2阶段调查时间为2022年3月,向中南大学湘雅三医院内镜受检者发放修改后初版问卷,获取数据进行验证性因子分析及聚敛效度区分效度的检验。样本量为量表条目数的5倍以上。
受检者对消化内镜AI接受度的调查问卷包含3个部分:第1部分为消化内镜AI的简单介绍,第2部分收集患者基本信息,第3部分为受检者对消化内镜AI接受度量表。量表采用Likert 5级评分制,“非常不同意”~“非常同意”分别记1~5分,反向计分则分别记5~1分。
1.2. 量表编制
1.2.1. 条目池及维度的确定
通过以下过程获取候选条目:1)文献调查,在中国知网、万方、维普、PubMed、Web of Science等数据库中检索文献,收集对医疗AI的态度和看法的文献,筛选提取可供参考的条目;2)研究组讨论;3)进行半结构式预调查(以预设维度为框架设计预调查问卷,有选择题和填空题),收集受检者对消化内镜AI的看法,以此为基础提取条目。
研究组对候选条目进行讨论和分析,结合文献,拟定量表维度;删除内容重复、与各维度无明显相关性、无法展现对消化内镜AI接受度的条目;修改难以理解、有歧义的条目。上述步骤结束后,即产生原始量表。
1.2.2. Delphi法修改原始量表
专家对原始量表维度和条目的重要性和可行性进行评分[10-11]。根据专家咨询结果计算专家积极程度、专家权威程度、专家协调程度。专家积极程度指专家对研究的重视和积极配合的程度,以专家咨询问卷回收率来衡量。专家权威程度指专家在某个领域的权威性,专家权威系数越高,专家评分越可靠,专家权威系数C r=(C a+C s)/2,C a为专家判断依据,C s为专家熟悉程度,一般要求专家权威系数>0.7。专家协调程度指专家意见的一致程度,包括评分的变异系数(C v=s/ , 为均数,s为标准差)和Kendall协调系数ω(通过SPSS 25.0统计学软件计算)。采用评分>3、 C v<0.25、ω>0.4作为筛选标准,参考专家意见,通过研究组讨论对条目及维度进行修改、删减或添加,形成初版量表。
1.3. 信效度检验
信度指量表测量结果的可靠性、稳定性和一致性,即精确度。一般认为信度反映测量误差或观察误差,也即随机误差引起的变异程度。效度指量表测量结果的准确度、有效性和正确性,即测量值与目标真实值的偏差,包括内容效度、验证条目得分与量表总分的相关分析和结构效度。结构效度考察量表测量数据是否与设计量表时预设的理论结构(维度及所对应条目)相符合,可通过探索性因子分析及验证性因子分析来检验。
1.3.1. 信度检验
基于第1阶段调查数据,采用SPSS 25.0统计学软件计算信度系数:1)克龙巴赫α系数用于评估内部一致性,克龙巴赫α系数>0.7表示内部一致性良好;2)折半系数(Spearman-Brown系数),按条目号将条目分为奇数条目和偶数条目2个部分,评估2个部分得分的相关性。
1.3.2. 内容效度
基于初版问卷,本研究通过专家咨询问卷请7名内镜专家及公共卫生学专家(编号为A~G)对量表条目与其所属维度的相关性进行评分,“不相关”~“非常相关”分别记1、2、3、4分。计算条目水平的内容效度指数(item-level content validity index,I-CVI)、随机一致性概率(Pc)、调整后的Kappa值以综合评估内容效度。I-CVI=评分为3或4的专家人数/专家总数;专家可能因为对条目不了解或其他原因对选项做出随机选择,因此需要计算Pc和Kappa值进行随机一致性的校正[12]。
1.3.3. 验证条目得分与量表总分的相关分析
基于第1阶段调查数据验证量表总分是否能反映受检者对消化内镜AI的接受度,考察实际测量结果与验证条目得分之间的关系,即量表实测分数与基准值之间的相关性。由于缺乏经过验证的衡量消化内镜AI接受度的指标作为“金标准”(校标),因此在问卷中设置验证条目:“我愿意在我自己及亲属接受内镜检查时使用消化内镜AI”。验证条目使用Likert 5级评分制,选项为非常不同意、不同意、一般、同意、非常同意,分别记1、2、3、4、5分。Spearman相关分析用于检验量表总分与验证条目得分(相关效度)之间的相关性,相关系数介于0.4~0.8为较理想[13]。验证条目得分>3的受检者视为愿意接受消化内镜AI,以此作为状态变量绘制受试者操作特征(receiver operator characteristic,ROC)曲线,根据约登指数确定量表总分及各维度得分临界值。
1.3.4. 探索性因子分析
基于第1阶段调查数据,使用SPSS 25.0统计学软件的探索性因子分析(exploratory factor analysis,EFA)对量表结构效度进行评估,KMO(Kaiser-Meyer-Olkin)>0.5且Bartlett’s球形度检验中P<0.05方可进行因子分析,KMO>0.9提示非常适合进行因子分析[13]。采用主成分分析法提取公因子,累计方差贡献率至少要达到40%[14],采用凯撒正态化最大方差法进行矩阵旋转(目的是尽量使测量项与某一维度相关而与其他维度无关),并只显示大于0.5的因子载荷,因子载荷提示条目与因子(维度)间的相关程度。
1.3.5. 验证性因子分析
基于第2阶段调查数据,通过AMOS 24.0软件(IBM公司)的验证性因子分析(confirmatory factor analysis,CFA)进一步验证量表结构效度[14]。CFA中每个维度的第1个条目的负荷自动固定为1.0,经标准化产生因子载荷,同时产生各维度间相关系数。CFA中模型拟合度采用以下6个指标进行评估:卡方自由度比值(χ 2/df),<3说明模型拟合度理想,样本较大时,<5可接受[15];近似均方根误差(root mean squared error of approximation,RMSEA),<0.05说明拟合情况理想,介于0.05~0.08说明拟合情况一般,介于0.08~0.10说明拟合情况可接受,>0.10说明拟合度差[14-15];规范拟合指数(normed fit index,NFI)、增值拟合指数(incremental fit index,IFI)、塔克-刘易斯指数(Tucker-Lewis index,TLI)和比较拟合指数(comparative fit index,CFI),均>0.90说明模型拟合度较好[16]。
1.3.6. 聚敛效度与区分效度
在Exps工具中输入1.3.5所得每个维度对应题项的因子载荷,计算出每个维度的平均方差提取值(average variance extracted,AVE)及组合信度(composite reliability,CR),CR检验几个变量是否组成了一个新的变量,即每个维度对应条目是否一致地解释了该维度的内容,CR>0.7说明内部一致性良好;AVE为聚敛效度检验指标,一般认为AVE>0.5时聚敛效度理想[7]。同时CFA得出的各维度间的相关系数< ,则说明区分效度理想。
1.4. 统计学处理
使用Excel整理数据,采用SPSS 25.0统计学软件进行数据分析。量表调查结果描述:量表总分为所有条目得分之和,量表均分为量表总分除以量表条目数,维度得分为该维度包含的条目得分之和除以该维度条目数;计量资料如量表得分等,采用均数±标准差( ±s)和中位数(第1四分位数,第3四分位数)[M(P 25, P 75)]进行描述;计数资料如性别、教育经历等则采用频数、构成比描述。采用Spearman相关分析对变量间相关性进行检验,P<0.05为差异有统计学意义。
2. 结 果
2.1. 初版量表开发
2.1.1. 条目池及维度的确定
本研究通过文献调查、研究组讨论最终确定了包括准确性、伦理、获益与意愿3个维度18个条目的原始量表。
2.1.2. 原始量表修改
在2轮专家咨询中,每轮发放专家咨询问卷10份,回收10份,专家咨询问卷回收率为100%,专家积极程度高。专家权威系数介于0.82~0.92,说明专家权威程度高,评分可靠。
为了解原始量表条目及维度的重要性和可行性,对专家咨询问卷数据进行分析,结果发现:原始量表维度及条目的重要性评分介于4.10~4.90,重要性评分变异系数介于0.064~0.190,原始量表维度及条目重要性评分均>3;可行性评分介于2.90~4.90,可行性评分变异系数介于0.064~0.415,除条目5外,原始量表维度及条目可行性评分均>3。根据筛选标准及专家意见,综合考虑删除条目2、5、8、10、12、13、18。经过上述修改后进行第2轮专家咨询,结果发现第2轮专家咨询中各维度及各条目的重要性和可行性评分、变异系数符合要求,无需修改。第1轮专家咨询Kendall协调系数ω介于0.306~0.566,第2轮专家咨询后,Kendall协调系数ω介于0.404~0.564(结果详见附表1,https://doi.org/10.11817/j.issn.1672-7347.2023.230225T1),说明专家意见趋于一致。
通过2轮专家咨询,10位专家的意见趋于一致,不再进行下一轮专家咨询,确定了受检者对消化内镜AI接受度初版量表,包含准确性、伦理、获益与意愿3个维度和11个条目(表2)。量表使用Likert 5级评分制,答案选项从“非常不同意”到“非常同意”,分别记1~5分,量表总分为11~55,分数越高说明受检者对消化内镜AI的接受度越高。初版量表加入一般信息的条目(年龄、性别、教育经历、从事行业、工作状态、家庭年收入、健康素养、AI了解度)构成问卷。最后将初版问卷发给3名受检者,检测问卷的可读性及确定填写问卷所需最短时间,3名受检者表示问卷措辞通俗易懂,填写问卷所需最短时间为110 s。
表2.
受检者对消化内镜AI接受度初版量表的维度及条目
Table 2 Dimensions and items of the first version of the acceptance scale for AI in digestive endoscopy by subjects
维度及条目 | 表述 |
---|---|
维度1 | 准确性 |
Q1 | 我认为消化内镜AI可以减少漏诊的发生 |
Q2 | 我认为消化内镜AI可以减少误诊的发生 |
Q3 | 我认为使用消化内镜AI不太可能过度诊断,使我接受不必要的检查和治疗 |
维度2 | 伦理 |
Q4 | 我担心在未经知情和授权的情况下,我在消化内镜AI中的健康信息会被用于科学研究 |
Q5 | 我担心在消化内镜AI中的健康信息被泄露至公众平台 |
Q6 | 我担心消化内镜AI缺乏认证、监管和维护制度 |
Q7 | 我担心消化内镜AI导致错误诊断时,不能明确责任划分 |
维度3 | 获益与意愿 |
Q8 | 我认为消化内镜AI会对疾病正确的诊断带来帮助 |
Q9 | 我认为消化内镜AI会对治疗方案的选择带来帮助 |
Q10 | 我认为消化内镜AI会对疾病的预后带来帮助 |
Q11 | 我愿意向我的亲友推荐消化内镜AI |
2.2. 信效度检验
本研究将电子问卷填写时间<110 s的视为无效问卷;纸质版问卷填写不完整的视为无效问卷。第1阶段调查总共收回问卷385份,其中电子问卷324份,纸质问卷61份;最终收回有效问卷351份,其中电子问卷294份,纸质问卷57份;有效问卷回收率91.17%。第2阶段调查共收回问卷372份,其中电子问卷324份,纸质问卷48份;有效问卷335份,其中电子问卷290份,纸质问卷45份;问卷有效回收率90.05%。受检者特征如表3所示。
表3.
受检者一般资料
Table 3 General data of the subjects
一般资料 | 类别 | 第1阶段(n=351) | 第2阶段(n=335) | ||
---|---|---|---|---|---|
频数 | 构成比/% | 频数 | 构成比/% | ||
性别 | 男 | 171 | 48.7 | 140 | 41.8 |
女 | 180 | 51.3 | 195 | 58.2 | |
年龄 | ≤30岁 | 107 | 30.5 | 124 | 37.0 |
31~40岁 | 149 | 42.4 | 135 | 40.3 | |
≥41岁 | 95 | 27.1 | 76 | 22.7 | |
教育经历 | 初中等教育 | 108 | 30.8 | 89 | 26.6 |
高等教育 | 243 | 69.2 | 246 | 73.4 | |
从事行业 | 医疗卫生 | 30 | 8.6 | 32 | 9.6 |
其他 | 321 | 91.4 | 303 | 90.4 | |
工作状态 | 在职 | 235 | 67.0 | 221 | 66.0 |
不在职 | 116 | 33.0 | 114 | 34.0 | |
家庭年收入 | 12万元以下 | 202 | 57.5 | 170 | 50.7 |
12万元以上 | 149 | 42.5 | 165 | 49.3 | |
健康素养 | 低 | 202 | 57.5 | 166 | 49.6 |
高 | 149 | 42.5 | 169 | 50.4 | |
AI了解度 | 不了解 | 122 | 34.7 | 100 | 29.8 |
一般 | 173 | 49.3 | 166 | 49.6 | |
了解 | 56 | 16.0 | 69 | 20.6 |
2.2.1. 信度检验
在第1阶段调查中,量表的克龙巴赫α系数为0.864,折半系数为0.920,准确性、伦理、获利与意愿3个维度的克龙巴赫α系数分别为0865、0.871、0.919,折半系数分别为0.842、0.940、0.852,说明量表及各维度的内部一致性理想。在总量表或各维度中删除任意条目后并不会使总量表或该维度的克龙巴赫α系数增加,说明在量表中这些条目的存在不会损害量表的内部一致性,都不需要删除。
2.2.2. 内容效度
本研究邀请7位专家对条目与量表及各维度间的相关性进行评分(弱相关~强相关分别记1~4分),I-CVI为0.86~1.00,Pc为0.008~0.055、Kappa为0.085~1.000,各条目内容效度评价均为优秀,说明量表内容效度理想,能准确反映受检者对消化内镜AI的接受度。
2.2.3. 验证条目得分与量表总分的相关分析
量表总分与验证条目得分的Spearman相关系数为0.636(P<0.001)。验证条目得分>3的受检者视为愿意使用和接受消化内镜AI,以此为标准,量表总分为检验变量,绘制ROC曲线(图1),曲线下面积(area under the curve,AUC)为0.848,约登指数最大为0.561,对应敏感度为67.8%,特异度为88.3%,对应量表总分39.5。因量表总分为整数,以量表总分>39作为受检者对消化内镜AI接受度高的判断标准。本研究以受检者对消化内镜AI接受度高低为标准,各维度得分作为检测变量,绘制ROC曲线,取约登指数最大处的维度得分值作为界值,维度1~3的界值分别为3.500、3.875、3.625分。
图1.
根据量表总分判断受检者对消化内镜AI接受度的ROC曲线
Figure 1 ROC curve for determining the acceptance of AI by the subject based on the total score of the scale
Willingness of the subject to use AI in digestive endoscopy (the score of the test item greater than 3 indicates willingness to use AI in digestive endoscopy) serves as a criterion, and the scale score as a test variable when drawing the ROC curve. AUC is 0.848 ± 0.021. Subjects with a total score of the scale higher than 39 tended to receive AI in digestive endoscopy (sensitivity is 67.8%, specificity is 88.3%, and Yoden index is 0.561). ROC: Receiver operator characteristic; AI: Artificial intelligence; AUC: Area under the curve.
2.2.4. 探索性因子分析
KMO和Bartlett’s球形度检验结果显示:KMO值为0.788(>0.5),具有统计学意义(χ2=3088.856,P<0.001),适合进行因子分析。通过主成分分析法提取出3个成分,与量表3个维度及对应条目相符(表4),采用最大方差法进行旋转,旋转后累计方差贡献率为77.813%,说明量表结构效度理想。
表4.
探索性因子分析中成分矩阵及因子载荷
Table 4 Eigenvalue matrix and factor loadings in exploratory factor analysis
条目 | 成分 | ||
---|---|---|---|
1 | 2 | 3 | |
Q1 | 0.823 | ||
Q2 | 0.843 | ||
Q3 | 0.788 | ||
Q4 | 0.805 | ||
Q5 | 0.845 | ||
Q6 | 0.865 | ||
Q7 | 0.847 | ||
Q8 | 0.785 | ||
Q9 | 0.896 | ||
Q10 | 0.782 | ||
Q11 | 0.890 |
提取方法:主成分分析法;旋转方法:凯撒正态化最大方差法;旋转在5次迭代后收敛。
2.2.5. 验证性因子分析
模型拟合度分析结果χ 2/df=3.774,提示模型拟合可接受;RMSEA值为0.091,稍大于0.080,提示模型拟合欠佳,但能接受;NFI、IFI、TLI、CFI分别为0.950、0.963、0.950、0.963,提示模型拟合理想,量表及各维度整体模型适配良好,量表各维度设置合理。
对结构模型进行分析,结果示准确性、伦理、获益与意愿这3个维度对应的各条目的因子载荷均>0.7,提示各维度所属条目具有很高的代表性(图2、表5)。
图2.
量表结构模型图
Figure 2 Structure model diagram of the scale
A structural model diagram was drew using AMOS 24.0 software, with an ellipse representing latent variables (scale dimensions), and an arc with double arrows shows the correlation coefficient. The rectangle represents the measured variable (items in the scale), and the single arrow from latent variable to measured variable shows the factor load. The circle represents the residual error.
表5.
验证性因子分析中受检者对消化内镜AI接受度量表条目因子荷载
Table 5 Factor loadings of items in the acceptance scale for AI in digestive endoscopy by subjects in confirmatory factor analysis
维度 | 条目 | 因子载荷 | AVE | CR |
---|---|---|---|---|
维度1 | Q1 | 0.802 | 0.650 | 0.848 |
(准确性) | Q2 | 0.839 | ||
Q3 | 0.777 | |||
维度2 | Q4 | 0.963 | 0.794 | 0.938 |
(伦理) | Q5 | 0.686 | ||
Q6 | 0.957 | |||
Q7 | 0.929 | |||
维度3 | Q8 | 0.777 | 0.728 | 0.914 |
(获益与意愿) | Q9 | 0.918 | ||
Q10 | 0.762 | |||
Q11 | 0.940 |
AVE:平均方差提取值,为聚敛效度检验指标;CR:组合信度,检验每个维度所属条目是否一致地解释了该维度。
2.2.6. 聚敛效度与区分效度
各维度的AVE均>0.5,CR均>0.7,提示各维度条目组合形成了该维度,聚敛效度理想(表5)。为检验量表区分效度,对AMOS 24.0软件计算出的维度间相关系数与 进行比较。维度1和维度3之间以及维度2和维度3之间具有显著相关性,同时相关系数绝对值均<0.7,且均< ,说明各维度之间具有一定的区分度,量表数据的区分效度理想(表6)。
表6.
受检者对消化内镜AI接受度量表各维度间相关性
Table 6 Correlation between dimensions of the acceptance scale for AI in digestive endoscopy by subjects
项目 | 维度1 | 维度2 | 维度3 |
---|---|---|---|
维度1(准确性) | 0.650 | ||
维度2(伦理) | 0.063 | 0.794 | |
维度3(获益与意愿) | 0.592*** | 0.207*** | 0.728 |
0.806 | 0.891 | 0.853 |
通过AMOS 24.0软件采用验证性因子分析对量表进行结构效度验证,同维度相交单元格(对角线)为平均提取方差值。***P<0.001。
3. 讨 论
近年来,AI在医学领域的发展取得了巨大的进步,在影像、皮肤、消化、病理等学科引起了划时代的改变[17]。消化内镜AI的研发应用也成为国内外学者的研究热点,消化内镜AI将承担医师的部分工作,减轻医师的工作压力,并且AI凭借其卓越的计算能力和学习能力,可突破人类的生理限制,但目前国内外缺乏衡量受检者对消化内镜AI接受度的工具。本研究开发了一份可行的衡量受检者对消化内镜AI接受度的量表,将接受度量化,可作为将来研发消化内镜AI功能和推广消化内镜AI的评价指标。
消化内镜AI的准确性是消化内镜AI被接受的基础,如果消化内镜AI的准确性不高,那么势必会影响人们对其的接受度[18-20]。伦理是AI在医疗实践中应用的主要障碍之一,尊重个人隐私是一项基本的道德原则。AI的开发离不开大量数据的支持,如何保护个人隐私及数据安全是医疗AI开发应用的难题[21]。消化内镜AI的研发需要大量数据,访问或实时扫描内镜图像的过程存在信息泄露的风险。伦理问题是AI在医疗服务中实施的关键挑战[22]。AI工具的政策和指导方针尚不明确[23]。医疗AI涉及个人的身体健康甚至生命,因此容错率很低,其准确性和安全性由谁保证;临床准入的标准如何制定;如果消化内镜AI提供了错误的建议或者正确的提示被错误地驳回,造成的后果由谁负责[24-25]等,这些相关的法律法规及政策指南均有待完善及正确执行。在医疗服务中,患者是承担了使用医疗AI风险的主要人群,因此,如果尚未建立有关消化内镜AI的伦理体系,人们可能会感到担忧,从而影响对消化内镜AI的接受度。本研究通过文献调查、研究组讨论提取候选条目拟定条目池和维度,确定了包括准确性、伦理、获益与意愿3个维度18个条目的原始量表,通过Delphi法、研究组讨论,修改原始量表确定初版量表,进一步通过向3名受检者发放问卷,确定填写问卷所需最短时间及问卷可读性,进而对回收的问卷进行质量控制。删除问卷完成时间过短的数据,确保了问卷数据的有效性,并排除了敷衍了事填写问卷对后续分析的影响。
本研究结果表明:受检者对内镜AI接受度初版量表信效度良好。在第1阶段调查中,量表的克龙巴赫α系数及折半系数均>0.7,说明量表及各维度的内部一致性理想。内容效度反映测量内容的相符性和适合性,即量表各题项与希望测定的内容是否一致。受检者对内镜AI接受度量表题项及维度经由文献调查、预调查、研究组讨论和反复专家咨询进行确定,内容效度通过了专家评估,说明本问卷有较好的内容效度。因为缺乏衡量受检者对内镜AI接受度的量表,所以设置了验证条目反映受检者对内镜AI的支持度和使用意向,验证条目得分>3的受检者视为支持内镜AI并愿意使用内镜AI,以此作为基准,评估量表总分是否能反映受检者对内镜AI的接受度。结果表明量表总分与验证条目得分之间相关性强,高于39分的受检者倾向于接受内镜AI并对其感到满意,说明量表能够反映受检者对消化内镜AI的接受度。使用主成分分析法提取了3个成分,发现题项与所属维度与最初构想完全符合,且提取出的成分累计方差贡献率为77.813%,说明量表具有良好的结构效度。本研究基于第2阶段调查数据采用验证性因子分析进一步检验量表的结构效度,得出χ 2/df为3.774,提示模型拟合可接受;RMSEA值为0.091,稍大于0.08,提示模型拟合欠佳,但能接受;NFI、IFI、TLI、CFI均>0.9,提示模型拟合理想;总体来说,量表及各维度整体模型适配良好,量表各维度设置合理。各维度AVE>0.5,CR>0.7,提示各维度聚敛效度理想;各维度间相关系数绝对值均<0.7,且均< ,说明各维度之间具有一定的区分度,量表的区分效度理想。
在调查过程中发现绝大多数受检者没有听说过消化内镜AI,经研究人员介绍后才初步了解消化内镜AI,因此进行消化内镜AI的宣传也是很重要的。很多受检者认为消化内镜AI的使用应当慎重,在明确其安全性和准确性后才能慢慢推广。受检者认为消化内镜AI只能作为内镜医师的辅助,不能代替临床医师,这与目前的主流观点[26-29]一致。受检者还担心消化内镜AI的价格问题,虽然成本效益分析显示消化内镜AI从长远来看能减少健康成本,但受检者较为关心的是一次内镜检查的价格,此前也有研究[9]报道消费者对医疗AI成本问题的担忧。
本研究编制的受检者对消化内镜AI接受度量表有利于了解和量化受检者对消化内镜AI的接受度,并且为开发其他医疗AI接受度量表提供了参考。但本研究也有一些不足:首先,为单中心的调查,问卷调查是自愿的,尽管设置了奖励机制,但还是错失了部分受检者;其次,消化内镜AI刚成为中国市场上的一种医疗产品,虽然本研究在开展过程中对消化内镜AI进行了介绍,但受检者对消化内镜AI的了解不足,并且没有直接接触消化内镜AI,缺乏直观感受,因此受检者只能类比人脸识别、图像识别、自动驾驶等生活中的AI来填写问卷。
综上,本研究编制了受检者对消化内镜AI接受度量表,包含准确性、伦理、获益与意愿3个维度和11个条目,具有良好的信效度。判断受检者对消化内镜AI接受度高低的量表界值为39分,可用于调查消化内镜受检者对内镜AI的接受度,也为今后消化内镜AI的研发、推广提供了良好的工具。
附录.
附表1.
专家咨询原始量表维度和题项评分的Kendall协调系数ω
项目 | n | 第1轮 | |||||
---|---|---|---|---|---|---|---|
重要性 | 可行性 | ||||||
ω | χ 2 | P | ω | χ 2 | P | ||
维度 | 3 | 0.517 | 10.333 | 0.006 | 0.420 | 8.400 | 0.015 |
题项 | 18 | 0.306 | 51.950 | <0.001 | 0.566 | 96.269 | <0.001 |
总量表 | 21 | 0.320 | 64.047 | <0.001 | 0.550 | 109.927 | <0.001 |
项目 | 第2轮 | |||||
---|---|---|---|---|---|---|
重要性 | 可行性 | |||||
ω | χ 2 | P | ω | χ 2 | P | |
维度 | 0.517 | 10.333 | 0.006 | 0.564 | 11.273 | 0.004 |
题项 | 0.443 | 44.293 | <0.001 | 0.404 | 40.372 | <0.001 |
总量表 | 0.434 | 56.409 | <0.001 | 0.408 | 53.036 | <0.001 |
Supplementary Table 1 Kendall coordination coefficient ω of the dimension and item score of the original scale consulted by experts
基金资助
湖南省创新型省份建设专项(2020SK2013)。
This work was supported by the Special Project for the Construction of Innovative Provinces in Hunan Province, China (2020SK2013).
利益冲突声明
作者声称无任何利益冲突。
作者贡献
龙秀艳 研究设计,问卷设计,数据采集与分析,论文撰写与修改;邓海骏、张子南 研究设计,数据分析,论文修改;刘涛、余小渔 数据采集与分析,论文修改;龚攀 问卷设计,数据采集,论文修改;田力 研究设计,论文修订,研究指导。所有作者阅读并同意最终的文本。
原文网址
http://xbyxb.csu.edu.cn/xbwk/fileup/PDF/2023121844.pdf
参考文献
- 1. Ang TL, Carneiro G. Artificial intelligence in gastrointestinal endoscopy[J]. J Gastroenterol Hepatol, 2021, 36(1): 5-6. 10.1111/jgh.15344. [DOI] [PubMed] [Google Scholar]
- 2. Kawahara D, Murakami Y, Tani S, et al. A prediction model for pathological findings after neoadjuvant chemoradiotherapy for resectable locally advanced esophageal squamous cell carcinoma based on endoscopic images using deep learning[J]. Br J Radiol, 2022, 95(1135): 20210934. 10.1259/bjr.20210934. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 3. Chen D, Wu LL, Li YX, et al. Comparing blind spots of unsedated ultrafine, sedated, and unsedated conventional gastroscopy with and without artificial intelligence: a prospective, single-blind, 3-parallel-group, randomized, single-center trial[J/OL]. Gastrointest Endosc, 2020, 91(2): 332-339. e3[2023-03-11]. 10.1016/j.gie.2019.09.016. [DOI] [PubMed] [Google Scholar]
- 4. Wu LL, Zhou W, Wan XY, et al. A deep neural network improves endoscopic detection of early gastric cancer without blind spots[J]. Endoscopy, 2019, 51(6): 522-531. 10.1055/a-0855-3532. [DOI] [PubMed] [Google Scholar]
- 5. Wu LL, Zhang J, Zhou W, et al. Randomised controlled trial of WISENSE, a real-time quality improving system for monitoring blind spots during esophagogastroduodenoscopy[J]. Gut, 2019, 68(12): 2161-2169. 10.1136/gutjnl-2018-317366. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6. Weigt J, Repici A, Antonelli G, et al. Performance of a new integrated computer-assisted system (CADe/CADx) for detection and characterization of colorectal neoplasia[J]. Endoscopy, 2022, 54(2): 180-184. 10.1055/a-1372-0419. [DOI] [PubMed] [Google Scholar]
- 7. Ye TT, Xue JL, He MG, et al. Psychosocial factors affecting artificial intelligence adoption in health care in China: cross-sectional study[J/OL]. J Med Internet Res, 2019, 21(10): e14316[2023-03-22]. 10.2196/14316. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 8. Yarborough M, Edwards K, Espinoza P, et al. Relationships hold the key to trustworthy and productive translational science: recommendations for expanding community engagement in biomedical research[J]. Clin Transl Sci, 2013, 6(4): 310-313. 10.1111/cts.12022. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 9. Richardson JP, Smith C, Curtis S, et al. Patient apprehensions about the use of artificial intelligence in healthcare[J]. NPJ Digit Med, 2021, 4(1): 140. 10.1038/s41746-021-00509-1. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 10. 李灵艳, 王红雨, 张艳芳, 等. 基于德尔菲法的经皮肝穿刺胆道引流术病人自护能力评价指标的构建[J]. 护理研究, 2022, 36(20): 3716-3720. 10.12102/j.issn.1009-6493.2022.20.029. [DOI] [Google Scholar]; LI Lingyan, WANG Hongyu, ZHANG Yanfang, et al. Construction of evaluation indexes of self? care ability of patients undergoing percutaneous transhepatic cholangial drainage based on the Delphi method[J]. Chinese Nursing Research, 2022, 36(20): 3716-3720. 10.12102/j.issn.1009-6493.2022.20.029. [DOI] [Google Scholar]
- 11. 赖春华. 基于中医学理论的主观性失眠评定问卷的研制与初步应用[D]. 广州: 广州中医药大学, 2017. [Google Scholar]; LAI Chunhua. Development and preliminary applicat ion of subjective insomnia assess questionnaire based on the theory of traditional Chinese medicine[D]. Guangzhou: Guangzhou University of Chinese Medicine, 2017. [Google Scholar]
- 12. 史静琤, 莫显昆, 孙振球. 量表编制中内容效度指数的应用[J]. 中南大学学报(医学版), 2012, 37(2): 49-52. 10.3969/j.issn.1672-7347.2012.02.007. [DOI] [Google Scholar]; SHI Jingcheng, MO Xiankun, SUN Zhenqiu. Content validity index in scale development[J]. Journal of Central South University. Medical Science, 2012, 37(2): 49-52. 10.3969/j.issn.1672-7347.2012.02.007. [DOI] [PubMed] [Google Scholar]
- 13. 李灿, 辛玲. 调查问卷的信度与效度的评价方法研究[J]. 中国卫生统计, 2008, 25(5): 541-544. 10.3969/j.issn.1002-3674.2008.05.034. [DOI] [Google Scholar]; LI Can, XIN Ling. Research on the evaluation method of reliability and validity of questionnaire[J]. Chinese Journal of Health Statistics, 2008, 25(5): 541-544. 10.3969/j.issn.1002-3674.2008.05.034. [DOI] [Google Scholar]
- 14. Fabrigar LR, Wegener DT, MacCallum RC, et al. Evaluating the use of exploratory factor analysis in psychological research[J]. Psychol Meth, 1999, 4(3): 272-299. 10.1037/1082-989x.4.3.272. [DOI] [Google Scholar]
- 15. Mahmoudian A, Shamsalinia A, Alipour A, et al. Structural equation model of affecting factors on elder abuse to patients under hemodialysis by family caregivers[J]. BMC Geriatr, 2021, 21(1): 360. 10.1186/s12877-021-02291-x. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 16. Hooper D, Coughlan J, Mullen MR. Structural equation modelling: guidelines for determining model fit[J]. Electron J Bus Res Meth, 2008, 6(1): 53-60. [Google Scholar]
- 17. Chen XX, Wang XM, Zhang K, et al. Recent advances and clinical applications of deep learning in medical image analysis[J]. Med Image Anal, 2022, 79: 102444. 10.1016/j.media.2022.102444. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18. Yang L, Ene IC, Arabi Belaghi R, et al. Stakeholders’ perspectives on the future of artificial intelligence in radiology: a scoping review[J]. Eur Radiol, 2022, 32(3): 1477-1495. 10.1007/s00330-021-08214-z. [DOI] [PubMed] [Google Scholar]
- 19. Esmaeilzadeh P. Use of AI-based tools for healthcare purposes: a survey study from consumers’ perspectives[J]. BMC Med Inform Decis Mak, 2020, 20(1): 170. 10.1186/s12911-020-01191-1. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 20. Yakar D, Ongena YP, Kwee TC, et al. Do people favor artificial intelligence over physicians? A survey among the general population and their view on artificial intelligence in medicine[J]. Value Health, 2022, 25(3): 374-381. 10.1016/j.jval.2021.09.004. [DOI] [PubMed] [Google Scholar]
- 21. Price WN, Cohen IG. Privacy in the age of medical big data[J]. Nat Med, 2019, 25(1): 37-43. 10.1038/s41591-018-0272-7. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 22. Reddy S, Allan S, Coghlan S, et al. A governance model for the application of AI in health care[J]. J Am Med Inform Assoc, 2020, 27(3): 491-497. 10.1093/jamia/ocz192. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 23. Cath C. Governing artificial intelligence: ethical, legal and technical opportunities and challenges[J]. Philos Trans A Math Phys Eng Sci, 2018, 376(2133): 20180080. 10.1098/rsta.2018.0080. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 24. Romero-Brufau S, Wyatt KD, Boyum P, et al. A lesson in implementation: a pre-post study of providers’ experience with artificial intelligence-based clinical decision support[J]. Int J Med Inform, 2020, 137: 104072. 10.1016/j.ijmedinf.2019.104072. [DOI] [PubMed] [Google Scholar]
- 25. Lee H, Piao MH, Lee JS, et al. The purpose of bedside robots: exploring the needs of inpatients and healthcare professionals[J]. Comput Inform Nurs, 2020, 38(1): 8-17. 10.1097/CIN.0000000000000558. [DOI] [PubMed] [Google Scholar]
- 26. Thrall JH, Li X, Li QZ, et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success[J]. J Am Coll Radiol, 2018, 15(3 Pt B): 504-508. 10.1016/j.jacr.2017.12.026. [DOI] [PubMed] [Google Scholar]
- 27. Lennartz S, Dratsch T, Zopfs D, et al. Use and control of artificial intelligence in patients across the medical workflow: single-center questionnaire study of patient perspectives[J/OL]. J Med Internet Res, 2021, 23(2): e24221[2023-02-28]. 10.2196/24221. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 28. Liu XX, Keane PA, Denniston AK. Time to regenerate: the doctor in the age of artificial intelligence[J]. J R Soc Med, 2018, 111(4): 113-116. 10.1177/0141076818762648. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 29. Obermeyer Z, Lee TH. Lost in thought-the limits of the human mind and the future of medicine[J]. N Engl J Med, 2017, 377(13): 1209-1211. 10.1056/NEJMp1705348. [DOI] [PMC free article] [PubMed] [Google Scholar]