目前,基于人工智能的医学影像方法快速发展,相关的文献报告逐年增多,但未有专用的报告标准,结果报告不规范。为提高该类研究的报告质量,帮助读者和评价人员更科学地评估该类研究质量,国外提出了人工智能医学影像研究检查清单(CLAIM)。本文介绍 CLAIM 的内容,并对其条目进行解释说明。

image.png


条目 1:在文章的标题或摘要中指出 AI 技术 的使用,如深度学习随机森林


实例:例文在摘要中即表明该研究通过深 度学习算法来预测高危儿童确诊自闭症谱系病的 情况。


条目 2:摘要应对研究的设计、方法、结果和 结论进行总结。提供研究人群的概况(如患者或检查的数量、图像的数量、年龄和性别分布),说明该 研究为前瞻性研究或回顾性研究,并总结所选择的 统计分析方法。在介绍结果时,要包括比较的 P 值, 并说明软件、数据和(或)结果模型是否可以公开 获得。 


实例:例文在摘要部分已对研究的设计、方法、结果和结论进行了简要报告,并表明研究是对具有自闭症谱系病(autism spectrum disorder ASD)高家族性风险的婴儿进行的前瞻性脑成像研究。在结果部分,未总结所选统计分析方法,也未对关于软件、数据和(或)结果模型是否可以公开获得进行说明。


条目 3:描述该研究的基本原理、研究目标和预期影响。总结相关文献,指出该研究建立的研究 基础,以及与其他研究的不同之处。使读者了解研 究的背景、基础科学、方法的基本假设。 


实例:例文中说明了是通过对前期相关研 究的总结,从而建立了通过对具有 ASD 高家族性 风险的婴儿进行的前瞻性脑成像研究能够预测 ASD 发生的假设。 


条目 4:定义要回答的临床或科学问题,清楚描述研究过程。


条目 5:说明该研究为回顾性研 究或前瞻性研究,如为前瞻性研究需评估预测模型。 


条目 6:界定研究的目标,如建立模型、探索 性研究、可行性研究或非劣效性试验。对于分类系统则说明预期用途,如诊断、筛查、分期、监测、监视、预测或预后。说明 AI 算法相比于其他方法 的优势,如分类、替代或补充。描述选取预测模 型的类型、预测的目标以及将如何解决临床或科学问题。


条目 7:说明研究数据的来源,并指 出数据与预测模型的拟合程度。描述预测模型的 目标应用,使读者理解报告准确性估计的含义。参 考以前使用相同数据集的研究,并说明与当前研究 的不同。作者应遵守伦理准则,描述伦理审查和知 情同意[16]。如果可以的话,应提供数据来源和(或) 图片的链接,鼓励作者将建模或分析的数据和 (或)软件存放在一个可公开访问的资料库中。


实例:例文中说明了该研究包括来自美国 国立卫生研究院资助的自闭症卓越中心网络研究 的数据,被称为婴儿脑成像研究。该网络包 4 个临床数据收集站点(北卡罗来纳大学教堂山 分校、华盛顿大学、费城儿童医院、华盛顿大学)。 数据收集地点获得了其机构审查委员会的研究方 案批准,所有入组受试者都得到了父母或者监护人 的知情同意。 


条目 8:报告纳入标准:研究对象的招募方式、合格标准和源人群,报告样本量及是否进行过 样本统计效力和样本量的估算。 


条目 9:将不同来源的原始数据进行预处理, 使其转换为定义明确、机器可读的格式以供分析。详细描述数据预处理的步骤,以便其他研 究者可以重复。具体说明如何对图像重新取样、改变色彩深度及调整窗口的设置。说明数据是否经 过重新缩放、阈值限制(二值化)和(或)标准 化处理。同时说明如何处理以下问题:区域格式、 手工输入、不一致数据、缺失数据、错误的数据类 型、文件操作和缺失的匿名化。定义删除异常值的 标准,说明软件库、软件(包括制造商名称和位 置)和版本号,以及所有采用的选项和配置设置。


条目 10:在一些研究中,研究者选择原始数据的一些子集作为预处理的一个步骤。例如:选 择图像的一个子集,裁剪图像的一部分,或提取报 告的一部分。如果这个过程是自动化的,需要说明 所使用的工具和参数。如果是人工操作,说明人员 的培训以及操作标准化。


条目 11:定义预测变量和结果变量。如果适 用的话,将其映射到公共数据,如放射学界或 美国国立卫生研究院[22-23] 所维护的数据。


实例:例文中说明支持这项研究结果的原 始数据可从美国国立卫生研究院国家自闭症研究 数据库公开获得。经合理要求时,可向通讯作者提 供任何额外数据。 


条目 12:说明对数据进行去标识化的方法, 以及如何删除受保护的健康信息以符合相关法律。由于面部轮廓可以进行识别,应具体说明如何删除此类信息或使之无法识别的方法。


条目 13:说明缺失数据的处理。例如:用近似值或预测值来代替。描述估算数据引起的偏倚。 2.3.3    参考标准 


条目 14:对参考标准的注释最好是参考公用数据元素。避免模糊的描述,如 脏病变的大小,应使用更精确的定义,如在厚 度为 2.5 毫米的轴向对比增强 CT 图像上测量的完 全通过病变的最大线性测量值(毫米)。向注释 者提供实例图集,以说明主观的分级方案(例如: 轻度/中度/重度),并提供该信息供审查。 


条目 15:说明选择参考标准的理由以及该参标准的潜在误差、偏差和局限性。


条目 16:具体说明注释者的数量和其资格, 以及如何对注释者进行培训。如果可能的话,包括 培训材料作为附件。说明注释是否是独立完成的, 以及如何解决注释者之间的差异。


条目 17:说明用于手动、半自动或自动注释的软件,包括版本号。说明是否使用自然语言处理或 递归神经网络,以及如何从自由文本成像报告或电 子健康记录中提取成像标签。 


条目 18:说明衡量评分者之间和评分者内部差异的方法,以及为减少或减轻这种差异和解决不一致而采取的措施。


条目 19:描述样本量及其估算 方法。可使用把握度计算的方法来估计所需的样本量。 


条目 20:具体说明如何将数据分配到训练集、 验证(调整)集和测试集等分区,指出每个分区的 数据比例并说明选择的理由。如:每个分区的数 据之间存在系统性差异,说明原因。 


条目 21:描述分区不相交的层级。医学图像集一般应在病人级别或更高的级别上分开,使同一 患者的图像不会出现在每个分区中。


条目 22:提供完整而详细的模型结构,包括输入、输出和所有的中间层,以便其他研 究人员可以准确地重新构建模型。对于神经网络模型,在层的描述中包括池化、归一化、正则化和 激活的所有细节。模型输入必须与预处理数据的 形式相匹配,输出必须符合所述临床问题的要求, 对于有监督的学习来说,应该与参考标准注释的形 式相匹配。如果采用已发表的模型结构,应引用相 应参考文献,并充分描述对模型的每次修改。在某 些情况下,可用代码提供模型的结构作为补充数据。 


条目 23:说明所有软件库、框架和软件包的名称和版本号。避免对硬件进行详细描述,除非基准 计算性能是工作的重点。 


条目 24:说明模型的参数初始化的方法。 述随机初始化参数的随机值分布。如果采用迁移 学习来初始化参数,说明起始权重的来源。当随机 初始化和迁移学习相结合时,要清楚地说明模型的 哪些部分是以何种策略初始化的。


条目 25:完整详细地描述所有的训练过程和超参数,以便其他研究者可以完全重复训练过程。通常情况下,为了完整地记录训练过程, 稿件中应描述训练数据是如何被增加的(例如:对 于图像来说,转换的类型和范围)。说明如何监测 每个模型的训练收敛情况,以及停止训练的标准。


条目 26:说明用于选择最佳模型的方法和性能参数,以便对保留的测试集进行评估。如果选择 了一个以上的模型,说明原因。


条目 27:如果最终的算法涉及到模型的组合,完整详细地描述组合的每个模型,说明各组成 模型的输出是如何加权和组合的。


条目 28:描述用于衡量模型性能的指标,并说明该指标对于临床和科学研究问题的重要性。将所提交的模型与以前发表的模型进行比较。 


条目 29:表明性能指标值的不确定性,如标准差和(或)置信区间。对指标进行统计学比较, 指定统计软件。 


条目 30:分析模型的稳定性或敏感性。


条目 31:描述能够排除或解释模型结果的方法,并提供用于产生这些结果的参数。描述此类 方法是如何在目前的研究中得到了验证。


条目 32:描述用于评估算法性能的数据。当这些数据与训练数据是同一来源时,说明其存在的 局限。如果训练集和评价集的注释或数据的结构 有差异,解释这些差异,并描述和说明为适应这些 差异而采取的方法。


条目 33:具体说明患者、检查或信息 的纳入与排除标准,并记录符合每个标准的病例数。建议在结果中以流程图或表的方式说明最初 的患者群体以及被排除患者,并说明排除原因。描 述数据集的技术特征(例如:对于图像应描述程序 供应商或模型、采集参数、重新格式化参数。对于 报告应描述实践环境,报告作者的数量和培训,报 告结构化程度)。 


条目 34:说明每个分区中病例的人口学和临床特征,并说明所有数据分区的性能指标。


条目 35:说明最终模型在测试部分的表现,将 AI 模型的性能与当前的诊断标准相比较。 


条目 36:对于分类任务,诊断准确度及其精确度的估计(95% 置信区间) ,可用 ROC 曲线或 校准曲线。当不能直接计算置信区间时,报告重复抽样的非参数估计。说明哪些变量被证明可以预 测应变量,指出预测模型最有效或最无效的亚组人 群。 


条目 37:提供信息以帮助理解错误的结果。 如果任务被分为两个或更多的类别,提供一个混淆 矩阵,显示预测类别与实际类别的统计。考虑提供 错误分类的案例,以帮助读者更好地理解算法的优 势和局限性。


条目 38:简明扼要地总结结果,并解释目前的研究如何推动下一阶段的研究工作。确定研究的局限性,包括研究方法、材料、偏倚、统计不确定 性、意外结果和可推广性。


条目 39:描述对实践的影响,包括 AI 模型的 预期用途和可能的临床作用。基于现有研究,说明 下一阶段的研究计划,并讨论阻碍该模型实践转化 的相关因素。


条目 40:遵守国际医学期刊编辑委员会的临床试验注册声明。国际医学期刊编辑委员会要求 在招募第一个病人前在公共试验注册机构注册临 床试验,以此作为发表的条件。在临床试验注册 机构(如 ClinicalTrials.gov WHO 一级注册机构) 注册研究方案,有助于避免重复或多余的研究,并 方便感兴趣的人与研究协调者联系。 


条目 41:如果研究方案超过了期刊的字数限制,则向读者提供可获得完整研究方案的途径,以 便帮助读者评估研究的有效性,也可以帮助其他研 究人员重复该研究。详细描述软件和算法,以便 重复研究。将所有建模和数据分析的计算机代码 存入一个可公开访问的存储库。


条目 42:说明资金和其他支持的来源、资助者 在研究过程中的作用以及作者在研究的每个阶段是否具有独立性。


随着 AI 在医学成像领域的应用越发广泛,基 AI+医学影像的文献报告会越来越多。建议国内 期刊将 CLAIM 作为报告规范纳入其稿约或作者须 知,并要求投稿的论文提供 CLAIM 核查清单中规 定的各个项目的内容。部分文献报告可能无法完 全符合 CLAIM 的每项标准,但 CLAIM 可为作者和 审稿人提供了一个框架,其最终目标是促进关于 AI 应用的清晰、透明和可重复的科学交流。但 CLAIM 只能用于评价和审查相关研究报告,而不 能作为评价研究质量的工具。


参考资料

人工智能医学影像研究报告规范: CLAIM 检查清单解读