人工智能医学影像研究报告规范： CLAIM 检查清单解读

2024-01-07 智慧医疗来源：新医事

目前，基于人工智能的医学影像方法快速发展，相关的文献报告逐年增多，但未有专用的报告标准，结果报告不规范。为提高该类研究的报告质量，帮助读者和评价人员更科学地评估该类研究质量，国外提出了人工智能医学影像研究检查清单（CLAIM）。本文介绍 CLAIM 的内容，并对其条目进行解释说明。

条目 1：在文章的标题或摘要中指出 AI 技术的使用，如“深度学习”或“随机森林”。

实例：例文在摘要中即表明该研究通过深度学习算法来预测高危儿童确诊自闭症谱系病的情况。

条目 2：摘要应对研究的设计、方法、结果和结论进行总结。提供研究人群的概况（如患者或检查的数量、图像的数量、年龄和性别分布），说明该研究为前瞻性研究或回顾性研究，并总结所选择的统计分析方法。在介绍结果时，要包括比较的 P 值，并说明软件、数据和（或）结果模型是否可以公开获得。

实例：例文在摘要部分已对研究的设计、方法、结果和结论进行了简要报告，并表明研究是对具有自闭症谱系病（autism spectrum disorder， ASD）高家族性风险的婴儿进行的前瞻性脑成像研究。在结果部分，未总结所选统计分析方法，也未对关于软件、数据和（或）结果模型是否可以公开获得进行说明。

条目 3：描述该研究的基本原理、研究目标和预期影响。总结相关文献，指出该研究建立的研究基础，以及与其他研究的不同之处。使读者了解研究的背景、基础科学、方法的基本假设。

实例：例文中说明了是通过对前期相关研究的总结，从而建立了通过对具有 ASD 高家族性风险的婴儿进行的前瞻性脑成像研究能够预测 ASD 发生的假设。

条目 4：定义要回答的临床或科学问题，清楚描述研究过程。

条目 5：说明该研究为回顾性研究或前瞻性研究，如为前瞻性研究需评估预测模型。

条目 6：界定研究的目标，如建立模型、探索性研究、可行性研究或非劣效性试验。对于分类系统则说明预期用途，如诊断、筛查、分期、监测、监视、预测或预后。说明 AI 算法相比于其他方法的优势，如分类、替代或补充。描述选取预测模型的类型、预测的目标以及将如何解决临床或科学问题。

条目 7：说明研究数据的来源，并指出数据与预测模型的拟合程度。描述预测模型的目标应用，使读者理解报告准确性估计的含义。参考以前使用相同数据集的研究，并说明与当前研究的不同。作者应遵守伦理准则，描述伦理审查和知情同意[16]。如果可以的话，应提供数据来源和（或）图片的链接，鼓励作者将建模或分析的数据和（或）软件存放在一个可公开访问的资料库中。

实例：例文中说明了该研究包括来自美国国立卫生研究院资助的自闭症卓越中心网络研究的数据，被称为“婴儿脑成像研究”。该网络包括 4 个临床数据收集站点（北卡罗来纳大学教堂山分校、华盛顿大学、费城儿童医院、华盛顿大学）。数据收集地点获得了其机构审查委员会的研究方案批准，所有入组受试者都得到了父母或者监护人的知情同意。

条目 8：报告纳入标准：研究对象的招募方式、合格标准和源人群，报告样本量及是否进行过样本统计效力和样本量的估算。

条目 9：将不同来源的原始数据进行预处理，使其转换为定义明确、机器可读的格式以供分析。详细描述数据预处理的步骤，以便其他研究者可以重复。具体说明如何对图像重新取样、改变色彩深度及调整窗口的设置。说明数据是否经过重新缩放、阈值限制（“二值化”）和（或）标准化处理。同时说明如何处理以下问题：区域格式、手工输入、不一致数据、缺失数据、错误的数据类型、文件操作和缺失的匿名化。定义删除异常值的标准，说明软件库、软件（包括制造商名称和位置）和版本号，以及所有采用的选项和配置设置。

条目 10：在一些研究中，研究者选择原始数据的一些子集作为预处理的一个步骤。例如：选择图像的一个子集，裁剪图像的一部分，或提取报告的一部分。如果这个过程是自动化的，需要说明所使用的工具和参数。如果是人工操作，说明人员的培训以及操作标准化。

条目 11：定义预测变量和结果变量。如果适用的话，将其映射到公共数据，如放射学界或美国国立卫生研究院[22-23] 所维护的数据。

实例：例文中说明支持这项研究结果的原始数据可从美国国立卫生研究院国家自闭症研究数据库公开获得。经合理要求时，可向通讯作者提供任何额外数据。

条目 12：说明对数据进行去标识化的方法，以及如何删除受保护的健康信息以符合相关法律。由于面部轮廓可以进行识别，应具体说明如何删除此类信息或使之无法识别的方法。

条目 13：说明缺失数据的处理。例如：用近似值或预测值来代替。描述估算数据引起的偏倚。 2.3.3 参考标准

条目 14：对参考标准的注释最好是参考公用数据元素。避免模糊的描述，如“肝脏病变的大小”，应使用更精确的定义，如“在厚度为 2.5 毫米的轴向对比增强 CT 图像上测量的完全通过病变的最大线性测量值（毫米）”。向注释者提供实例图集，以说明主观的分级方案（例如：轻度/中度/重度），并提供该信息供审查。

条目 15：说明选择参考标准的理由以及该参考标准的潜在误差、偏差和局限性。

条目 16：具体说明注释者的数量和其资格，以及如何对注释者进行培训。如果可能的话，包括培训材料作为附件。说明注释是否是独立完成的，以及如何解决注释者之间的差异。

条目 17：说明用于手动、半自动或自动注释的软件，包括版本号。说明是否使用自然语言处理或递归神经网络，以及如何从自由文本成像报告或电子健康记录中提取成像标签。

条目 18：说明衡量评分者之间和评分者内部差异的方法，以及为减少或减轻这种差异和解决不一致而采取的措施。

条目 19：描述样本量及其估算方法。可使用把握度计算的方法来估计所需的样本量。

条目 20：具体说明如何将数据分配到训练集、验证（调整）集和测试集等分区，指出每个分区的数据比例并说明选择的理由。如：每个分区的数据之间存在系统性差异，说明原因。

条目 21：描述分区不相交的层级。医学图像集一般应在病人级别或更高的级别上分开，使同一患者的图像不会出现在每个分区中。

条目 22：提供完整而详细的模型结构，包括输入、输出和所有的中间层，以便其他研究人员可以准确地重新构建模型。对于神经网络模型，在层的描述中包括池化、归一化、正则化和激活的所有细节。模型输入必须与预处理数据的形式相匹配，输出必须符合所述临床问题的要求，对于有监督的学习来说，应该与参考标准注释的形式相匹配。如果采用已发表的模型结构，应引用相应参考文献，并充分描述对模型的每次修改。在某些情况下，可用代码提供模型的结构作为补充数据。

条目 23：说明所有软件库、框架和软件包的名称和版本号。避免对硬件进行详细描述，除非基准计算性能是工作的重点。

条目 24：说明模型的参数初始化的方法。描述随机初始化参数的随机值分布。如果采用迁移学习来初始化参数，说明起始权重的来源。当随机初始化和迁移学习相结合时，要清楚地说明模型的哪些部分是以何种策略初始化的。

条目 25：完整详细地描述所有的训练过程和超参数，以便其他研究者可以完全重复训练过程。通常情况下，为了完整地记录训练过程，稿件中应描述训练数据是如何被增加的（例如：对于图像来说，转换的类型和范围）。说明如何监测每个模型的训练收敛情况，以及停止训练的标准。

条目 26：说明用于选择最佳模型的方法和性能参数，以便对保留的测试集进行评估。如果选择了一个以上的模型，说明原因。

条目 27：如果最终的算法涉及到模型的组合，完整详细地描述组合的每个模型，说明各组成模型的输出是如何加权和组合的。

条目 28：描述用于衡量模型性能的指标，并说明该指标对于临床和科学研究问题的重要性。将所提交的模型与以前发表的模型进行比较。

条目 29：表明性能指标值的不确定性，如标准差和（或）置信区间。对指标进行统计学比较，指定统计软件。

条目 30：分析模型的稳定性或敏感性。

条目 31：描述能够排除或解释模型结果的方法，并提供用于产生这些结果的参数。描述此类方法是如何在目前的研究中得到了验证。

条目 32：描述用于评估算法性能的数据。当这些数据与训练数据是同一来源时，说明其存在的局限。如果训练集和评价集的注释或数据的结构有差异，解释这些差异，并描述和说明为适应这些差异而采取的方法。

条目 33：具体说明患者、检查或信息的纳入与排除标准，并记录符合每个标准的病例数。建议在结果中以流程图或表的方式说明最初的患者群体以及被排除患者，并说明排除原因。描述数据集的技术特征（例如：对于图像应描述程序供应商或模型、采集参数、重新格式化参数。对于报告应描述实践环境，报告作者的数量和培训，报告结构化程度）。

条目 34：说明每个分区中病例的人口学和临床特征，并说明所有数据分区的性能指标。

条目 35：说明最终模型在测试部分的表现，将 AI 模型的性能与当前的诊断标准相比较。

条目 36：对于分类任务，诊断准确度及其精确度的估计（95% 置信区间），可用 ROC 曲线或校准曲线。当不能直接计算置信区间时，报告重复抽样的非参数估计。说明哪些变量被证明可以预测应变量，指出预测模型最有效或最无效的亚组人群。

条目 37：提供信息以帮助理解错误的结果。 如果任务被分为两个或更多的类别，提供一个混淆矩阵，显示预测类别与实际类别的统计。考虑提供错误分类的案例，以帮助读者更好地理解算法的优势和局限性。

条目 38：简明扼要地总结结果，并解释目前的研究如何推动下一阶段的研究工作。确定研究的局限性，包括研究方法、材料、偏倚、统计不确定性、意外结果和可推广性。

条目 39：描述对实践的影响，包括 AI 模型的预期用途和可能的临床作用。基于现有研究，说明下一阶段的研究计划，并讨论阻碍该模型实践转化的相关因素。

条目 40：遵守国际医学期刊编辑委员会的临床试验注册声明。国际医学期刊编辑委员会要求在招募第一个病人前在公共试验注册机构注册临床试验，以此作为发表的条件。在临床试验注册机构（如 ClinicalTrials.gov 或 WHO 一级注册机构）注册研究方案，有助于避免重复或多余的研究，并方便感兴趣的人与研究协调者联系。

条目 41：如果研究方案超过了期刊的字数限制，则向读者提供可获得完整研究方案的途径，以便帮助读者评估研究的有效性，也可以帮助其他研究人员重复该研究。详细描述软件和算法，以便重复研究。将所有建模和数据分析的计算机代码存入一个可公开访问的存储库。

条目 42：说明资金和其他支持的来源、资助者在研究过程中的作用以及作者在研究的每个阶段是否具有独立性。

随着 AI 在医学成像领域的应用越发广泛，基于 AI+医学影像的文献报告会越来越多。建议国内期刊将 CLAIM 作为报告规范纳入其稿约或作者须知，并要求投稿的论文提供 CLAIM 核查清单中规定的各个项目的内容。部分文献报告可能无法完全符合 CLAIM 的每项标准，但 CLAIM 可为作者和审稿人提供了一个框架，其最终目标是促进关于 AI 应用的清晰、透明和可重复的科学交流。但 CLAIM 只能用于评价和审查相关研究报告，而不能作为评价研究质量的工具。