AI 建议的呈现时机如何影响医生决策(MNSC 2025)
作者:微信文章文章标题
Designing AI-Based Work Processes: How the Timing of AI Advice Affects Diagnostic Decision Making
作者
Jiamin Yin, Kee Yuan Ngiam, Sharon Swee-Lin Tan, Hock Hai Teo
发表期刊
Management Science
文章主旨
本文通过实验探究 AI 建议的呈现时机(事前 vs. 事后)如何影响医生的诊断决策质量。研究发现,相比事前同步提供 AI 建议,事后(医生完成初步诊断后)提供 AI 建议能显著提升诊断准确性和校准度(即信心与准确性的匹配度)。这一效果源于事后建议促使医生更全面地处理临床信息,并更主动地参与 AI 推理逻辑的批判性思考。
背景信息
AI 在医疗诊断中的应用现状临床 AI 系统在糖尿病视网膜病变、皮肤癌等疾病诊断中已达到专家水平,但如何有效整合 AI 到常规诊断流程仍缺乏指导。现有研究多关注 AI 性能本身,忽视工作流程设计(如建议时机)的影响。诊断流程的复杂性传统诊断是迭代过程,需收集、整合患者信息并验证假设。AI 建议的介入时机可能通过影响医生的信息处理模式和认知偏差(如锚定效应),进而影响决策质量。现有研究空白多数 AI 辅助决策研究未探讨建议时机的作用,且对医生如何认知整合 AI 建议的机制理解不足。
核心内容
作者与新加坡医院合作,招募 55 名急诊与普外科医生,通过模拟急性腹痛病例诊断实验,比较三种条件下的诊断表现:
事后建议组医生先独立诊断,再接收 AI 建议(含推理依据);事前建议组医生同步查看病例与 AI 建议;对照组无 AI 建议。
结果显示,事后建议组的诊断准确性比对照组高 18.1%,校准度提升 13.3%,且对 AI 建议的正误区分能力更强。机制分析表明,事后建议促使医生处理更多临床特征(+17.6%),并更频繁地质疑或认同 AI 推理(+24.8%)。
研究问题
AI 建议的呈现时机(事后 vs. 事前)如何影响医生的诊断准确性和校准度?时机影响的内在机制是什么?(如信息处理深度、AI 推理参与度)
研究假设
H1:事后提供 AI 建议比事前同步提供更能提升诊断质量;H2:事后建议通过促进更全面的信息处理和 AI 推理批判性思考,改善诊断结果。
研究结论
时机的关键作用事后建议组的诊断准确性(2.18 分 vs. 对照组 1.61 分)和校准度(0.15 vs. 对照组 0.27)均最优,事前建议组与对照组无显著差异。机制验证
信息处理深度:事后组分析的关键临床特征数(4.37 个)比事前组(3.75 个)和对照组(3.71 个)更多;认知参与度:事后组对 AI 推理的认同 / 质疑频率(32.4%/30.2%)显著高于事前组(7.8%/7.8%)。
异质性发现事后建议对非典型病例、AI 建议与初诊矛盾时的效果更显著,医生对正确 AI 建议的采纳率比错误建议高 20.1%。
研究方法
1. 实验设计
样本55 名医生(19 名事后组、18 名事前组、18 名对照组),平均临床经验 5.2 年。案例18 个真实急性腹痛病例,包括典型(6 例)、中等非典型(6 例)、非典型(6 例),AI 建议正确率 83.3%。AI 系统基于神经网络,预测急性阑尾炎概率(>50% 判断为阳性),并提供特征重要性解释(如右髂窝压痛的权重)。
2. 数据收集
诊断结果初诊与最终诊断的准确性(0-3 分)、信心度(1-7 分);出声思考记录转录医生诊断过程中的言语,编码信息处理量(特征数、假设数)和 AI 推理互动(认同 / 质疑)。
3. 分析方法
混合效应回归控制医生经验、病例典型性、AI 建议确定性等变量;逻辑回归分析 AI 推理参与度与诊断质量的关联。
数据描述
样本规模55 名医生 ×18 病例 = 990 条诊断记录,事后组、事前组、对照组分别贡献 342、324、324 条。关键变量均值
诊断准确性:事后组 2.18±1.11,事前组 1.94±1.19,对照组 1.61±1.30;校准度(信心 - 准确性):事后组 0.15±0.50,事前组 0.27±0.50,对照组 0.27±0.49。
数据分析方法
描述性统计比较三组诊断指标的均值差异;分层回归检验时机主效应及与病例典型性、AI 建议正误的交互效应;中介分析验证信息处理量和 AI 推理参与度的中介作用(Bootstrap 法,中介效应占比 37.2%)。
理论基础
锚定效应事前建议可能使医生锚定 AI 判断,忽视矛盾证据;事后建议因初诊已形成锚点,促使医生批判性评估 AI;信息处理理论事后建议触发 “假设 - 验证” 模式,促进深度信息整合;信任校准理论对 AI 推理的主动参与(如质疑)能提升对 AI 输出的信任准确性。
维度与变量
前因变量AI 建议时机(事后 / 事前 / 无);中介变量临床特征处理数、AI 推理认同 / 质疑次数;结果变量诊断准确性、校准度。
创新点及贡献点
理论创新首次实证检验 AI 建议时机对医疗诊断的影响,突破 “AI 性能至上” 的研究框架;方法突破结合出声思考法与混合效应模型,揭示 “时机 - 信息处理 - 决策质量” 的因果链;实践价值为医院部署 AI 系统提供流程设计建议(如优先采用事后建议模式),合作平台已采纳该方案。
未来研究方向
扩展场景验证时机效应在影像诊断、慢性病管理等场景的普适性;长期影响追踪医生与 AI 长期互动对诊断习惯的影响;技术融合探索生成式 AI 动态调整建议时机的可能性。
Research Gap
现有研究缺失多数 AI 辅助决策研究聚焦技术优化,忽视人机交互流程设计;机制深度不足缺乏对医生认知偏差(如过度自信)与 AI 建议时机交互作用的理解;作者填补通过实验证据证明时机是影响 AI 整合效果的关键变量,并揭示认知参与的中介机制。
页:
[1]