医学影像 AI 论文周报

时间范围：过去 7 天（截至 2026-03-19 UTC）｜来源：arXiv（逐篇校验 abs 页面）｜总计 18 篇

本期聚焦三个方向：医学图像分割、医学图像生成、医学图像检测/诊断。每篇论文均附 arXiv 链接、提交日期与核心结果；网站数据同时同步到 papers-data.json。

🔬 医学图像分割

🎨 医学图像生成

🩺 医学图像检测/诊断

🤖 医学AI Agent

本周技术趋势

医学图像分割

基础模型适配从“训练新模型”转向“推理稳定化+测试时适配”

弱监督/银标准标签正在与对比学习、反事实生成结合，降低标注成本

decoder-centric 和轻量混合架构重新受到重视，强调性价比而非一味堆大 backbone

医学图像生成

扩散模型开始更强地纳入物理约束、解剖先验与公平性约束

多模态生成从单纯图像合成延伸到报告生成与可检索增强

MRI harmonization/超声统计成像显示“生成模型=标准化基础设施”趋势

医学图像检测/诊断

多中心鲁棒性与公平性成为诊断模型主线，不再只看平均分

视觉基础模型正在通过多专家融合和参数高效适配进入医疗诊断

病例级评测、防泄漏协议和可解释性验证成为更受重视的实验规范

医学图像分割

医学图像分割arXiv:2603.17110

Pixel-level Counterfactual Contrastive Learning for Medical Image Segmentation

作者：Marceau Lafargue-Hauret; Raghav Mehta; Fabio De Sousa Ribeiro; Mélanie Roschewitz; Ben Glocker

提交日期：17 Mar 2026

解决的问题：该工作针对医学分割对像素级标注高度依赖的问题。人工标注慢且贵，银标准标签又容易把上游模型的偏差带入下游分割器，导致模型在设备、采集协议与病灶形态变化下泛化不足。作者进一步指出，现有将反事实生成与对比学习结合的方法多停留在分类级别，难以直接迁移到像素密集预测。

提出的方案：作者提出面向分割的像素级反事实对比学习框架，把反事实生成与 dense contrastive pretraining 结合起来，设计了 Dual-View 与 Multi-View 两条训练路径，并增加可利用银标准标签的监督版本。框架通过跨视图一致性提升局部表征稳健性，同时用 CHRO-map 可视化不同方法学习到的像素级嵌入分布，从而分析哪些策略真正学到了对病灶边界和病理变化稳定的表示。

主要结果：论文在具有挑战性的分割任务上报告约 94% DSC。根据文中 Table 2，所提预训练在 Dice、HD95 与 ASD 上均优于其他 dense contrastive baseline，且使用银标准的监督版本比直接拿银标准标签训练分割模型更稳健，说明反事实增强对 acquisition shift 与 pathology variation 都有帮助。

未来应用方向：适合继续扩展到多器官、多病种与多中心场景，也可与基础模型适配、弱监督标注清洗和主动标注策略结合，形成低标注成本的通用分割预训练范式。

arXiv

医学图像分割arXiv:2603.14461

CATFA-Net: A Trans-Convolutional Approach for Accurate Medical Image Segmentation

作者：作者信息请以 arXiv 页面为准

提交日期：15 Mar 2026

解决的问题：传统卷积网络擅长局部密集预测，但难以捕获长程依赖；纯 Transformer 又往往参数重、训练成本高，对小样本医学影像不够友好。该文想解决的是如何在不显著增加复杂度的前提下，同时兼顾局部纹理、器官边界和全局上下文，从而提升跨任务医学分割精度。

提出的方案：CATFA-Net 采用 trans-convolutional 混合思路，把卷积块对局部细节的建模能力与 Transformer 的全局注意力结合起来，在编码器—解码器结构中更高效地融合多尺度信息。论文重点在于通过轻量混合模块增强上下文传播和边界恢复能力，使网络既能保留精细结构，又能在复杂背景、低对比度和器官形变条件下维持稳定表现。

主要结果：从论文首页可验证结果看，CATFA-Net 在 GLaS 上达到 94.48% Dice，在 ISIC 2018 上达到 91.53% Dice，并在多个医学分割基准上刷新或接近 SOTA。结果说明混合式 trans-convolution 设计在腺体与皮肤病灶等边界复杂任务中具备明显优势。

未来应用方向：后续可继续验证其在 3D CT/MRI、多模态与轻量部署中的效果，也适合与蒸馏、LoRA 或 Segment Anything 风格提示机制结合，做临床端高效分割。

arXiv

医学图像分割arXiv:2603.13533

SAIF: A Stability-Aware Inference Framework for Medical Image Segmentation with Segment Anything Model

作者：作者信息请以 arXiv 页面为准

提交日期：13 Mar 2026

解决的问题：SAM 类模型在医学场景中很有潜力，但作为冻结 backbone 部署时经常出现推理不稳定：框提示稍有偏差、阈值稍有变化，边界附近预测就会剧烈波动。临床里这种不稳定会直接影响器官体积测量、病灶轮廓勾画与医生信任，因此作者聚焦 inference-time reliability，而不是再额外大规模重训模型。

提出的方案：SAIF 是一个训练无关、可插拔的稳定性感知推理框架。它从边界敏感区域入手，显式处理框提示误差与固定阈值带来的不确定性，并通过稳定性驱动的推理策略减少边界抖动。它可以叠加在 MedSAM、SAM Adapter、SAMed 等不同医学 SAM 变体上，不要求重新标注数据，适合作为部署侧增强模块使用。

主要结果：论文在 CVC-ClinicDB、Kvasir-SEG、CVC-300 和 Synapse 等数据集上给出明显提升。以 CVC-300 为例，SAM Adapter 加入 SAIF 后 mDice 从 85.54% 提升到 92.17%，mIoU 从 78.54% 提升到 85.22%；在 Synapse 上，SAMed + SAIF 的整体 mDice 达到 84.95%，较基线提升 11.54 个百分点，同时 HD95 也显著下降。

未来应用方向：非常适合直接用于已有医学 SAM 系统上线前的稳健性增强，也可与测试时自适应、交互式提示优化和不确定性估计联动，服务放疗勾画、内镜病灶圈选等高风险应用。

arXiv

医学图像分割arXiv:2603.12547

Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation

作者：作者信息请以 arXiv 页面为准

提交日期：13 Mar 2026

解决的问题：不少医学分割方法把创新重点放在更重的编码器或大规模预训练 backbone 上，结果是参数量和算力持续上升，但跨数据集泛化提升有限。作者认为 decoder 侧仍有被低估的优化空间，尤其是在多尺度融合、边界恢复和分布感知监督方面，现有方法并未充分利用。

提出的方案：该文提出以解码器为核心的高效分割框架，在 skip/decoder 之间加入 Co-Attention Gate，并用 Vision State Space / Mamba 思路增强长程依赖建模，再通过 distribution-aware deep supervision 改善不同层级输出的一致性。整体目标是用更省参数的解码端设计替代单纯堆大骨干网络，从而提升广泛场景下的分割精度与效率平衡。

主要结果：论文在 Synapse、BTCV、ACDC、ISIC17、ISIC18、GlaS、MoNuSeg 等 7 个基准上评估，并在首页给出相对参数量与 FLOPs 的 Mean Dice 对比图。作者报告该方法在复杂度更低的情况下取得更优或可比的平均 Dice，强调 decoder-centric 设计的性价比优势。由于摘要页未完整展开每个数据集数值，部署前建议结合正文表格逐项核对。

未来应用方向：适合继续往轻量化、边缘部署和 3D 扩展方向走，也适合与基础模型 encoder、蒸馏和少样本场景结合，形成更实用的高性价比分割流水线。

arXiv

医学图像分割arXiv:2603.11550

PCA-Enhanced Probabilistic U-Net for Effective Ambiguous Medical Image Segmentation

作者：作者信息请以 arXiv 页面为准

提交日期：12 Mar 2026

解决的问题：医学分割经常存在多解性：边界模糊、噪声大、标注者主观差异明显，单一 deterministic mask 难以真实表达临床不确定性。cVAE 类方法虽能生成多种候选分割，但高维潜变量常含冗余信息，后验表达能力也有限，导致输出多样性与质量之间很难平衡。

提出的方案：PEP U-Net 在 Probabilistic U-Net 基础上引入 PCA 增强机制，压缩和重整潜在空间中的冗余方向，并改善后验分布表达。作者的目标不是只追求单个 mask 的 Dice，而是让模型既能给出高质量预测，又能更真实地覆盖可能的临床分割变体，因此特别关注 generalized energy distance 等不确定性指标。

主要结果：根据文中结果，PEP U-Net 在一个基准上取得最高 IoU 0.434、最低 GED 0.120；在另一个较高精度场景下，IoU 达到 0.890，同时 GED 为 0.008，优于对比方法。这表明 PCA 增强后的潜在表示兼顾了分割质量与分布建模能力，适合存在多解标签的 AMIS 任务。

未来应用方向：后续可扩展到多专家标注融合、主动学习和手术/放疗规划等高不确定性场景，也适合与校准方法结合，输出更可信的临床风险提示。

arXiv

医学图像分割arXiv:2603.17325

MedSAD-CLIP: Supervised CLIP with Token-Patch Cross-Attention for Medical Anomaly Detection and Segmentation

作者：Thi-Thuy-Ngan Truong; Vu Nguyen; Khoi Nguyen; M. H. Nguyen; Trung Le

提交日期：18 Mar 2026

解决的问题：CLIP 在医学异常检测中很吸引人，但现有 zero/few-shot 方案通常依赖全局表征与弱监督，定位图粗糙、像素级异常分割能力有限。现实临床又并非完全无标签，而是常见“少量但有价值”的标注数据，问题在于如何把这些监督信号注入 CLIP，同时不损失其跨域泛化能力。

提出的方案：MedSAD-CLIP 通过 Token-Patch Cross-Attention 在文本 token 与图像 patch 间建立更细粒度对齐，用多层轻量 image adapters 与 learnable prompts 对预训练 CLIP 做医学域适配，并设计 margin-based image-text contrastive loss 强化正常/异常全局区分。整体上，它把图文对齐从粗粒度语义匹配推进到可用于病灶定位与分割的细粒度表示学习。

主要结果：论文在 Brain、Retina、Lung、Breast 四个 benchmark 上验证。文中指出多数 zero/few-shot 方法 Dice 低于 50%，而 MedSAD-CLIP 在 Brain、Retina、Breast 上分别达到 89.47%、93.18%、84.96% Dice，在 Lung 数据集达到 87.16% Dice，并在 Lung Infection 上达到 73.19% Dice、94.53% accuracy，明显优于 Aaclip、AnomalyCLIP 等对比方法。

未来应用方向：很适合作为统一异常理解框架继续扩展到病理、超声和内镜等场景，也可和弱标签、主动学习、报告生成结合，形成从异常发现到解释的闭环。

arXiv Code

医学图像生成

医学图像生成arXiv:2603.17219

SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization

作者：Ishrith Gowda; Chunwei Liu

提交日期：17 Mar 2026

解决的问题：多中心 MRI 研究常被 scanner-induced domain shift 困扰：不同机型、场强和协议会让影像强度分布差异超过真实病理差异，严重影响 radiomics 与下游模型可重复性。传统 ComBat 等特征层方法不能输出可直接用于空间任务的 harmonized image，而普通 CNN 翻译模型又难以捕获全局 scanner bias。

提出的方案：作者提出 SA-CycleGAN-2.5D，将三平面 2.5D 输入、U-ResNet 生成器中的密集 self-attention 与 spectral-normalized discriminator 结合起来，在可控复杂度下同时建模切片内和切片间上下文。框架从 domain adaptation 理论出发，用 cycle、identity 与 SSIM 等约束保护肿瘤与脑结构的一致性，目标是在去域偏差的同时尽量保留病理真实性。

主要结果：在 654 例胶质瘤患者、BraTS 与 UPenn-GBM 两域实验中，方法把 MMD 从 1.729 降到 0.015，下降 99.1%；域分类器准确率降到接近随机猜测的 59.7%。论文还报告自注意力在 harder translation direction 上具有统计显著性，Cohen's d = 1.32，p < 0.001，证明全局建模对 MRI harmonization 很关键。

未来应用方向：可直接服务多中心影像组学、跨院模型迁移和前处理标准化，也适合与后续分割/诊断模型端到端联训，减少中心偏倚对临床 AI 的影响。

arXiv

医学图像生成arXiv:2603.16551

CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation

作者：Mahmoud Ibrahim; Bart Elen; Chang Sun; Gokhan Ertaylan; Michel Dumontier

提交日期：17 Mar 2026

解决的问题：医学影像生成常被用于数据增强与公平性修复，但一个经常被忽视的问题是：生成器本身也会继承训练数据的群体不平衡，导致稀有人群或未见交叉人群的合成质量显著下降。仅靠 loss reweighting 往往不足以解决“组合人群”上的数据稀缺问题。

提出的方案：CompDiff 提出层次化组合扩散框架，核心是 Hierarchical Conditioner Network，把年龄、性别、种族等人口学条件分解编码，再与 CLIP embedding 共同作为 cross-attention 条件。这样既促进不同群体之间的参数共享，也支持对训练中未出现的人口学组合进行 compositional generalization，从表示层面缓解 imbalanced generator problem。

主要结果：在 MIMIC-CXR 与 FairGenMed 上，CompDiff 相比标准 fine-tuning 和 FairDiffusion 给出更好的图像质量与公平性：整体 FID 为 64.3，对比 FairDiffusion 的 75.1；在 held-out intersection 上最高可获得 21% FID 改善。下游分类器也获得更高 AUROC，例如胸片任务平均 AUC 0.72 对 0.69，同时降低 underdiagnosis rate。

未来应用方向：该方向很适合用于公平数据增强、合成对照数据构建和敏感人群补齐，也可与联邦学习、隐私保护生成和临床偏倚评估结合，形成更可审计的生成式医学 AI。

arXiv Code

医学图像生成arXiv:2603.15822

Beyond the Embedding Bottleneck: Adaptive Retrieval-Augmented 3D CT Report Generation

作者：Renjie Liang; Yiling Ma; Yang Xing; Zhengkang Fan; Jinqian Pan; Chengkun Sun; Li Li; Kuang Gong; Jie Xu

提交日期：16 Mar 2026

解决的问题：3D CT 自动报告生成的主要瓶颈并不只是语言模型不够大，而是视觉嵌入对病理信息编码不足。作者发现 contrastive 3D CT embedding 虽有判别力，但在 512 维中有效维度只有约 2 维，导致病灶覆盖不全、检索增强失败甚至伤害生成效果。

提出的方案：AdaRAG-CT 通过自适应检索增强补偿视觉嵌入瓶颈：先检索相关文本知识，再由控制模块选择性地将补充信息并入生成过程，而不是静态、粗暴地把检索结果全部喂给 LLM。论文还系统验证扩大 LLM 规模并不能解决问题，从而把研究重点转到 representation bottleneck 与 retrieval-gated generation 上。

主要结果：在 CT-RATE 上，AdaRAG-CT 将 Clinical F1 从 CT-Agent 的 0.420 提升到 0.480，绝对提高 6 个点。论文还给出 frozen embedding 的 linear probe AUC 范围约 0.59 到 0.97，并报告 organ-level retrieval overlap，如肺部 Jaccard@10 为 0.351，进一步支撑“视觉表示才是核心瓶颈”的结论。

未来应用方向：很适合继续扩展到多模态报告生成、病例检索辅助书写和临床决策支持，也可与视觉基础模型和知识库系统结合，提升 3D 医学 VLM 的可用性。

arXiv Code

医学图像生成arXiv:2603.16942

UNICORN: Ultrasound Nakagami Imaging via Score Matching and Adaptation for Assessing Hepatic Steatosis

作者：Kwanyoung Kim; Jaa-Yeon Lee; Youngjun Ko; GunWoo Lee; Jong Chul Ye

提交日期：16 Mar 2026

解决的问题：脂肪肝筛查中，传统 B-mode 超声对组织散射特征表达有限，而 Nakagami 成像虽有潜力，却长期受限于窗口大小选择和估计不稳定，导致分辨率下降、局部统计不可靠，难以支持临床可视化与定量评估。

提出的方案：UNICORN 基于 score matching 推导 Nakagami 参数的闭式估计器，不再依赖固定窗口 ROI 统计，而是实现像素级参数映射。这样既提升空间分辨率，也减少传统 momentum/MLE 方法在不同 window size 下的脆弱性。作者把生成建模思想落到超声散射统计参数估计上，本质上是一种更稳定的图像重建/合成表示方法。

主要结果：论文报告在模拟和真实数据上均优于传统方法：在一个实验中，PSNR 达到 28.28 dB，较 SOTA 提升 6.75 dB；在另一个设置下，PSNR 为 25.71 dB、RMSE 为 0.089，较对比方法提升约 2.7 dB。作者还展示其可在真实患者 envelope data 上实现对肝脂肪变性的清晰区分。

未来应用方向：可进一步走向超声定量成像、无创脂肪肝分级与 bedside screening，也适合与深度诊断模型耦合，形成从成像增强到疾病评估的一体化超声 AI 流程。

arXiv

医学图像生成arXiv:2603.13901

CT-Conditioned Diffusion Prior with Physics-Constrained Sampling for PET Super-Resolution

作者：Liutao Yang; Zi Wang; Peiyuan Jing; Xiaowen Wang; Javier A. Montoya-Zegarra; Kuangyu Shi; Daoqiang Zhang; Guang Yang

提交日期：14 Mar 2026

解决的问题：PET 超分辨率天然欠定，真实同体多分辨率配对数据稀缺，而有效分辨率又受 PSF、探测器几何与采集参数等扫描物理约束影响。单纯在图像域做生成式恢复容易产生幻觉结构，尤其当解剖先验与设备物理约束都不够强时。

提出的方案：作者把 PET 超分辨率重述为带有异构系统配置的后验推断问题，提出 CT 条件扩散先验 + physics-constrained sampling。训练时用 cross-attention 从高质量 PET/CT 中学习解剖引导的扩散先验；推理时引入 scanner-aware forward model、显式 PSF 与梯度式 data-consistency refinement，保证生成结果与测量物理一致。

主要结果：摘要未给出完整数字表，但明确指出在 standard 与 OOD 场景下，该方法在实验指标和 lesion-level clinical relevance 指标上均持续优于强基线，同时减少 hallucination artifact、提升 structural fidelity。由于 arXiv 摘要页未公开所有数值，若用于正式发表版网页，建议后续把正文表格中的 PSNR/SSIM/临床指标补录进 JSON。

未来应用方向：非常适合低剂量 PET、跨设备重建和核医学定量分析，也可与不确定性估计、跨模态诊断与病灶检测联动，提升生成模型在临床中的可信度。

arXiv

医学图像生成arXiv:2603.15267

Exemplar Diffusion: Improving Medical Object Detection with Opportunistic Labels

作者：Victor Wåhlstrand; Jennifer Alvén; Ida Häggström

提交日期：16 Mar 2026

解决的问题：医学目标检测在实际使用时经常存在“推理时可获得少量现成标注”的情况，例如同患者既往检查框、同批次人工粗标或非专家快速标注，但大多数检测器并不会在 test time 利用这些 opportunistic labels。作者想解决的是如何在不重新训练模型的前提下，把这些 exemplars 转化为检测收益。

提出的方案：Exemplar Diffusion 基于扩散式目标检测框架，在推理时通过 exemplar 信息引导框采样和结果修正，形成 training-free 的检测增强方式。方法不仅利用已知边框提升空间先验，还把扩散模型本身的随机性转化为不确定性量化工具，因此同时兼顾性能提升与可信度分析。

主要结果：摘要明确表述该方法在具备明确空间结构的医学数据集上实现 across-the-board 的 AP 与 recall 提升，并且对 exemplar 质量具有鲁棒性，允许非专家标注参与。虽然摘要未列出逐数据集具体数值，但作者公开了代码与数据划分，利于快速复现和二次评估。

未来应用方向：很适合接入乳腺、肺结节、病理目标检测等临床工作流，在已有粗标/历史框的机构中可低成本提升检测表现，也适合作为人机协同标注的推理侧模块。

arXiv Code

医学图像检测/诊断

医学图像检测/诊断arXiv:2603.17514

EI: Early Intervention for Multimodal Imaging based Disease Recognition

作者：Qijie Wei; Hailan Lin; Xirong Li

提交日期：18 Mar 2026

解决的问题：多模态疾病识别里，常见做法是先各自提特征再后融合，但这种 late fusion 容易错过模态之间在早期表征层面的互补关系。另一方面，医学多模态标注稀缺、与自然图像分布差异大，使得视觉基础模型虽强却难以直接迁移到医学域。

提出的方案：EI 框架把一个模态作为 target、其余模态作为 reference，在早期特征提取阶段就用 reference 的高层语义 token 作为 intervention token 去引导 target 编码；同时提出 MoR（Mixture of Low-varied-Ranks Adaptation）作为参数高效适配方法，用不同 rank 的低秩适配器和软路由器提升医学域微调灵活性。

主要结果：摘要指出在 retinal disease、skin lesion 与 KEEN anomaly classification 三个公开数据集上，EI 均优于多种竞争基线。虽然摘要页未展开具体 AUC/F1 数字，但其方法亮点在于把基础模型适配与早期跨模态交互统一起来，属于本周多模态诊断方向中最值得跟踪的一篇。

未来应用方向：可扩展到 OCT+眼底、病理+文本、CT+EHR 等更复杂场景，也适合与联邦学习和临床决策支持系统结合，形成可插拔的多模态医学诊断前端。

arXiv

医学图像检测/诊断arXiv:2603.17304

3D MRI-Based Alzheimer's Disease Classification Using Multi-Modal 3D CNN with Leakage-Aware Subject-Level Evaluation

作者：Md Sifat; Sania Akter; Akif Islam; Md. Ekramul Hamid; Abu Saleh Musa Miah; Najmul Hassan; Md Abdur Rahim; Jungpil Shin

提交日期：18 Mar 2026

解决的问题：阿尔茨海默病影像分类中，很多论文仍基于 2D slice 进行训练，容易打破病例级独立性并高估性能。该文强调真实临床更依赖完整 3D 脑结构，因此需要在 subject-level protocol 下重新评估 volumetric MRI 模型，并避免 data leakage。

提出的方案：作者构建了一个多模态 3D CNN，把原始 T1 MRI 与 FSL FAST 分割得到的灰质、白质和脑脊液概率图一起输入，用互补神经解剖信息提升分类。论文同时做 slice-level 与 subject-level 的对照实验，并结合 GradCAM 检查模型关注区域，突出其“可复现实验协议 + 结构解释性”价值。

主要结果：在 OASIS-1 上进行 5 折 subject-level 交叉验证，模型达到 72.34% ± 4.66% accuracy，ROC-AUC 为 0.7781 ± 0.0365。GradCAM 显示模型主要关注 medial temporal lobe 与 ventricular areas，与 AD 相关脑萎缩区域一致，因此其贡献不只是分数，还包括对评测协议的纠偏。

未来应用方向：适合继续扩展到纵向 MRI、PET+MRI 多模态和轻度认知障碍进展预测，也可作为“防泄漏评估”基线用于后续 AD 影像研究。

arXiv

医学图像检测/诊断arXiv:2603.15941

Towards Fair and Robust Volumetric CT Classification via KL-Regularised Group Distributionally Robust Optimisation

作者：Samuel Johnny; Blessed Guda; Frank Ebeledike; Goodness Obasi; Moise Busogi

提交日期：16 Mar 2026

解决的问题：临床 CT 诊断部署常同时受到跨中心域偏移与不同性别/人群亚组性能不平衡的双重挑战。传统平均风险最小化容易牺牲少数群体，标准 Group DRO 又可能出现 group weight collapse，导致最坏组保护和整体性能难兼顾。

提出的方案：该文使用 MobileViT-XXS slice encoder 加两层 SliceTransformer 做体积级推理，并在训练中引入 KL-regularised Group DRO，自适应提高表现较差中心和人口学亚组的权重，同时用 KL 惩罚避免权重过度塌缩。Task 2 里作者把组定义到 gender × class 粒度，直接针对稀缺组合如 female squamous carcinoma 做公平优化。

主要结果：在多中心 COVID-19 分类任务上，最佳配置取得 challenge F1 0.835，超过最佳已发表挑战结果 5.9 个点；在四分类肺病任务上，Group DRO（α=0.5）达到 mean per-gender macro F1 0.815，较最佳挑战提交高 11.1 个百分点，并把 Female Squamous F1 相对 focal loss baseline 提升 17.4 个点。

未来应用方向：非常适合高风险临床部署前的公平性校验，也可与联邦学习、中心自适应和不确定性估计联合，构建更可监管的诊断模型训练流程。

arXiv

医学图像检测/诊断arXiv:2603.15154

Vision-Language Model Based Multi-Expert Fusion for CT Image Classification

作者：Jianfa Bai; Kejin Lu; Runtian Yuan; Qingqiu Li; Jilan Xu; Junlin Hou; Yuejie Zhang; Rui Feng

提交日期：16 Mar 2026

解决的问题：多源胸部 CT 的 COVID-19 识别容易受到 source shift、数据源不平衡和 test source identity 隐藏等因素影响，单一模型很难稳定覆盖所有中心。尤其在挑战赛设置下，如何同时利用 3D volumetric 线索、slice-wise 视觉语义和跨切片上下文，是实际鲁棒分类的关键。

提出的方案：论文设计三阶段 source-aware multi-expert 框架：第一阶段构建结合原始 CT 与 lung-extracted CT 的 3D expert；第二阶段基于 MedSigLIP 训练 slice-wise expert 与 Transformer inter-slice expert；第三阶段再训练 source classifier 预测测试样本来源，并据此执行专家融合与投票，使不同模型在各自更擅长的域中发挥作用。

主要结果：在验证集上，Stage 1 模型 macro-F1 为 0.9711、ACC 为 0.9712、AUC 为 0.9791；Stage 2a 和 2b 的最佳 AUC 分别为 0.9864 与 0.9854；Stage 3 source classifier 的 ACC/F1 分别为 0.9107/0.9114。整体结果证明 source-aware expert fusion 能明显提升多中心胸部 CT 的稳健分类能力。

未来应用方向：可继续扩展到更多病种、多任务胸部 CT 和跨医院部署，也适合与解释模块、报告生成或 triage 系统组合，做临床端多专家协同诊断。

arXiv

医学图像检测/诊断arXiv:2603.15143

Clinical Priors Guided Lung Disease Detection in 3D CT Scans

作者：Kejin Lu; Jianfa Bai; Qingqiu Li; Runtian Yuan; Jilan Xu; Junlin Hou; Yuejie Zhang; Rui Feng

提交日期：16 Mar 2026

解决的问题：胸部 CT 肺病分类常受严重类别不平衡影响，少数病种尤其容易被主流类别淹没。作者提出一个有争议但值得关注的问题：患者性别等临床先验是否可以作为 routing signal，引导模型分流到更合适的专科分类器，从而改善 minority class 识别。

提出的方案：方法采用两阶段 gender-aware 流水线：先从 CT 预测性别，再把样本送入对应的 gender-specific disease classifier。设计思路是显式利用与疾病影像表现相关的临床先验，缓解统一模型在不平衡数据上的偏置。尽管方法结构简单，但其临床先验驱动建模为“影像 + 人口学”联合诊断提供了可操作思路。

主要结果：从论文前几页可提取到的验证结果看，模型整体 validation accuracy 为 76.77%，mean macro F1 为 0.8221；在分性别评估中，male 患者 macro F1 为 0.7249，female 为 0.6104。作者强调该方案对 squamous cell carcinoma 等少数类别改善最明显，同时维持其他类别竞争力。

未来应用方向：后续需要更严格地评估公平性与潜在偏见，但这一方向可扩展到年龄、吸烟史、实验室指标等多种临床先验，形成更贴近真实诊疗流程的 3D CT 决策支持模型。

arXiv

医学图像检测/诊断arXiv:2603.14621

A Heterogeneous Ensemble for Multi-Center COVID-19 Classification from Chest CT Scans

作者：Aadit Nilay; Bhavesh Thapar; Anant Agrawal; Mohammad Nayeem Teli

提交日期：15 Mar 2026

解决的问题：COVID-19 暴发时暴露出 RT-PCR 时延和假阴性问题，而 CT 能提供更快的辅助筛查，但跨医院部署又会受到 scanner、协议和人群差异影响。单模型往往在某些中心表现突出、在另一些中心失效，因此如何构建真正跨中心稳健的集成系统，是实战价值很高的问题。

提出的方案：作者用 9 个模型构成异构集成，覆盖三类推理范式：DINOv2 ViT 切片级聚合、RadImageNet DenseNet-121 切片平均，以及 7 个基于 EfficientNet/ConvNeXt 的 gated attention MIL 模型。训练中结合 focal loss、embedding-level mixup、domain-aware augmentation 和 stochastic weight averaging；推理时再做 score-weighted probability averaging 与 per-source threshold optimization。

主要结果：最终集成在四个 hospital centres 上取得平均 macro F1 0.9280，超过最佳单模型 0.8969，绝对提升 0.031。作者还指出 per-source threshold calibration 相比 global threshold 额外带来约 0.14 F1 的增益，说明后处理校准在多中心医学分类中非常关键。

未来应用方向：该方案适合直接移植到其他多中心胸部 CT、肺炎分型与急诊分诊任务，也适合和联邦学习、领域泛化及可解释性分析结合，形成更稳健的医院级落地方案。

arXiv

医学AI Agent

离线轻量化 Agent
Meissa（4B）这类工作说明医学 Agent 正在从“云端演示”走向“可在受限环境部署的临床助手”，重点是低延迟、低资源占用和本地可用性。

自进化与工具发现
MACRO 这类方向强调 Agent 不只是调用固定工具，而是能在任务过程中发现、选择和组合新工具，提升复杂诊疗流程中的适应能力。

多模型协作
Mixed-Vendor、MedCollab 一类工作显示，未来医学 Agent 更可能是多个模型协同完成分诊、影像理解、问答和报告生成，而不是单模型包打天下。

主动问诊与澄清
MedClarify、MIND 等方向说明，医学 Agent 的价值不只在回答问题，更在于知道什么时候继续追问、补齐病史、澄清关键信息，降低误判风险。

时序病历推理
TRACE 等工作聚焦 EHR 流式处理与时序推理，意味着医学 Agent 正在从“单轮问答”走向“持续跟踪患者状态”的长期协作系统。

临床工作流整合
后续值得重点关注“影像理解 + 病历推理 + 行动建议”的完整链路，把医学 Agent 真正嵌入影像诊断、慢病管理和报告生成流程。

下周建议重点跟踪：医学 SAM 的测试时适配与稳定推理、物理约束扩散在 PET/MRI 重建中的临床验证、多中心公平诊断、3D CT 报告生成的检索增强、以及“生成模型作为数据标准化层”的工程落地。

数据来源说明：本页基于 arXiv 近 7 天论文检索生成，使用 API 检索并逐篇访问 arXiv abs 页面核验链接有效性。部分论文的完整数值表未在摘要页公开，页面中已明确标注“摘要未完全披露”的情况，便于后续继续补录正文表格。