云浮防火门胶 7B败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

发布日期：2026-05-29 点击次数：143

医学 AI 会写解释云浮防火门胶，但不代表它真的"看到"了关键证据。

过去的医学多模态模型，大多是把张影像或段编码成视觉特征，然后让大模型生成答案与解释。

但问题在于——个微小病灶、个边界变化、段几秒钟的手术动作，往往就决定了答案是否成立。

而模型"被动接收"视觉上下文时，很容易看错区域、漏看病灶。

为应对这问题，上海创智学院 LeapQuest 团队联浙江大学、上海交通大学、复旦大学，口气拿出了两篇 ICML 2026接收论文，次把Think with Images/Think with Videos范式应用在医学 AI 域：

模型不再只是看完图像或后生成解释，而是在理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。

这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的部分。

两篇工作的核心关键词如下：

两篇工作不是孤立模型升，而是共同提出医学 AI 的新范式：

让视觉证据进入模型的中间思考过程，把"解释"从事后语言生成进为理过程中的证据查证。

△Ophiuchus：面向医学图像的 tool-augmented Think with Images

△MedScope：面向临床长的 Think with Videos 不是会"写解释"，而是开始会"用视觉证据思考"

医学 AI 过去常见的工作式，是把张影像或段编码成视觉特征，然后让大模型生成答案与解释。

问题在于，解释看起来完整，并不代表模型真的看到了关键证据。尤其在医学场景里，个微小病灶、个边界变化、段几秒钟的手术动作，往往就决定了答案是否成立。

Ophiuchus 和 MedScope 共同把这个问题向前进了步：多模态模型不再只是"被动接收视觉上下文"，而是在理过程中主动决定是否需要多证据、应该看哪里、应该回看哪段，并把工具返回的观察结果纳入后续理。

这就是医学 AI 域次被系统化提出的 " think with images/think with videos " 范式：视觉不再只是输入，视觉证据本身成为模型思考过程的部分。

Think with ImagesThink with Images：让模型在图像诊断中"重新看眼"

Ophiuchus 的切入点非常直接：现有医学多模态大模型虽然能写出逐步理，但遇到需要细粒度视觉证据的任务时，仍然容易"看错区域、漏看病灶、误把正常结构当异常"。

这不是单纯语言能力不足，而是视觉交互机制不足。

因此，Ophiuchus 将大模型改造成个能与医学图像工具协同的视觉智能体。

它可以根据当前理状态，决定是否调用外部视觉工具：用SAM2做精细分割，用BiomedParse根据文字提示定位医学结构，用Zoom-in放大关键区域。

工具调用后的输出不是孤立结果，而会以observation的形式回到理链，驱动下步判断。

关键的是，Ophiuchus 并不是把工具"外挂"在模型外面，而是让工具成为理链的部分。

模型要学会何时调用工具、选择哪个工具、如何解释工具输出，以及当工具结果不可靠时如何修正策略。

这使得模型从"会调用工具"走向"会用工具思考"。

Ophiuchus 技术框架云浮防火门胶

Ophiuchus 的价值不只是让医学大模型多了几个视觉工具，而是让模型学会在诊断过程中主动"看哪里、怎么看、看完如何修正"。

从闭源 SOTA 到医学 Agent：Ophiuchus 用结果证明"看得细"才是关键

在同样外部工具配置下，Ophiuchus-7B在 8 个 VQA benchmark 上取得68.0的平均分，于OpenAI-o3 的 62.2、Gemini 2.5 Pro 的 61.8和GPT-5 的 59.9。

在工具使用准确评估中，Ophiuchus 达到97.9的平均工具调用准确率。

这些结果背后的含义，比"某个榜单"重要：

当问题真正依赖局部结构、病灶边界和细胞证据时，模型大小或语言理并不是唯瓶颈。

医学 AI 需要种能让视觉证据不断进入理过程的机制。

Think with Videos：从"看图思考"走向"回看关键时刻"

如果说 Ophiuchus 解决的是医学图像中的局部证据问题，那么 MedScope 则把这范式进到难的长场景。

长临床的挑战在于：关键证据不仅细，而且稀疏；不仅要看对内容，还要看对时间。

个手术动作、个内镜视野变化、个器械进入与离开的瞬间，可能只持续几秒，PVC管道管件粘结胶却决定模型是否真的理解了临床过程。

MedScope 提出的 "think with videos" 不是让模型把整段次压缩成上下文，而是模拟临床医生的观察式：

先快速建立全局理解，再回到可疑时间窗，用crop_video截取片段，用get_frame获取关键帧，后把这些局部观察结果整进答案。

Textual CoT 与 Visual CoT 的差别

这使 MedScope 的理过程具备可审查：模型为什么回答这个结果，不只看它"说了什么"，还可以看它"回看了哪段、找到了哪些帧、这些证据是否支持结论"。

MedScope 框架 ClinVideoSuite 与 GA-GRPO：让模型学会"找证据"，而不只是"猜答案"

为了让模型真正学会这种行为，MedScope 构建了ClinVideoSuite：包含635K时间戳密集 caption、254K证据关联 QA、34K视觉 CoT 轨迹，以及用于强化学习的交互式训练环境。

数据不是简单问答，而是强调问题须依赖局部时间窗中的视觉证据。

训练上，MedScope 采用三阶段路线——

阶段进行临床理 warm-up，学习医学语义和长程理解；

二阶段用 visual-CoT cold-start SFT 教会模型何时需要多证据、如何调用工具；

三阶段用 GA-GRPO 强化时序对齐的工具使用，通过 grounding-aware reward 和 evidence-modulated advantage，让模型偏向检索真正支持结论的视觉片段。

ClinVideoSuite 数据成管线

在 SVU-31K、ClinVideo-Eval 等评测中，MedScope 在多粒度理解、细粒度时序理和 grounded VQA 上取得开源模型中的SOTA。

论文还显示，去掉evidence reward会显著降低定位质量，例如R@0.5 从 40.1 下降到 33.2，mIoU 从 4.3 下降到 38.8，说明答案监督不足以教会模型可靠地选择证据。

真正的范式变化：视觉从"输入"变成"思维过程"

把两篇工作放在起看，重要的不是 Ophiuchus 处理图像、MedScope 处理，而是它们共同定义了种新的医学多模态智能范式：

模型的理过程不再只是语言 token 的展开，而是语言、工具、图像区域、片段和证据反馈之间的闭环交互。

医学 AI 的下个关键能力，不是生成长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。

Ophiuchus 和 MedScope 把这点从法论变成了可训练、可评测、可扩展的技术路线。

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

为什么这可能成为医学 AI Agent 的关键拐点

医学任务与通用视觉问答大的不同，是每个结论都需要证据链。

放射科医生会放大病灶边缘，病理医生会寻找细胞形态，外科医生会回看关键操作，内镜医生会追踪病灶在时间中的出现与消失。

也就是说，临床视觉理就是交互式、证据驱动和可复核的。

" Think with Images/Videos "的意义，正是让医学 AI 向这种真实临床认知式靠近。

它不再满足于次预测，而是在模型内部建立"假设 - 查证 - 修正 - 回答"的循环。

这为临床可信 AI 提供了三类重要能力：少幻觉、强可解释、适复杂流程。

医学 AI 开始真正"边看边想"

从 Ophiuchus 到 MedScope，可以看到医学多模态大模型正在发生次底层范式转向：

从看图、看，到在理过程中持续地看；从输出答案，到主动寻找证据；从语言链条，到视觉证据参与的多模态思维链。

这也解释了为什么" think with images/videos "值得被单提出。

它不是个花哨的工具调用框架，而是在医学 AI 里重新定义了"理"的边界：理不只是语言生成，而是围绕证据进行的动态视觉探索。

当模型能够在思考中主动回看影像、放大病灶、截取、验证证据，医学 AI 才真正从"会回答问题"走向"会进行临床视觉理"。

LeapQuest［起跃界问］是上海创智学院面向下代医学 AI Agent、视觉理与多模态大模型的青年交叉研究团队，聚焦 Visual Reasoning、Agentic RL、Clinical Tools，动模型从"生成答案"走向基于证据的观察、验证与行动。

项目 GitHub：

MedScope｜Think with Videos：https://github.com/SII-WenjieLisjtu/MedScope

Ophiuchus｜Think with Images：https://github.com/SII-zyj/Ophiuchus

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定云浮防火门胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。