2026-06-03 · 更新于 2026-06-09

GPT-Rosalind 让 AI 去审一份 FDA 都吵翻的证据

OpenAI 用 LifeSciBench 把科学 AI 的评估锚到工作流，又挑了一个酷似 Elevidys 的 FDA 替代终点难题做样例——这暴露了领域模型真正的考题：在专家都分裂的地方，敢不敢说证据不够。

openai gpt-rosalind research agents life-sciences

GPT-Rosalind 让 AI 去审一份 FDA 都吵翻的证据 — 图 / Unsplash

概述

OpenAI 这次 GPT-Rosalind 更新，真正的看点不在”模型更懂生物了”，而在它怎么定义”好”。它发布了一个叫 LifeSciBench 的评测，把考核从单点知识挪到了科学研究的完整流程。更值得玩味的是它挑出来当招牌的那道题：要模型做的不是讲解一段生物学，是去挑一份准备递交 FDA 的基因疗法材料的毛病，逼它判断这些证据到底站不站得住。

这道题几乎是照着真实监管史写的。一种基于 AAV9 的微肌营养不良蛋白基因疗法，拿微肌营养蛋白的表达量当替代终点，去申请加速审批。做这行的人一看就知道说的是谁——Sarepta 的 Elevidys（SRP-9001），同样的疗法路线，同样的替代终点逻辑。当年它的加速审批，FDA 顾问委员会 8 票对 6 票险过，生物制品中心主任 Peter Marks 顶着审评团队的反对放了行。OpenAI 等于把一道连 FDA 内部都没吵明白的判断题，摆到了模型面前。

对做产品的人，信号很清楚。领域模型的较量早就不在”答得顺不顺”，而在它能不能嵌进真实研究流程、能不能被审计、能不能在专家都犹豫的地方给出有理有据的反对。模型本身的聪明，只是一张入场券。

发生了什么

这次更新把 GPT-5.5 的编程和工具调用能力，接到了药物化学、基因组学这些药物发现核心领域更强的模型能力上，覆盖更广的分析、设计和实验环节。模型目前是受控开放，以研究预览的形式发给全球通过资格审核的机构。

发布的核心是 LifeSciBench，一个请外部专家来打分的评测。OpenAI 强调它和现有评测最大的不同是”端到端”：它不孤立地测某个生物领域或某项单一能力，而是从真实研究的六类工作里取题——证据梳理、数据分析、设计与优化、科学推理、验证与运营、转化与沟通。官方说 GPT-Rosalind 在这些被专家认定有科学价值的任务上领先。

最能说明问题的是它挑的那道样例题。在”证据梳理”这一类里，题目是为一场 FDA 的 Type B 会议做准备：议题是一种治疗杜氏肌营养不良（DMD）的微肌营养蛋白基因疗法，从 MCK 启动子表达一个 138 kDa 的蛋白构建体，临床背景是一项开放标签的 Phase 1b/2，入组 12 个 4 到 7 岁、还能走路的男孩。提问的口气很冲：狠狠挑刺，我们现在这套材料，真撑得起拿微肌营养蛋白表达当替代终点、去申请加速审批吗？OpenAI 拿来证明实力的，是会挑毛病，不是会写答案。

为何重要

把这两件事摆在一起，OpenAI 其实在做一件事：定规则。它在定义生命科学 AI 该怎么被评判，而且把规则建在研究流程上，不是建在知识储备上。谁定义了什么算好，谁就左右了这个领域往哪走，这比模型领先几个点要紧得多。Google 旗下的 Isomorphic Labs、一批做蛋白和基因组的公司都在拼能力，但还没人用一套流程评测把”什么算好”钉死。

挑这道题，也露出了最有意思的一面。Elevidys 后来的真实走向是：打了药的患者，12 周时截短型的肌营养蛋白平均涨了约四成，可后续分析始终没能证明这点涨幅能预示一年后运动功能的保留。替代终点到底成不成立，FDA 自己的审评员和领导层都没谈拢。OpenAI 把模型扔进去的，正是这种证据本身就有争议、专家都会分裂的局面。这种时候真正值钱的，不是把机制讲得多漂亮，是有没有底气说一句”这证据不够”。通用模型最危险的毛病恰恰相反——它会给你一段听上去很合理、却查不到出处、把单薄证据说得很硬的分析。临床和监管场景最缺的，就是一个默认会跟你较真的系统。

技术要点

把那六类工作当成一张能力清单不难，难的是清单背后的工程门槛。要在 Elevidys 这种题上挑出像样的毛病，模型光”读懂”材料没用。

它得管得住证据的来源。每个结论都要能回溯到具体的论文、表格或试验记录，还要能指出彼此打架的地方。“涨了四成”这个数字，得能一路追到原始读数和样本量，而不是当成定论照搬。它也得真去调工具，而不是嘴上说说：该发现一个数据集有批次效应的时候就得发现，该选哪个统计检验、跑出来、把参数和置信区间摊开，而不是回一句”可以做个分析”。它还得记得住整个过程——哪些假说、哪些前提、哪些分析失败过、哪些问题还悬着，都要留痕。这样等一年期的数据反过来打脸 12 周的乐观信号时，它才改得了口，而不是每轮各说各话、各自圆场。

这也意味着衡量的尺子得换。别再用单轮答得对不对来打分，要看它在一整轮研究里的表现：文献信号很强的时候，它敢不敢指出底层证据其实很虚；结果跟预期相反的时候，它会不会主动改假说。那道 FDA 题考的就是这个，考的不是知识量，是肯不肯守判断的纪律。

对建设者的影响

做科学 AI 的产品，得从一段具体的工作流切进去，别从”AI 科学家”这种人设切进去。人设太空，落不了地。一个真有用的产品，得说得清自己到底管哪一段：排靶点优先级，解读变异，设计检测实验，做文献初筛，还是帮着把证据攒成监管材料。每一段要的数据不一样，会出的岔子也不一样。

不确定性也得当成正经功能来做，别藏着。科学用户要的不是一段写得让人安心的话，是带着证据强弱的假说排序、缺了哪些数据、有没有别的解释，以及最要紧的那句：还差什么证据才能翻盘。Elevidys 的教训就在这儿——替代终点可信不可信还悬着的时候，一个能讲清”什么情况下结论会被推翻”的系统，比一个直接甩结论给你的系统有用得多。

对创业公司，最实在的一条是别去跟 GPT-Rosalind 拼底座模型的规模。护城河在更窄的环节里：更扎实的数据约定、跟实验室打通、验证闭环、全程可审计。一个只做变异解读、但能给出可复现、可追溯、该说”证据不足”就说的小系统，可能比一个什么都能聊两句的前沿模型更值钱。方向也得看清：OpenAI 用受控访问加托管环境，正往机构的工作流上游走，留给薄壳产品的空间会越来越小。

该忽略什么

别把它读成”AI 要攻克新药研发了”。它也许能让早期研究里的证据审查和分析快一些、稳一些，可新药开发该走的实验、验证、量产、临床、监管、长期安全，一样都少不了，周期按年算，失败率高得吓人。在一次演示里把一份 FDA 材料批得头头是道，跟在一个真实药物项目里常年不出错，完全是两回事。Elevidys 从拿到加速审批到争议缠身好几年，本身就是个注脚。

也别把 LifeSciBench 的”领先”当成中立结论。这是 OpenAI 自己设计、用来量自己模型的尺子；哪怕请了外部专家打分，选哪些题本身就带着立场。它更该被看成 OpenAI 对”什么算好的科学 AI”的一种主张，还不是已经被独立验证的事实。真正的检验，是它换到别人的数据、别人的实验室、别人的监管流程里，还能还原出多少。

最后，别以为受控开放只是出于谨慎。在生命科学里，圈一个受控的口子，本身也是更好的产品环境：用户是谁清楚，数据可控，每次运行都能审计，反馈来自真做研究的人。何况面对两用风险——同样的能力既能救人，也能被拿去合成危险的东西——这道闸门本来也省不掉。

来源

Introducing new capabilities to GPT-Rosalind / official
GPT-5.5 agentic coding and tool-use (Codex) / official
FDA's Peter Marks overruled reviewers on Sarepta's DMD gene therapy / blog

概述

发生了什么

为何重要

技术要点

对建设者的影响

该忽略什么

来源

相关解读