GPT-Rosalind 让 AI 去审一份 FDA 都吵翻的证据
OpenAI 用 LifeSciBench 把科学 AI 的评估锚到工作流,又挑了一个酷似 Elevidys 的 FDA 替代终点难题做样例——这暴露了领域模型真正的考题:在专家都分裂的地方,敢不敢说证据不够。
概述
OpenAI 这次 GPT-Rosalind 更新,真正的看点不在”模型更懂生物了”,而在它怎么定义”好”。它发布了一个叫 LifeSciBench 的评测,把考核从单点知识挪到了科学研究的完整流程。更值得玩味的是它挑出来当招牌的那道题:要模型做的不是讲解一段生物学,是去挑一份准备递交 FDA 的基因疗法材料的毛病,逼它判断这些证据到底站不站得住。
这道题几乎是照着真实监管史写的。一种基于 AAV9 的微肌营养不良蛋白基因疗法,拿微肌营养蛋白的表达量当替代终点,去申请加速审批。做这行的人一看就知道说的是谁——Sarepta 的 Elevidys(SRP-9001),同样的疗法路线,同样的替代终点逻辑。当年它的加速审批,FDA 顾问委员会 8 票对 6 票险过,生物制品中心主任 Peter Marks 顶着审评团队的反对放了行。OpenAI 等于把一道连 FDA 内部都没吵明白的判断题,摆到了模型面前。
对做产品的人,信号很清楚。领域模型的较量早就不在”答得顺不顺”,而在它能不能嵌进真实研究流程、能不能被审计、能不能在专家都犹豫的地方给出有理有据的反对。模型本身的聪明,只是一张入场券。
发生了什么
这次更新把 GPT-5.5 的编程和工具调用能力,接到了药物化学、基因组学这些药物发现核心领域更强的模型能力上,覆盖更广的分析、设计和实验环节。模型目前是受控开放,以研究预览的形式发给全球通过资格审核的机构。
发布的核心是 LifeSciBench,一个请外部专家来打分的评测。OpenAI 强调它和现有评测最大的不同是”端到端”:它不孤立地测某个生物领域或某项单一能力,而是从真实研究的六类工作里取题——证据梳理、数据分析、设计与优化、科学推理、验证与运营、转化与沟通。官方说 GPT-Rosalind 在这些被专家认定有科学价值的任务上领先。
最能说明问题的是它挑的那道样例题。在”证据梳理”这一类里,题目是为一场 FDA 的 Type B 会议做准备:议题是一种治疗杜氏肌营养不良(DMD)的微肌营养蛋白基因疗法,从 MCK 启动子表达一个 138 kDa 的蛋白构建体,临床背景是一项开放标签的 Phase 1b/2,入组 12 个 4 到 7 岁、还能走路的男孩。提问的口气很冲:狠狠挑刺,我们现在这套材料,真撑得起拿微肌营养蛋白表达当替代终点、去申请加速审批吗?OpenAI 拿来证明实力的,是会挑毛病,不是会写答案。
为何重要
把这两件事摆在一起,OpenAI 其实在做一件事:定规则。它在定义生命科学 AI 该怎么被评判,而且把规则建在研究流程上,不是建在知识储备上。谁定义了什么算好,谁就左右了这个领域往哪走,这比模型领先几个点要紧得多。Google 旗下的 Isomorphic Labs、一批做蛋白和基因组的公司都在拼能力,但还没人用一套流程评测把”什么算好”钉死。
挑这道题,也露出了最有意思的一面。Elevidys 后来的真实走向是:打了药的患者,12 周时截短型的肌营养蛋白平均涨了约四成,可后续分析始终没能证明这点涨幅能预示一年后运动功能的保留。替代终点到底成不成立,FDA 自己的审评员和领导层都没谈拢。OpenAI 把模型扔进去的,正是这种证据本身就有争议、专家都会分裂的局面。这种时候真正值钱的,不是把机制讲得多漂亮,是有没有底气说一句”这证据不够”。通用模型最危险的毛病恰恰相反——它会给你一段听上去很合理、却查不到出处、把单薄证据说得很硬的分析。临床和监管场景最缺的,就是一个默认会跟你较真的系统。
技术要点
把那六类工作当成一张能力清单不难,难的是清单背后的工程门槛。要在 Elevidys 这种题上挑出像样的毛病,模型光”读懂”材料没用。
它得管得住证据的来源。每个结论都要能回溯到具体的论文、表格或试验记录,还要能指出彼此打架的地方。“涨了四成”这个数字,得能一路追到原始读数和样本量,而不是当成定论照搬。它也得真去调工具,而不是嘴上说说:该发现一个数据集有批次效应的时候就得发现,该选哪个统计检验、跑出来、把参数和置信区间摊开,而不是回一句”可以做个分析”。它还得记得住整个过程——哪些假说、哪些前提、哪些分析失败过、哪些问题还悬着,都要留痕。这样等一年期的数据反过来打脸 12 周的乐观信号时,它才改得了口,而不是每轮各说各话、各自圆场。
这也意味着衡量的尺子得换。别再用单轮答得对不对来打分,要看它在一整轮研究里的表现:文献信号很强的时候,它敢不敢指出底层证据其实很虚;结果跟预期相反的时候,它会不会主动改假说。那道 FDA 题考的就是这个,考的不是知识量,是肯不肯守判断的纪律。
对建设者的影响
做科学 AI 的产品,得从一段具体的工作流切进去,别从”AI 科学家”这种人设切进去。人设太空,落不了地。一个真有用的产品,得说得清自己到底管哪一段:排靶点优先级,解读变异,设计检测实验,做文献初筛,还是帮着把证据攒成监管材料。每一段要的数据不一样,会出的岔子也不一样。
不确定性也得当成正经功能来做,别藏着。科学用户要的不是一段写得让人安心的话,是带着证据强弱的假说排序、缺了哪些数据、有没有别的解释,以及最要紧的那句:还差什么证据才能翻盘。Elevidys 的教训就在这儿——替代终点可信不可信还悬着的时候,一个能讲清”什么情况下结论会被推翻”的系统,比一个直接甩结论给你的系统有用得多。
对创业公司,最实在的一条是别去跟 GPT-Rosalind 拼底座模型的规模。护城河在更窄的环节里:更扎实的数据约定、跟实验室打通、验证闭环、全程可审计。一个只做变异解读、但能给出可复现、可追溯、该说”证据不足”就说的小系统,可能比一个什么都能聊两句的前沿模型更值钱。方向也得看清:OpenAI 用受控访问加托管环境,正往机构的工作流上游走,留给薄壳产品的空间会越来越小。
该忽略什么
别把它读成”AI 要攻克新药研发了”。它也许能让早期研究里的证据审查和分析快一些、稳一些,可新药开发该走的实验、验证、量产、临床、监管、长期安全,一样都少不了,周期按年算,失败率高得吓人。在一次演示里把一份 FDA 材料批得头头是道,跟在一个真实药物项目里常年不出错,完全是两回事。Elevidys 从拿到加速审批到争议缠身好几年,本身就是个注脚。
也别把 LifeSciBench 的”领先”当成中立结论。这是 OpenAI 自己设计、用来量自己模型的尺子;哪怕请了外部专家打分,选哪些题本身就带着立场。它更该被看成 OpenAI 对”什么算好的科学 AI”的一种主张,还不是已经被独立验证的事实。真正的检验,是它换到别人的数据、别人的实验室、别人的监管流程里,还能还原出多少。
最后,别以为受控开放只是出于谨慎。在生命科学里,圈一个受控的口子,本身也是更好的产品环境:用户是谁清楚,数据可控,每次运行都能审计,反馈来自真做研究的人。何况面对两用风险——同样的能力既能救人,也能被拿去合成危险的东西——这道闸门本来也省不掉。