GPT-Rosalind 让 AI 去审一份 FDA 都吵翻的证据
OpenAI 用 LifeSciBench 把科学 AI 的评估锚到工作流,又挑了一个酷似 Elevidys 的 FDA 替代终点难题做样例——这暴露了领域模型真正的考题:在专家都分裂的地方,敢不敢说证据不够。
阅读全文High-signal frontier AI context tagged with agents.
OpenAI 用 LifeSciBench 把科学 AI 的评估锚到工作流,又挑了一个酷似 Elevidys 的 FDA 替代终点难题做样例——这暴露了领域模型真正的考题:在专家都分裂的地方,敢不敢说证据不够。
阅读全文OpenAI 的角色插件、可分享 Sites 和 annotations 表明,Codex 的重点正在从写代码转向承载团队工作。
阅读全文Anthropic 扩展 Project Glasswing 说明,强网络模型会把瓶颈从发现漏洞转移到 triage、披露、修补、部署和访问控制。
阅读全文OpenAI 模型和 Codex 进入 AWS 重要,因为企业 AI 采用取决于采购、治理、区域、安全和现有工作流。
阅读全文OpenAI 的个人财务预览说明,连接账户、记忆和 grounded reasoning 会把 ChatGPT 变成财务上下文层。
阅读全文Anthropic 与 PwC 扩大合作,把 Claude Code、Claude Cowork 和企业部署变成治理与工作流重设计问题。
阅读全文OpenAI 的 Codex 移动和远程主机更新指向一种新工作流:长时间 coding agent 需要远程检查点、审批和 host governance。
阅读全文OpenAI 的 GPT-Realtime-2、实时翻译和流式转写发布,把语音从聊天体验推向能使用工具的实时 Agent。
阅读全文OpenAI 的 GPT-5.5 发布说明,前沿模型正在被长任务执行、工具使用、成本和安全路由共同评估,而不只是比智力分数。
阅读全文OpenAI 的 ChatGPT workspace agents 表明,共享、定时、云端运行的 Agent 和模型能力一样需要审批、审计和管理员控制。
阅读全文Anthropic 的 Opus 4.7 不只是模型分数更新,更重要的是 effort level、自我验证、长任务成本和 Claude Code 控制面。
阅读全文Anthropic 的 Sonnet 4.6 重要,不只是因为能力接近 Opus,而是因为它把前沿能力带到更便宜、更广的工作流。
阅读全文Anthropic 的 Opus 4.6、1M context 和 Claude Code agent teams 展示了多 Agent 工程的价值,也暴露了成本和协调问题。
阅读全文