027
Intro
AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation 是 Shanghua Gao、Ada Fang、Marinka Zitnik(Harvard)2026 年的 arXiv 预印本。它提出一个去中心化、没有中央调度者的多 agent 系统,让一群 LLM agent 在共享状态上自发组队、互相批评提案、共享成败,来做”长周期的计算科研实验搜索”。DOI: 10.48550/arXiv.2605.28655
Why I Read It
今天在 X 上看到好几篇帖子推荐这个 repo,就拿来看看。它属于 AI for science 这个方向,而我自己正好也对”AI 时代怎么做研究”感兴趣。
吸引我的不是又一个 AI scientist demo,而是它处理的具体问题:长周期实验和短周期优化的根本区别在于,有效的研究方向事先并不知道,而且会随证据累积而变化。现有 agent 能跑单个实验,却很难同时维护多个竞争假设、随证据更新它们、并记住失败方向以免重复踩坑。单 agent(如 Karpathy 的 Autoresearch)只沿一条搜索轨迹走;已有的多 agent 系统虽然分工,但仍靠 planner 分解、搜索算法排序或投票收敛——都假设搜索空间能在一开始就被切成稳定的方向。这篇想绕开这个假设。
What It Says
AutoScientists 不靠中央 planner 派活,而是让所有 agent 读写一个共享状态 S:当前最优程序(champion)、记录每次实验结果与指标变化的实验日志、用来辩论提案和公告结果的共享 forum,以及每个团队的实验队列和死胡同登记表(dead-end registry)。系统在两个阶段间交替:讨论阶段里 agent 提方向、互相批评、自发编成若干团队(每队认领一个研究方向);执行阶段里各队并行跑实验,把结果(含失败)写回 S,全员可见。某队连续不出改进时就重开讨论,可以创建、合并、拆分团队。两类角色分工:analyst 负责按观测到的 effect size 排序、提实验、优先未充分探索的方向;experiment agent 领实验、改代码、训练、记录,落在噪声带内的改进要在第二个种子上确认才能晋升 champion。
效果上,三个领域都给了硬指标。BioML-Bench 的 24 个生物医学 ML 任务上,平均 leaderboard 百分位 74.4%,高于 Autoresearch 的 66.07%,增益最大的是药物发现(46.16% → 64.52%)。GPT nanochat 训练优化上,达到同一 val_bpb 所需的实验数少 1.9×;更有意思的是从一个已经调优过的 champion 继续搜,AutoScientists 在 93 次实验里接受了 7 个改进,而单 agent 在 100 次里一个都没找到——它第一个找到的改进(query-key normalization order)单 agent 在全部尝试里从未提出。ProteinGym 上,从 Kermut 出发把开发 assay 的 Spearman ρ 从 0.747 提到 0.840,把这个配方冻结后原封不动迁移到全部 217 个 assay,官方平均 ρ 仍从 0.657 提到 0.700。
What I Take From It
对我最有启发的不是任何具体 ML 技巧,而是它把”科研搜索”做成了一个可复现、可审计的工程系统:champion + 实验日志 + 死胡同登记表 + 共享 forum 这套抽象,等于把整个探索过程——包括失败——变成了产物本身,而不只是最后那个模型。其中”死胡同登记表”尤其实用:把失败方向连同测试的轴、方向、性能变化和拒绝原因结构化存下来,无论是 agent 协作还是个人做长周期分析,都能避免重复踩同一个坑。这跟我自己在想的把分析步骤串成 pipeline 的思路是同构的。
它也给了一个关于”AI 时代研究者”的具体画面:人定义任务和评估协议,agent 团队在固定预算下搜索方法,产出 model card 和 findings report。研究者的增量价值,似乎正从”亲手调模型”转向”定义一个好的目标与评估协议,并解读那些涌现出来的方向”。ProteinGym 上冻结配方还能跨 217 个 assay 提升,是个不弱的泛化信号,说明这类系统找到的不一定只是过拟合单任务的 trick。
Note
这是 arXiv 预印本(2026-05),尚未经过同行评审,而且它对比的几个对象(Autoresearch、STELLA、Coral 等)也大多是 2026 年的预印本或代码仓库,要带着这个成色去读。
有两个口径要特别小心。其一,作者自己明说这套系统不省 token、不省 LLM 调用(比 Autoresearch 多,只在同一数量级),它的卖点是”固定实验算力预算下搜得更好”,不是更省成本——别把”实验预算匹配”和”总成本匹配”混为一谈。其二,BioML-Bench 评测限定每个任务只用一张 H100,GPU 受限的实验被迫串行,所以论文里最大的机制优势(并行实验)在主基准上其实被刻意压制了,多 GPU 下能到什么程度只是 future work。此外 agent 数量(默认 3 analyst + 6 experiment)是运行前固定的;GPT 部分给的是单条轨迹比较;全栈都跑在 Claude Code + Claude Sonnet 4.6 上,机制收益和 backend 能力的耦合程度并没有拆开。消融实验是个亮点:去掉 analyst、跨 agent 反馈、自组织、共享状态中的任意一个,都会在至少一个任务上掉得很惨,而且没有哪个机制全局占优——作者据此论证这四者解决的是互补的失败模式,这个论证比单纯报 SOTA 更有说服力。