近日,为了加速多元素催化剂的发现与优化,美国麻省理工学院团队开发了一个多模态机器人平台——CRESt(Copilot for Real-world Experimental Scientists)。
该平台能够结合自动化设备、大规模模型和实验室监测,在实验设计中融入人类经验、文献知识和显微结构信息,从而加速多元素催化剂的发现和优化加速发展。
该团队以电化学甲酸氧化为例,在 3 个月的时间内对 900 多种配方进行探索,共完成电化学测试约 3500 次。最终,他们成功发现多种有潜力的催化剂,其中一种八元合金催化剂,成本比性能(按催化剂成本标准化的功率密度)相较于纯钯基准提升了 9.3 倍。
该成果的相关论文日前以加速预览的形式亮相 Nature,论文题目为“A multimodal robotic platform for multi-element electrocatalyst discovery”,已通过同行评审但尚未正式发表。
(来源:Nature)
要理解这一成果,我们首先要明白传统材料研发的局限。传统的主动学习(AL,Active Learning)方法,如基于高斯过程的贝叶斯优化,为实验设计提供了一个强大的框架。
它能在“探索”(在未知区域寻找可能性)和“利用”(在已知的高性能区域深入挖掘)之间取得平衡。但这种方法通常是“单模态”的,即主要依赖单一类型的数据流,例如仅将元素比例与材料性能相关联,却忽略了人类科学家在研究中会综合利用的多种信息源。
CRESt 的设计初衷,正是要弥合这种差距,让人工智能像经验丰富的科学家一样,进行“多模态”的思考和实践。
图 | CRESt 指导的电催化剂发现工作流程(来源:Nature)
它由用户交互界面、大规模多模态模型驱动的后端,以及一系列执行器组成。执行器包括液体处理机器人、碳热冲击合成系统、自动电化学工作站、X 射线衍射、软件驱动的扫描电子显微镜,以及用于气体与流体控制的泵和阀门等。
操作者无需编程经验,只需通过语音或文本,就能与 CRESt 自然地交流,指挥整个机器人平台。所有设备通过 Python 代码实现远程协调与控制,用户可通过语音或文本与系统交互,平台在实验过程中能够生成观察与假设。
在算法层面,研究团队提出了“知识辅助贝叶斯优化”(KABO,Knowledge-Assisted Bayesian Optimization)。传统的贝叶斯优化多以单一数值流(例如元素比例)建立代理模型,会忽略化学文献、以往经验和显微结构图像等丰富信息。
而当 CRESt 面临一个新的催化剂设计任务时,它会先从文献中检索相关元素的全面描述,并用词向量将这些文本知识嵌入到元素特征向量。
换句话说,CRESt 在开始之前,已经“预习”了相关的资料,对哪些元素的组合可能产生优异性能,形成了初步的“直觉”。
针对随后的图像特征嵌入,研究团队开发了一套高通量的扫描电子显微镜成像工作流程。CRESt 会自动拍摄催化剂样本的微观图像,并利用计算机视觉技术,提取四个关键的形态学特征:颗粒分布函数的斜率与偏差、颗粒覆盖率,以及单位面积的颗粒数量。
图 | 扫描电子显微镜图像(来源:Nature)
最后,知识辅助贝叶斯优化算法将化学成分、从文献中提炼的文本知识,以及从电镜图中提取的微观结构特征这三大类信息源融合在一起。通过主成分分析等降维技术,该算法在一个浓缩了所有关键信息的潜空间中进行优化计算,规划下一步的实验方向。
这种多模态的学习方式,极大地缩小了搜索空间,显著提升了优化效率。实验对比显示,与标准的贝叶斯优化相比,知识辅助贝叶斯优化算法平均能将实验效率提升 36%,并且只需 25% 的实验次数就能找到高性能的样品。
图 | 知识辅助贝叶斯优化算法与其他两种算法的对比(来源:Nature)
为了检验 CRESt 的真实能力,研究团队选择了一个极具挑战性的课题:为直接甲酸燃料电池寻找高效的电化学催化剂。直接甲酸燃料电池是一种前景广阔的清洁能源设备,而催化剂的好坏直接决定了其性能。
CRESt 的探索从一个相对简单的三元化学空间 Pd-Pt-Cu 开始。即便如此,这个空间也包含了约 50 万种潜在的配方组合。但 CRESt 仅执行了不到 60 次实验,就成功锁定了一个优化的催化剂配方 Pd₀.₆₃₅Pt₀.₂₅₈Cu₀.₁₀₇,其产生的功率密度是传统基准催化剂纯钯的 3.5 倍。
随后,CRESt 开始挑战更难的八元化学空间 Pd-Pt-Cu-Au-Ir-Ce-Nb-Cr。这个空间的潜在配方数量高达 2x10¹⁷ 个。
这是什么概念?假设地球上有 80 亿人,每人找一种配方,那么想要穷尽 2x10¹⁷ 个配方,就需要 2500 万个地球。以人类现有手段,几乎不可能完整探索整个空间。
CRESt 接手这项任务后,花费了 3 个月的时间,自主设计并完成了 900 多种不同化学配比的催化剂合成,进行了超过 3500 次的电化学性能测试。
最终,它发现了两种性能卓越的催化剂。其中一种 Pd₀.₄₈₇Pt₀.₁₈₅Cu₀.₀₁₈Ir₀.₀₃₇Ce₀.₁₀₆Nb₀.₁₆₈ 的功率密度达到了纯钯的 5.6 倍。而另一种经过成本优化的配方 Pd₀.₃₈₁Pt₀.₀₈₀Cu₀.₀₀₉Au₀.₀₀₄Ir₀.₀₂Ce₀.₀₈₆Nb₀.₃₃₈Cr₀.₀₈₂,在将功率密度除以催化剂成本后得到的“成本比性能”,更是达到了纯钯基准的 9.3 倍。
图 | 三元催化剂和八元催化剂性能相较于基线性能的对比(来源:Nature)
在燃料电池测试中,这种新催化剂在贵金属用量仅为以往 25% 的情况下,创造了新的功率密度记录。
有了更好的算法,研究团队接下来将目光投向了算法的执行者,也就是机器人。它们负责完成配方的合成和测试。
但真实世界远比理论模型复杂,在项目初期,研究团队就发现许多实验结果无法复现。尽管机器人生成了大量数据,但数据之间充满了矛盾和不一致,根本无法用来训练模型。
这些问题源于一些极其隐蔽的误差,例如机械臂的微小位移、环境温度的细微波动、电路的瞬时干扰等等。
图 | 视觉语言模型的应用(来源:Nature)
一个例子是,在滴加溶液时,移液管的尖端可能会触碰到作为电极的碳纸,微米级的碳纸错位导致了后续测量的巨大误差。
另一个例子是,为了保证样品位置的一致性,团队使用了激光切割的木制平台,但总是出现微小偏差,进而影响实验精度。
研究人员给 CRESt 加入了视觉语言模型,可以通过摄像头持续监控实验过程,并结合日志做出推理,给出建议。
针对刚才提到的木制平台问题,视觉语言模型将其归结于“激光烧灼会在木头表面留下不均匀的炭化痕迹,导致样品台出现微小误差”,并建议改用不锈钢平台。这条建议改善了实验的可复现性。
为了系统性地评估视觉语言模型,研究团队将问题日志丢给了 OpenAI 和谷歌的模型。结果显示,OpenAI o3 和谷歌 Gemini 2.5 Pro 分别以 72% 和 70% 的准确率判断出问题。
图 | 视觉语言模型发现的实验错误(上)不同模型的准确率对比(下)(来源:Nature)
发现新材料只是第一步,更重要的是理解它为何表现优异。CRESt 的发现同样需要经过严格验证。研究团队运用了原位 X 射线吸收光谱(in situ XAS)和密度泛函理论计算等技术,深入剖析了新型催化剂的内在奥秘。
研究人员观察到,Pd 和 Pt 是催化反应的核心活性元素;Cu、Ce、 Nb、Cr 等其他元素则是重要辅助。它们通过和核心元素形成合金来改变原子排布和电子结构,通过这种方式达到催化性能优化的效果。
总体来看,CRESt 是一个在机器人与大模型双重驱动下的材料发现平台,它展示了将“提出假设、机器人实验、获取数据、分析学习、提出新假设”,整合为闭环探索流程的可能性。CRESt 为未来复杂多元素催化剂,乃至新材料的自动化发现,提供了一种新路线和量化基准。
参考资料:
Zhang, Z., Ren, Z., Hsu, CW. et al. A multimodal robotic platform for multi-element electrocatalyst discovery. Nature (2025). https://doi.org/10.1038/s41586-025-09640-5
文章来自于微信公众号 “DeepTech深科技”,作者 “DeepTech深科技”