2026
文献一:Bridging chemistry and artificial intelligence by a reaction description language
1. 文献基本信息
- 期刊: Nature Machine Intelligence
- 课题组及其知名度: 通讯作者为 Mingyue Zheng (郑明月) 研究员,来自 中国科学院上海药物研究所 (Shanghai Institute of Materia Medica, CAS)。该课题组是中国顶尖的 AI 药物设计与计算化学研究团队之一,在 AI 制药领域具有极高的学术影响力和知名度。
- 文献中英文名称:
- 英文: Bridging chemistry and artificial intelligence by a reaction description language
- 中文: 通过反应描述语言架起化学与人工智能的桥梁
2. 关键词与摘要
- 关键词: Reaction Description Language (反应描述语言), ReactSeq, Retrosynthesis (逆合成), Large Language Models (大语言模型), Molecular Editing Operations (分子编辑操作), Prompt Learning (提示学习).
- 中文摘要: 随着人工智能的飞速发展,大型语言模型正越来越多地用于解决各种科学挑战。这一过程的一个关键步骤是将特定领域的数据转换为用于语言建模的标记序列。在化学中,分子通常由分子线性符号表示,而化学反应则被描绘为反应物和产物的序列对。然而,这种方法无法捕捉反应过程中原子和化学键的变化。在此,我们提出了 ReactSeq,一种定义了逐步化学转化的分子编辑操作的反应描述语言。基于 ReactSeq,用于逆合成预测的语言模型可以在所有基准测试中持续表现出色,并在人机交互和可解释人工智能方面展示了充满希望的涌现能力。此外,ReactSeq 使我们能够获得通用且可靠的化学反应表示,这有助于反应空间的导航,并辅助实验步骤的推荐和反应产率的预测。我们预见 ReactSeq 可以作为缩小化学与人工智能之间差距的桥梁。
3. 全文详细总结
本文介绍了一种名为 ReactSeq 的新型反应描述语言,它通过定义分子编辑操作(MEOs)来精确描述从产物到反应物的原子和键的逐步变化,从而克服了传统线性符号(如 SMILES)在描述动态化学反应过程中的局限性。该研究基于这一语言构建了 Transformer 模型,不仅在 USPTO-50k 等基准数据集的逆合成预测任务中取得了最先进(SOTA)的性能,还通过显式的编辑操作 Token(如断键、连键、手性翻转)实现了专家知识的提示学习(Prompt Learning),极大地增强了模型的可解释性和人机交互能力。此外,文章还证明了从 ReactSeq 中提取的 MEO Token 嵌入(Embeddings)能够作为一种通用且可靠的化学反应表示,在无监督情况下即可有效地进行反应类型分类、相似反应检索,并在反应产率预测及实验步骤推荐等下游任务中展现出强大的鲁棒性。
4. 提炼的对我有帮助的灵感
-
引入显式的手性编辑 Token (Explicit Chirality Tokens)
- 分析: 文中定义了专门的 Token(如
s,r,?)来代表手性构型的翻转或保持,这种将立体化学变化“显式化”的方法比让模型从图中隐式学习要高效得多。 - 应用位置: 放在 Methodology (Input Representation) 部分。在构建你的不对称催化 AI 模型时,不要只输入分子图,可以尝试在序列输入中加入类似的“手性操作符”,强制模型关注手性中心的变化。
- 可行性: 高。基于 RDKit 可以提取手性标记并转化为自定义 Token,技术实现难度低。
- 分析: 文中定义了专门的 Token(如
-
基于提示学习的专家知识注入 (Prompt-based Expert Guidance)
- 分析: ReactSeq 允许通过 Prompt(如“断开这根键”)来引导模型生成特定结果,这对于数据稀缺的不对称催化领域非常重要,可以用化学家的先验知识弥补数据不足。
- 应用位置: 放在 Introduction (Strategy) 或 Methodology (Prompt Engineering) 部分。你可以设计一种机制,将“优先反应位点”或“特定催化剂类型”作为 Prompt 输入给模型,辅助预测选择性。
- 可行性: 中。需要设计合理的 Prompt 模板,且需要模型架构支持多模态输入(文本 Prompt + 分子结构)。
-
关注“变化”而非“状态” (Focus on Transformation/Edits)
- 分析: 文章的核心思想是学习“如何从 A 变到 B”(编辑操作),而不是单纯学习 A 和 B 的静态特征。这对于理解反应机理至关重要。
- 应用位置: 放在 Methodology (Model Architecture) 部分。在设计你的网络时,可以尝试预测“反应前后特征的差值”,或者构建一个关注“变化部分”的注意力机制模块。
- 可行性: 高。这是架构设计层面的思想,完全可以迁移到你的 GNN 或 KAN 模型中。
文献二:A unified pre-trained deep learning framework for cross-task reaction performance prediction and synthesis planning
1. 文献基本信息
- 期刊: Nature Machine Intelligence
- 课题组及其知名度: 通讯作者为 Yuan Qi (漆远) 教授和 Fenglei Cao (曹锋雷) 研究员,来自 复旦大学人工智能创新与产业研究院 (AI³) 和 上海科学智能研究院 (SAIS)。漆远教授曾任蚂蚁金服首席 AI 科学家,是全球知名的 AI 专家,该课题组在“AI for Science”领域具有极高的技术实力和影响力。
- 文献中英文名称:
- 英文: A unified pre-trained deep learning framework for cross-task reaction performance prediction and synthesis planning
- 中文: 用于跨任务反应性能预测和合成规划的统一预训练深度学习框架
2. 关键词与摘要
- 关键词: Unified Framework (统一框架), Reaction Performance Prediction (反应性能预测), Synthesis Planning (合成规划), Pre-training (预训练), Graph Neural Networks (图神经网络), Delta-mol Graph (差分分子图), Enantioselectivity (对映选择性).
- 中文摘要: 人工智能已经改变了精准有机合成领域。包括机器学习和深度学习在内的数据驱动方法在预测反应性能和合成规划方面显示出巨大的前景。然而,数值回归驱动的反应性能预测与基于序列生成的合成规划之间固有的方法论差异,给构建统一的深度学习架构带来了巨大的挑战。在此,我们提出了 RXNGraphormer,这是一个通过统一预训练方法共同解决这些任务的框架。通过协同用于分子内模式识别的图神经网络与用于分子间相互作用建模的基于 Transformer 的模型,并通过精心设计的策略在 1300 万个反应上进行训练,RXNGraphormer 在反应性或选择性预测以及正向合成或逆合成规划的八个基准数据集上,以及三个用于反应性和选择性预测的外部现实数据集上,均达到了最先进的性能。值得注意的是,该模型生成了具有化学意义的嵌入,能够在没有显式监督的情况下自发地按类型聚类反应。这项工作弥合了化学 AI 中性能预测和合成规划任务之间的关键差距,为准确的反应预测和合成设计提供了一个多功能工具。
3. 全文详细总结
本文提出了 RXNGraphormer 框架,通过结合用于提取分子内特征的图神经网络(GNN)和用于捕捉分子间相互作用的 Transformer 模块,并在包含 1300 万个真实与构造的“假”反应的大规模数据集上进行对比学习预训练,成功构建了一个能够同时处理反应性能预测(回归)和合成规划(生成)的统一模型。该研究的一大创新是引入了“Delta-mol Graph”(差分分子图),通过插值算法模拟反应前后化学键的变化,生成包含反应机理信息的中间态图表示,并将其与反应物、产物特征融合。这种设计使得模型在不对称催化的对映选择性(ee 值)预测等任务上达到了 SOTA 水平(例如在不对称硫醇加成数据集上 R² 达到 0.915),同时证明了大规模预训练赋予了模型在无监督情况下区分反应类型的能力,为解决化学 AI 中任务异构性问题提供了高效通用的解决方案。
4. 提炼的对我有帮助的灵感
-
构建差分分子图 (Delta-mol Graph) 以捕捉反应机理
- 分析: 这是一个针对反应性能预测(特别是选择性预测)的大杀器。通过计算反应物和产物的化学键差异并进行插值,生成一个模拟“过渡态”的中间图输入,能够直接告诉模型“反应发生在哪里”,这比单纯输入反应物和产物要有效得多。
- 应用位置: 放在 Methodology (Feature Engineering) 部分。在你的论文中,明确提出引入“Delta Graph”或“Reaction Center Graph”作为额外的输入特征,以增强模型对不对称催化机理的理解。
- 可行性: 高。文中提供了具体的“Delta-link method”算法逻辑(基于 RDKit),完全可以用 Python 复现并在你的数据集中应用。
-
GNN 与 Transformer 的混合架构 (Unified GNN-Transformer Architecture)
- 分析: 文中用 GNN 提取单个分子的结构特征(Intra-molecular),用 Transformer 处理分子间的相互作用(Inter-molecular,如催化剂与底物),这种分层处理非常符合化学直觉。
- 应用位置: 放在 Methodology (Network Architecture) 部分。你可以参考这种架构,底层用你熟悉的 GNN (或尝试 KAN) 提取分子指纹,上层用 Attention 机制处理不对称催化体系中复杂的分子间作用力。
- 可行性: 高。现有的深度学习框架(如 PyTorch Geometric + HuggingFace)非常容易实现这种模块化的拼接。
-
负样本构造与对比学习 (Negative Sampling & Contrastive Learning)
- 分析: 为了解决数据不足和增强模型鲁棒性,作者通过“碎片交换算法”生成了大量物理上合理但化学上错误的“假反应”作为负样本进行预训练。
- 应用位置: 放在 Methodology (Data Augmentation/Pre-training) 部分。针对你的小样本不对称催化数据,可以尝试生成一些“构型错误”的产物作为负样本,训练模型区分正确的立体选择性路径。
- 可行性: 中。需要一定的算力进行预训练,或者可以在小规模数据集上作为一种辅助损失函数(Auxiliary Loss)来使用。