Skip to content

Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning

grok-3-latest
Score: 0.54
Published: at 13:31

Summary: 本文提出 ChemDual 框架,通过构建 440 万分子指令数据集、设计多尺度分词器和双任务学习策略,显著提升了化学反应和逆合成预测的性能,并在药物设计中展现出强大潜力。

Keywords: LLM, Chemical Synthesis, Dual-Task Learning, Instruction Dataset, Molecular Representation

Authors: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng

Institution(s): Xiangtan University, Hunan University, Hunan Normal University

Problem Background

化学反应预测和逆合成预测是药物发现和合成路线设计中的核心任务,但传统方法依赖专家知识,耗时且资源受限。 大型语言模型(LLMs)在化学领域的应用面临两大挑战:一是缺乏大规模化学合成相关指令数据集,因实验数据获取成本高且规模有限;二是现有微调策略忽视了反应预测与逆合成预测之间的互逆相关性,限制了模型对化学合成过程的深入理解。

Method

Experiment

Further Thoughts

论文通过 BRICS 算法生成大规模指令数据集的思路启发了我,未来可以探索基于分子图或其他化学规则生成更多样化的合成数据;双任务学习策略可扩展至其他化学任务(如分子性质预测)或跨领域任务(如化学与生物学联合学习);多尺度分词器的设计为处理复杂结构数据提供了新思路,可尝试应用于蛋白质序列或材料科学等领域。