2022年6月,浙江大学药学院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子实验室联合在《Journal of Medicinal Chemistry》上发表论文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”,提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法。该方法引入四种技巧来消除隐藏偏差,给定特定靶标的活性分子,基于条件分子生成和分子对接,可以基于已知的活性分子高效地生成相应的负样本(decoys),为机器学习打分函数的训练和测评提供了无偏的数据集。
作者比较了TocoDecoy、传统数据集DUD-E以及适用于机器学习打分函数评价的无隐藏偏差数据集LIT-PCBA。和另外两个数据集相比,TocoDecoy表现相当或更少的隐藏偏差。在模拟虚拟筛选实验中,在不同数据集上训练的模型的预测精度排名为:LIT-PCBA≈TocoDecoy>DUD-E。尽管基于TocoDecoy训练的模型与基于LIT-PCBA训练的模型性能相当,但TocoDecoy数据集具有更好的可扩展性。结果表明,TocoDecoy是一种更为合理的数据集构建方法,有望帮助相关领域的研究人员更好地对机器学习打分函数进行测评和训练。
图1. TocoDecoy方法的工作流程图
浙江大学药学院为本论文的第一署名单位,浙江大学药学院博士生张徐俊为第一作者,浙江大学侯廷军教授、腾讯量子实验室谢昌谕博士、中南大学曹东升教授为共同通讯作者。
原文链接:https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460
参考资料:http://www.cps.zju.edu.cn/2022/0614/c58891a2591991/page.htm
声明:化学加刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 电话:18676881059,邮箱:gongjian@huaxuejia.cn