近日,我院青年教师李琴作为第一作者,贵州财经大学作为第一单位,在计算材料学领域国际顶级期刊、Nature子刊《npj computational materials》上发表了题为《MD-HIT: Machine learning for material property prediction with dataset redundancy control》(通过数据集冗余控制进行材料特性预测的机器学习)的学术论文。
研究论文主要关注材料科学领域中一个常见的问题:材料数据集通常包含大量冗余(高度相似)的材料样本,这是由于历史上材料设计中采用的反复试错和修补方法所致。这种冗余在随机划分训练测试集时,会导致机器学习模型性能被高估。论文提出了一种用于材料数据集的冗余减少算法(MD-HIT),该算法借鉴了生物信息学中的CD-HIT算法思想,利用贪心增量方法,基于不同的组分相似性度量和结构相似性度量,逐步筛选出一系列不同阈值的非冗余数据集,并在此基础上评估了几种最新的机器学习模型对形成能和带隙的预测性能。实验结果表明,随着冗余的降低,所有评估的模型在随机划分的测试集上的性能均出现了不同程度的下降。同时,基于非冗余训练的模型在分布外样本上的预测性能却优于基于冗余数据训练的模型。这项工作揭示了在材料科学的机器学习研究中控制数据冗余的重要性(可以更加客观公正地评估不同模型的泛化性能),为后续研究提供了有益的参考。同时,所提出的MD-HIT算法也为处理材料数据集的冗余问题提供了一种新的解决方案。