单颗粒冷冻电镜(single-particle cryo-electron microscopy)被广泛应用于生物大分子结构的重构研究,其中颗粒图像聚类是三维重构的一个重要步骤。然而,由于电镜图像信噪比极低、数据量大,运用常规算法进行电镜图像聚类,特别是对于非对称、多构象生物大分子的图像,非常具有挑战性。bet体育365官网正规夏宁邵教授团队根据电镜图像特点探索出更高精度的无监督冷冻电镜单颗粒图像降噪/聚类算法。该算法无需使用带标签的数据集或者人工合成数据集对模型预训练,也不需要聚类迭代过程中的二维校准处理,聚类精度高并能高效处理大规模冷冻电镜图像数据,有助于得到更精准的类平均图,对解决因冷冻电镜颗粒图像信噪比低下而引起的聚类精度不佳问题和类崩塌问题具有重要意义。
在该研究中,研究人员基于深度学习设计了一个名为“DRVAE with BSK-means++”的冷冻电镜图像降噪/聚类算法。为了减少噪声对冷冻电镜图像提取特征以及聚类的影响,该研究基于残差网络(ResNet)和变分自编码器(variational autoencoder,VAE)设计了降噪模型(denoising ResNet variational autoencoder,DRVAE),在无监督的训练模式下让深度学习模型获得将充满噪声的单颗粒电镜图像恢复成降噪后图像的能力。DRVAE的训练分为两阶段,第一阶段将数据增强后的图像同时作为模型的输入和监督,训练神经网络降低图像噪声的能力;第二阶段在每一轮训练后对降噪后图像提取特征并聚类,根据聚类标签对每一簇的图像进行二维空间校准并叠加生成类平均图,因类平均图相比单张原始图像拥有更高的信噪比,所以以类平均图作为对应类图像参与DRVAE训练时的监督,可帮助DRVAE获得更好的降噪能力以及细节表达能力。为了避免主流冷冻电镜图像聚类算法出现的类崩塌的现象,该研究提出了BSK-Means++(balanced size K-means++)聚类算法。该算法基于K-means++设计,使用了环形特征避免了聚类过程中的旋转角校准,在聚类过程中考虑不同样本点距离的同时考虑类规模的方差,并使用超参数调节样本距离与类规模的关系,避免了类规模急剧不均衡的现象,提高了冷冻电镜单颗粒图像聚类结果的多样性以及整体精确度。应用该算法时,首先需进行DRVAE的第一阶段训练,之后迭代进行DRVAE的第二阶段训练以及BSK-means++的聚类,直到达到预设的迭代次数后输出最后一次BSK-means++的聚类结果,整个过程不需要使用人为处理的数据集进行预训练。
该研究主要有三个创新点:(1)设计了DRVAE深度学习模型用于冷冻电镜颗粒图像的降噪;(2)采用了二段式训练策略,提高降噪和细节恢复能力;(3)设计了BSK-means++算法,并使用环形特征,提高了类平均图丰富度,减少了类崩塌现象。在三套仿真数据集以及两套真实拍摄的数据集上进行聚类精度对比,DRVAE with BSK-means++整体上取得了优秀的聚类精确度。
近日,该研究成果以题为“Unsupervised Cryo-EM Images Denoising and Clustering based on Deep Convolutional Autoencoder and K-Means++”的论文在线发表于IEEE Transactions on Medical Imaging。bet体育365官网正规助理教授张东旭为该论文的第一作者,夏宁邵教授为该论文的通讯作者。该研究获得了国家自然科学基金以及厦门大学校长基金项目的支持。
论文链接:https://ieeexplore.ieee.org/document/9997544
(图/文 国家传染病诊断试剂与疫苗工程技术研究中心)