ScientificData | A large-scale curated and filterable dataset for cryo-EM foundation model pre-training

grit 发布于 2025-06-10 15 次阅读


CryoCRAB是首个大规模、标准化的冷冻电镜(cryo-EM)数据集,专为基础模型预训练设计,包含152,385套原始电影帧,总数据量达116.8 TB。该数据集通过创建奇偶帧配对显微照片以实现有效的去噪预训练,并采用自动化处理流程和高效存储格式,显著提升了数据加载速度和训练效率。验证实验表明,CryoCRAB能够有效支持基础模型(如DRACO)的训练,展现出强大的特征提取、泛化能力及改进的去噪性能。发表于 2025年06月09日。

原文链接:https://x.com/BiologyAIDaily/status/1932059894863290692

ScientificData | A large-scale curated and filterable dataset for cryo-EM foundation model pre-training

此作者没有提供个人介绍。
最后更新于 2025-06-10