Nature Methods | 告别手动描边的至暗时刻:基础模型CellSAM如何

生物工程学出来干什么 2026-06-02

引言

从显微镜发明的那一刻起，人类对微观世界的探索就从未停止。然而，当我们面对海量的显微成像数据时，一个看似基础却极其棘手的痛点始终横亘在研究人员面前——细胞分割（Cell Segmentation）。

精准地识别并勾勒出每一个细胞的轮廓，是进行单细胞分析、空间转录组学研究以及活细胞动态追踪的前提。但在很长一段时间里，这不仅是一项技术挑战，更是一场对耐心的极限考验。无论是基于传统算法的粗糙边界，还是早期深度学习模型对特定数据类型的“偏科”，都无法满足现代生物学对高通量、高精度和泛化能力的渴求。

12月8日，《Nature Methods》的研究报道“CellSAM: a foundation model for cell segmentation” ，为这一领域带来了新的突破。研究人员提出了一种通用的细胞分割基础模型——CellSAM。这项研究不仅展示了计算机视觉领域前沿的“分割一切模型”（Segment Anything Model, SAM）如何被巧妙地移植到生物学土壤中，更通过详实的数据证明：人工智能在理解细胞形态的任务上，已经达到了与人类专家比肩的水准。

困局：在“专才”与“通才”之间挣扎

在深入解析CellSAM之前，我们先来看看生物影像分析领域面临的独特困境。

近年来，深度学习（Deep Learning）确实极大地推动了图像分割技术的发展。我们熟知的Cellpose、Mesmer等工具，在各自擅长的领域，无论是明场显微镜下的细菌，还是荧光染色下的组织切片，都表现出了优异的性能。然而，这些模型大多属于“专才”模型（Specialist Models）。

“专才”的局限性在于其脆弱的泛化能力。一个在哺乳动物细胞培养物上训练得极好的模型，一旦遇到长条状的细菌或者密集的酵母细胞，往往就会束手无策。为了解决多样性问题，研究人员不得不训练一系列针对特定任务的模型，形成所谓的“模型动物园”（Model Zoo）。但这带来了一个新的问题：当你要处理一种从未见过的新型细胞图像时，该选哪个模型？或者，你是否需要重新标注数据来训练一个新模型？

这就触及了成本的痛点。根据该研究的统计，创建一个像素级精度的实例分割标签，其成本极其高昂——每个标签约为0.01美元。试想一下，一张显微图像中可能包含数百甚至数千个细胞，而一个大规模数据集可能包含数百万个细胞。这种边际成本的线性叠加，使得构建大规模、全覆盖的监督学习数据集变得在经济上难以承受。

此外，现有的通用尝试往往面临“灾难性遗忘”或性能稀释的问题。数据表明，当强行将不同类型的图像（如组织、细菌、酵母）混合在一起训练一个通用版Cellpose模型时，其表现往往不如针对单一数据训练的专用模型。这似乎暗示了一个残酷的权衡：想要广度，就得牺牲精度。

直到基础模型（Foundation Models）的出现，打破了这一僵局。

破局：从“分割一切”到“分割细胞”

OpenAI的GPT系列让我们见识了语言基础模型的威力，而在计算机视觉领域，Meta发布的Segment Anything Model（SAM）则掀起了另一场革命。SAM拥有强大的特征提取能力和零样本（Zero-shot）分割能力，但将其直接应用于生物图像时，研究人员遭遇了“水土不服”。

SAM的默认工作流依赖于提示（Prompt），要么是用户点击，要么是框选。虽然SAM支持自动网格提示（Automatic Prompting），即在图像上均匀撒点来生成掩膜，但这种策略对于细胞图像来说非常低效且不准确。细胞图像的密度差异极大，一张图中可能挤着上千个细胞，也可能只有寥寥数个。如果依赖人工为每个细胞画框或点击，在面对包含数千个对象的视野（FOV）时，这种交互式操作是不切实际的。

为了解决这一难题，研究人员开发了 CellSAM。这是一个巧妙的组合体，它并没有摒弃SAM，而是站在了巨人的肩膀上。

CellSAM的核心架构可以被拆解为两个协同工作的模块，它们共享同一个强大的视觉基础——图像编码器（Image Encoder）：

1. CellFinder（细胞发现者）

这是一个基于Transformer的目标检测器。

2. SAM Mask Decoder（SAM掩膜解码器）

负责根据提示生成精细的分割结果。

这里的神来之笔在于引入了 CellFinder。研究人员意识到，既然SAM内部的视觉Transformer（ViT）已经提取了丰富的图像特征，为何不利用这些特征来自动生成SAM所需的“提示”呢？

于是，他们采用了Anchor DETR框架来构建CellFinder。与传统的基于卷积神经网络（CNN）的目标检测器不同，Anchor DETR将检测视为一个集合预测（Set Prediction）问题。这一点至关重要，因为传统的R-CNN家族算法依赖于非极大值抑制（NMS）来去除重复框。在自然图像中（比如检测图中的几个人），NMS工作得很好；但在细胞图像中，细胞往往紧密堆积甚至重叠，NMS很容易错误地抑制掉真实的细胞框，导致低召回率。

CellFinder通过预设的 3500个查询（Queries），能够一次性预测出图像中所有潜在细胞的边界框。这个数字并非随意设定，而是基于对DETR模型容量的估算（约为最大物体数的3.5倍），足以覆盖绝大多数高密度细胞图像场景（通常少于1000个细胞/图）。

工作流程变得极其优雅：图像输入后，ViT提取特征；CellFinder利用这些特征自动画出所有细胞的边界框；这些框随即作为“提示”，连同之前的图像特征一起被送入SAM的解码器，最终输出高精度的像素级掩膜。整个过程实现了完全自动化，无需任何人工干预。

驯化：双阶段训练策略与数据工程

拥有了架构，还需要正确的训练策略。为了让CellSAM从一个自然图像的通用模型“进化”为生物影像专家，研究人员采用了一种双阶段训练法。

第一阶段：训练CellFinder

研究人员首先利用包含细胞边界框的标注数据来训练CellFinder模块和ViT骨干网络。这一步使用了AdamW优化器，基础学习率设为 10^-4，在 8块H100 GPU 上训练了2800个周期（Epochs）。这一阶段的目标是让模型学会“看”细胞在哪里。

第二阶段：微调SAM解码器

在第一阶段训练中，ViT的参数发生了变化，导致提取的特征分布与SAM原本预训练的解码器不再完全匹配。为了弥合这一鸿沟（Distribution Gap），研究人员冻结了ViT的权重，只对SAM的“颈部”（Neck）和掩膜解码器进行微调。这一阶段使用了真实的细胞边界框作为输入，训练了50个周期。

当然，基础模型的基石是数据。为了打造一个真正的“通才”，研究人员通过整理文献，构建了一个涵盖五大类生物影像数据的庞大训练集：

组织 (Tissue)细胞培养 (Cell Culture)细菌 (Bacteria)酵母 (Yeast)细胞核 (Nuclear)

此外，还包括了H&E染色的病理图像以及内部收集的8种哺乳动物细胞系的相差显微镜图像（Phase400）。为了保证评估的严谨性，所有测试数据都经过了严格的去重处理，杜绝了训练集和测试集之间的“数据泄漏”。

较量：当机器视觉挑战人类视觉

CellSAM的表现究竟如何？研究人员用详实的数据回答了这个问题。他们使用 F1 误差（即 1 - F1 分数）作为核心指标，F1分数综合了精确率和召回率，是评价分割质量的黄金标准。

1. 真正的“全能冠军”

在与目前最流行的Cellpose模型进行对比时，结果令人印象深刻。当Cellpose作为“通才”模型（在所有数据上训练）时，其性能相较于“专才”模型（只在特定数据上训练）出现了明显的下降。例如，在细菌或酵母数据上，通用版Cellpose的表现往往不如专用版。

相比之下，CellSAM展现出了惊人的稳定性。数据显示，CellSAM通用模型（CellSAM-generalist）在所有数据类别上的表现，都等同于或优于针对该类别专门训练的CellSAM专才模型。更重要的是，在所有的测试类别（组织、细胞培养、细菌、酵母、细胞核、H&E）中，CellSAM通用模型的误差均低于Cellpose通用模型。这有力地证明了：通过扩大模型规模和数据多样性，基础模型完全可以在保持广度的同时，不牺牲甚至提升特定任务的精度。

2. 跨越“恐怖谷”：达到人类水平

为了验证模型是否达到了人类专家的水平，研究人员进行了一项极具说服力的实验。他们邀请了三位人类专家对同一批图像进行标注，计算“人-人”之间的一致性（F1误差）；同时计算CellSAM与每位专家之间的“人-机”一致性。

统计检验的结果令人震惊：在组织、细胞培养、酵母和细菌这四大类数据中，CellSAM与人类专家之间的差异，与人类专家相互之间的差异相比，在统计学上没有显著区别（P值分别为 0.18, 0.49, 0.11, 0.90，均远大于0.05）。这意味着，CellSAM的预测结果已经落在了人类专家的认知误差范围内。

换句话说，如果不告诉你，你可能无法分辨这幅分割掩膜是出自资深研究员之手，还是AI的杰作。

3. 零样本与少样本学习的飞跃

基础模型最令人期待的特性之一是其处理未知数据的能力。研究人员使用了从未参与训练的 LIVECell 数据集来测试CellSAM的零样本（Zero-shot）性能。

结果显示，CellSAM在未见过的细胞系上取得了压倒性的优势，其F1分数显著高于Cellpose通用模型（F1误差大幅降低，性能提升从 0.13跃升至0.40）。虽然在某些形态极其特殊的细胞系（如SH-SY5Y神经母细胞瘤细胞）上，零样本表现尚有提升空间，但CellSAM展现出了极强的“少样本学习”（Few-shot Learning）能力。

数据表明，对于大多数细胞系，仅仅需要提供 10张标注好的视场（FOV，约含10²到10³个细胞）进行微调，CellSAM的性能就会出现质的飞跃。这种极低的数据需求，极大地降低了研究人员适配新实验场景的门槛。

赋能：从静态图像到动态生命

CellSAM的价值不仅仅在于刷榜，更在于它如何融入并重塑实际的生物学分析工作流。研究人员通过三个具体的案例，展示了CellSAM作为基础设施的潜力。

1空间转录组学的精准地图

空间转录组技术（如MERFISH和seqFISH）能够在保留组织空间结构的同时测量单细胞基因表达。然而，要将转录本准确分配给特定的细胞，前提是必须有完美的细胞分割。研究人员将未经微调的CellSAM通用模型直接应用于MERFISH和seqFISH数据，成功构建了单细胞基因表达矩阵，清晰地展示了如 Slc51a、Ada 等基因在不同细胞中的表达水平。

2捕捉活细胞的瞬态信号

在活细胞成像中，研究人员利用CellSAM逐帧分割长达120分钟（60帧）的视频，并结合追踪算法，成功量化了AMPK活性随时间的变化曲线。这不仅需要分割准确，更要求在时间维度上保持极高的稳定性，否则任何一帧的分割抖动都会导致追踪失败。

3酵母谱系追踪与3D重建

在酵母出芽生殖的观测中，CellSAM不仅准确分割了密集的酵母细胞，还辅助追踪算法构建了细胞的“家谱”。此外，通过对连续的Z轴切片进行2D分割，再利用算法融合，CellSAM成功构建了表皮类器官的三维模型，证明了其作为构建复杂三维分析流程基石的能力。

AI驱动的生命科学新基建

CellSAM的成功，不仅仅是一个算法的胜利，它标志着生物影像分析正在经历类似自然语言处理领域的变革。

1. 算力与数据的规模法则（Scaling Laws）
该研究再次印证了深度学习领域的“规模法则”在生物学数据中同样适用。通过增加模型大小（使用ViT-B）、扩大数据集规模（涵盖多种生物模态）以及投入更多的算力（8块H100 GPU训练），我们能够获得性能更强、泛化能力更好的模型。这种“暴力美学”背后的逻辑是：只要数据足够多样，模型就能学会细胞形态的本质特征，从而超越特定领域的局限。

2. 提示工程（Prompt Engineering）的生物学演绎
CellSAM本质上是将“画图”任务转化为了“提示”任务。CellFinder的作用就是自动生成“最佳提示”。研究人员坦言，对于某些形态极其复杂的细胞（如神经元），简单的边界框可能不再是最佳提示。未来的工作可能需要探索更复杂的提示形式，甚至结合文本描述，这将是视觉-语言多模态模型在生命科学领域的下一个高地。

3. 改变科研范式
对于研究人员来说，CellSAM意味着生产力的释放。以往可能需要数周时间来手动纠正分割结果，现在可能缩短为几分钟的质量检查。更重要的是，它的推理速度极快——在GPU上处理一张图像不到1秒，即便是CPU也仅需约12秒。研究人员已经开发了Napari插件和Web端界面，使得这项技术触手可及。

显微镜赋予了我们看见微观世界的眼睛，而像CellSAM这样的基础模型，则正在赋予我们理解这个世界的大脑。

从“需要为每个实验训练一个模型”到“一个模型服务所有实验”，CellSAM展示了人工智能在生命科学中作为通用基础设施的巨大潜力。细胞分割不再是阻碍发现的瓶颈，而将成为通往高通量、定量化生物学的坦途。

当AI接管了繁琐的描边工作，人类智慧将从机械的劳动中解放出来，去思考那些更深邃的生物学问题：这些被精确分割出来的细胞，究竟在诉说着怎样的生命故事？

参考文献

Marks M, Israel U, Dilip R, Li Q, Yu C, Laubscher E, Iqbal A, Pradhan E, Ates A, Abt M, Brown C, Pao E, Li S, Pearson-Goulart A, Perona P, Gkioxari G, Barnowski R, Yue Y, Van Valen D. CellSAM: a foundation model for cell segmentation. Nat Methods. 2025 Dec 8. doi: 10.1038/s41592-025-02879-w. Epub ahead of print. PMID: 41360960.

声明：本文仅用于分享，不代表平台立场，如涉及版权等问题，请尽快联系我们，我们第一时间更正，谢谢！

‹ 关节痛到哭?备孕总失败?干细胞或许能帮… 【悔之晚矣】头胎没存脐带血,二胎三胎千… ›

Nature Methods | 告别手动描边的至暗时刻:基础模型CellSAM如何

困局：在“专才”与“通才”之间挣扎

破局：从“分割一切”到“分割细胞”

驯化：双阶段训练策略与数据工程

较量：当机器视觉挑战人类视觉

赋能：从静态图像到动态生命

AI驱动的生命科学新基建

相关阅读

把菠菜里的叶绿体放进眼睛,睁眼就能光合作用_

20年前赌对医学!华科从二流工科跃居全国前十,同济是最大底牌

同济大学合作构建首个人源心脏“生物起搏器”类器官体外模型

iMeta高引论文 | 安医大徐建光/张亨国组-口腔微生物工程化在心