Segment Anything Model (SAM) 是一种改变游戏规则的图像分割技术。SAM 是由 Meta AI 的 FAIR 团队开发的一种快速分割模型，可用于各种任务。本文将简要概述该模型、其体系结构、它应对的挑战、潜在的用例，并简要说明它是如何实现的。

分段任何模型（SAM）

SAM 是一种用于分割图像中任何对象的模型。它是一种可提示的分段模型，这意味着它可以通过使用提示来执行某些任务。该模型旨在处理各种视觉数据，例如模拟、绘画、水下照片、显微镜图像、驾驶数据、立体图像和鱼眼图像。

SAM 解决了哪些问题

SAM解决的首要问题是图像分割。图像分割是计算机视觉中的一个关键过程，需要将图像分成许多片段或像素集。图像中的这些片段可以表示各种对象或对象的部分。SAM 旨在高效且有效地完成此任务，即使在它以前从未见过该任务的零镜头设置中也是如此。

SAM（Segment Anything Model）的结构

SAM 的结构由三个主要部分组成：

图像编码器：处理输入图像并生成图像嵌入的大型组件。然后可以使用各种输入提示来查询此嵌入以生成对象掩码。

提示编码器： 该组件旨在处理两种类型的提示：稀疏（点、框、文本）和密集（掩码）。点和框由位置编码和每种提示类型的学习嵌入表示。现成的文本编码器用于处理文本。密集提示（掩码）使用卷积嵌入，并与图片嵌入逐元素求和。

Mask Decoder：该组件将图片嵌入、提示嵌入和输出标记转换为掩码。它采用 Transformer 解码器块修改，然后是动态掩码预测头。为了更新所有的嵌入，解码器块在两个方向上使用了提示自注意力和交叉注意力（提示图像嵌入，反之亦然）。运行两个块后，图片嵌入未采样，MLP 将输出标记传输到动态线性分类器，该分类器计算每个图像点的蒙版前景概率。

实例探究

SAM 旨在用于需要基于提示的分段的任何活动。调查的用例包括：

从一个点分割对象：可以请求 SAM 从图像中的给定点分割特定项目。
边缘检测： SAM 可用于边缘检测任务，例如识别图像内对象的边界。
Segmenting All Objects：分割所有对象：可以要求 SAM 分割图像中的所有对象。
分割检测到的对象： SAM 可用于分割图像中已识别的对象。
Segmenting Objects from Text： Segmenting things from Text：SAM 可以与其他视觉模型一起根据文本描述来分割事物。

安装命令

代码要求Python>=3.8，以及Pytorch>=1.7和Torchvision>=0.8。请按照此处的步骤安装 PyTorch 和 TorchVision 要求。强烈建议安装支持 CUDA 的 PyTorch 和 TorchVision。

安装段任何东西：

pip install git+https://github.com/facebookresearch/segment-anything.git

以高质量分割任何内容

在我的技术研究过程中，我发现 Sam 发布了其最新版本，称为 HQ Sam。以下信息概述了我的发现的详细信息：

HQ Sam 是 Sam 的最新版本，它经历了重大发展。这个更新版本展示了一系列增强的特性和功能。有了 HQ Sam，用户可以期待更先进、更高效的体验。对 HQ Sam 所做的改进包括多个方面。用户界面已经过改进以提供更直观和无缝的交互。此外，底层技术已经升级，以提高性能、响应能力和准确性。

SAM 与 HQ-SAM 的视觉对比

最近发布的 Segment Anything Model (SAM) 标志着在扩展分割模型方面取得了重大进展，实现了强大的零样本功能和可定制的提示。尽管已经接受了 11 亿个掩码的训练，但 SAM 的掩码预测质量在许多情况下仍不尽人意，尤其是在处理具有复杂架构的对象时。HQ -SAM，它赋予 SAM 精确分割任何对象的能力，同时保留了 SAM 原有的可推广设计、效率和零样本泛化能力。

我们细致的方法重用并保留了 SAM 的预训练模型权重，同时仅引入了一些额外的参数和计算。我们设计了一个可学习的高质量输出令牌，它被注入到 SAM 的掩码解码器中，并负责预测高质量掩码。我们不只是将其用于掩码解码器功能，而是将其与早期和最终 ViT 功能融合以改善掩码细节。

我们创建了一个来自各种来源的 44K 细粒度掩码数据集，以训练我们引入的可学习参数。引入的 44k masks 数据集用于训练 HQ-SAM，在 8 个 GPU 上仅需 4 小时。我们在跨多个下游任务的一组 9 个不同分割数据集中说明了 HQ-SAM 的功效，其中 7 个在零样本传输方法中进行了测试。

SAM与HQ-SAM的比较

注意：对于框提示评估，我们输入 SAM 和我们的 HQ-SAM 相同的图像/视频边界框，并使用 SAM 的单掩码输出模式。

COCO 上的各种 ViT 主干

注意：对于 COCO 数据集，我们使用在 COCO 数据集上训练的 SOTA 检测器 FocalNet-DINO 作为我们的框提示生成器。

YTVIS和HQ-YTVIS

注意：使用 ViT-L 主干。作为我们的视频框提示生成器，我们使用在 YouTube VIS 2019 数据集上训练的 SOTA 检测器 Mask2Former，同时重用其对象关联预测。

戴维斯

注意：使用 ViT-L 主干。作为我们的视频框提示生成器，我们使用 SOTA 模型 XMem，同时重用其对象关联预测。

使用几个点比较交互式分割

注意：使用 ViT-L 主干。在高级 COIFT（零射击）和 DIS val 集上。

结论

总之，Segment Anything Model (SAM) 是一种创新和变革性的图像分割技术，在准确分割各种对象方面提供了前所未有的能力。此外，借助称为 HQ-SAM（高质量分割任何内容）的 SAM 更新版本，用户现在可以获得更高质量的分割结果，同时保留 SAM 的原始优势，例如其可推广的设计、效率和零-投篮泛化能力。这一进步将 SAM 的潜力提升到新的高度，使其成为需要卓越质量和精度的图像分割任务的卓越工具。请随时在下面的评论部分分享您的想法和反馈。

原创文章，作者：网贝WebBay，如若转载，请注明出处：https://www.webbay.cn/sam-and-hq-sam-a-new-generation-of-image-segmentation-models