在本周的一篇博客文章中,meta AI宣布发布一种新的AI工具,可以识别图像中的哪些像素属于哪个物体。分段任意模型(SAM)执行一项名为“分割”的任务,这是计算机视觉(或计算机和机器人用来“看到”和理解周围世界的过程)的基础。除了新的人工智能模型,meta还将其训练数据集提供给外部研究人员。
史蒂文·平克(Steven Pinker)在他1994年的书中写道:“35年人工智能研究的主要教训是,困难的问题很容易,容易的问题很难。”它被称为莫拉维克悖论,30多年后仍然成立。像GPT-4这样的大型语言模型能够在几秒钟内生成读起来像人类写的东西的文本,而机器人则很难捡起形状奇怪的积木——这是一项看似简单的任务,孩子们在一岁之前就会把它当成乐趣。
市场细分属于这种看似简单,但技术上很难的类别。你可以看着你的桌子,立刻分辨出什么是电脑,什么是智能手机,什么是一堆纸,什么是一张皱褶的纸巾。但对于处理2D图像的计算机来说(因为即使是视频也只是一系列2D图像),所有东西都只是一堆具有不同值的像素。桌面和纸巾从哪里开始?
meta的新SAM AI试图以一种广义的方式解决这个问题,而不是使用专门用于识别人脸或枪支等事物的模型。根据研究人员的说法,“SAM已经学会了物体是什么的一般概念,它可以为任何图像或任何视频中的任何物体生成掩码,甚至包括在训练中没有遇到的物体和图像类型。”换句话说,它不仅能识别被教看的物体,还能猜出不同的物体是什么。SAM不需要展示数百种不同的揉成一团的纸巾来区分你的桌子,它对事物的一般感觉就足够了。
您现在可以使用自己的图像在浏览器中尝试SAM。SAM可以为您选择的任何对象生成掩码,方法是用鼠标光标单击它或在它周围画一个框。它还可以为图像中检测到的每个对象创建掩码。据研究人员称,SAM还能接受文本提示,比如:选择“猫”,但该功能尚未向公众发布。它很好地分割了我们在这里测试的图像。
虽然在网上很容易找到大量的图像和视频,但高质量的分割数据要小得多。为了让SAM达到这一点,meta不得不开发一个新的训练数据库:Segment Anything 10亿掩码数据集(SA-1B)。它包含大约1100万张授权图像和超过11亿张分割掩码,“质量和多样性都很高,在某些情况下,甚至可以与以前小得多的、完全手动注释的数据集的掩码相媲美。”为了“民主化细分”,meta将其发布给其他研究人员。
meta对它的细分程序有很大的计划。可靠的通用计算机视觉在人工智能和机器人领域仍然是一个尚未解决的问题,但它有很大的潜力。meta表示,SAM有朝一日可以识别通过增强现实(AR)眼镜看到的日常物品。该公司的另一个名为Ego4D的项目也计划从不同的角度解决类似的问题。有一天,这两种工具都可能会让用户按照指示一步一步地制作食谱,或者在狗碗上给你的伴侣留下虚拟便条。
更有可能的是,SAM在工业和研究领域也有很多潜在用途。meta建议用它来帮助农民数牛,或者生物学家在显微镜下追踪细胞——可能性是无限的。