
想象一下,你在一条繁忙的街道上看了一会儿,然后试图根据记忆描绘出你所看到的场景。大多数人都能画出汽车、人、人行横道等主要物体的大致位置,但几乎没有人能以像素级的精度画出每个细节。大多数现代计算机视觉算法也是如此:它们在捕捉场景的高级细节方面非常出色,但在处理信息时却失去了细粒度的细节。
现在,麻省理工学院的研究人员已经创建了一个名为“feature up”的系统,该系统可以让算法同时捕获场景的所有高层和低层细节——几乎就像计算机视觉的Lasik眼科手术一样。
当计算机学会通过观看图像和视频来“看”时,它们通过所谓的“特征”来建立场景中的“想法”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个小正方形的网格,并将这些正方形作为一个组来处理,以确定照片中发生了什么。每个小正方形通常由16到32像素组成,所以这些算法的分辨率比它们处理的图像要小得多。在试图总结和理解照片的过程中,算法失去了大量的像素清晰度。
feature up算法可以阻止这种信息丢失,并在不影响速度或质量的情况下提高任何深度网络的分辨率。这使得研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,想象一下试图解释肺癌检测算法的预测,目标是定位肿瘤。在使用类激活图(CAM)等方法解释算法之前应用feature up,可以根据模型产生更详细(16 - 32倍)的肿瘤位置视图。
feature up不仅可以帮助从业者理解他们的模型,而且还可以改进一系列不同的任务,如对象检测、语义分割(用对象标签为图像中的像素分配标签)和深度估计。它通过提供更精确、高分辨率的功能来实现这一目标,这对于构建从自动驾驶到医学成像等视觉应用至关重要。
“所有计算机视觉的本质都在于这些从深度学习架构中产生的深度智能特征。现代算法的一大挑战是,它们将大图像减少到非常小的“智能”特征网格,获得智能见解,但失去了更精细的细节,“麻省理工学院电子工程和计算机科学博士生马克汉密尔顿说,麻省理工学院计算机科学与人工智能实验室(CSAIL)附属机构,也是该项目的论文的共同主要作者。
“feature up帮助实现了两全其美:具有原始图像分辨率的高度智能表示。这些高分辨率功能显著提高了一系列计算机视觉任务的性能,从增强目标检测和改进深度预测,到通过高分辨率分析更深入地了解网络的决策过程。”
随着这些大型人工智能模型变得越来越普遍,人们越来越需要解释它们在做什么,在看什么,在想什么。
但是,如何才能准确地发现这些细粒度的细节呢?奇怪的是,秘密就在于摇摆不定的图像。
特别地,FeatUp应用微小的调整(比如将图像向左或向右移动几个像素),并观察算法如何响应图像的这些微小移动。这就产生了数百张略有不同的深度特征地图,这些地图可以组合成一组清晰、高分辨率的深度特征。
“我们想象存在一些高分辨率的特征,当我们摆动它们并模糊它们时,它们将与摆动图像中所有原始的低分辨率特征相匹配。我们的目标是学习如何使用这个‘游戏’将低分辨率特征提炼成高分辨率特征,让我们知道我们做得有多好。”
这种方法类似于算法如何通过确保预测的3D对象与用于创建该对象的所有2D照片相匹配,从多个2D图像创建3D模型。在feature up的例子中,他们预测的高分辨率特征图与所有通过抖动原始图像形成的低分辨率特征图一致。
该团队注意到PyTorch中可用的标准工具不足以满足他们的需求,并在寻求快速高效的解决方案时引入了一种新型的深度网络层。他们的自定义层,一个特殊的联合双边上采样操作,比PyTorch中简单的实现效率高100倍以上。
该团队还表明,这个新层可以改进各种不同的算法,包括语义分割和深度预测。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了实质性的性能提升。
“另一个应用是小对象检索,我们的算法可以精确定位对象。例如,即使在混乱的道路场景中,使用了FeatUp的算法也可以看到交通锥、反射器、灯光和坑洞等微小物体,而这些都是低分辨率算法无法看到的。“这证明了它将粗糙特征增强为精细细节信号的能力,”加州大学伯克利分校的博士生斯蒂芬妮·傅(Stephanie Fu)说,她是这篇新论文的另一位主要作者。
这对于时间敏感的任务尤其重要,比如在拥挤的高速公路上用无人驾驶汽车精确定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高此类任务的准确性,而且还可能使这些系统更加可靠、可解释和值得信赖。”
关于未来的期望,该团队强调了在研究社区内外广泛采用FeatUp的潜力,类似于数据增强实践。
Fu说:“我们的目标是使这种方法成为深度学习的基本工具,丰富模型以更详细地感知世界,而不会像传统的高分辨率处理那样计算效率低下。”
没有参与这项研究的康奈尔大学计算机科学教授Noah Snavely说:“通过以全图像分辨率生成图像,FeatUp代表了视觉表现真正有用的一个美妙进步。”
“在过去几年里,学习视觉表征已经变得非常好,但它们几乎总是以非常低的分辨率产生——你可能放入一张漂亮的全分辨率照片,得到的是一个很小的、邮票大小的特征网格。如果您想在产生全分辨率输出的应用程序中使用这些特性,这将是一个问题。通过将超分辨率的经典思想与现代学习方法相结合,以创造性的方式解决了这个问题,从而产生了漂亮的高分辨率特征地图。”
“我们希望这个简单的想法能得到广泛的应用。它提供了高分辨率版本的图像分析,我们以前认为只能是低分辨率的,”资深作者威廉·t·弗里曼说,他是麻省理工学院电子工程教授和计算机科学教授,CSAIL成员。
主要作者Fu和Hamilton由麻省理工学院的博士生Laura Brandt和Axel Feldmann以及Zhoutong Zhang博士陪同,他们都是麻省理工学院CSAIL的现任或前任成员。
更多信息:论文:Stephanie Fu等人,feature up: A Model-Agnostic linkwork for Features at any Resolution(2024),由麻省理工学院提供
本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载,这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。
引用:新算法解锁计算机视觉的高分辨率洞察(2024年3月18日)检索自https://techxplore.com/news/2024-03-algorithm-high-resolution-insights-vision.html本文档
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。








