返回栏目
首页人工智能 • 正文

卷积不需要完全基于变换器的第一个视频理解架构

发布时间:  来源:河洛网

Facebook AI提出了一种新的视频理解架构:完全基于转换器,不需要卷积,训练速度快,计算成本低。

卷积不需要完全基于变换器的第一个视频理解架构

TimeSformer是第一个基于转换器的视频架构。 近年来,Transformer已成为机器翻译、通用语言理解等自然语言处理( NLP )领域许多应用的主导方法。

TimeSformer通过几个具有挑战性的行为识别标准(包括Kinetics-400行为识别数据集)实现了最佳性能。 另外,TimeSformer的训练速度比3D卷积神经网络( CNN )快约3倍,估计所需的计算量不足其1/10。

论文链接: https:/ arxiv.org/pdf/2102.05095.pdf

此外,TimeSformer的可扩展性允许通过更长的视频片段训练更大的模型。 这为AI系统在视频中理解更复杂的人类行为打开了大门,对于需要理解人类复杂行为的AI应用来说是极其有益的。

在Kinetics-400 (左)和Kinetics-600 (右)两个动作识别标准下,TimeSformer比较了目前具有SOTA性能的3D卷积神经网络的视频分类精度和结果。 TimeSformer在两个数据集上都达到了最佳精度。

时间格式器:一种新的视频理解体系结构

传统的视频分类模型利用3D卷积滤波器。 虽然这样的滤波器对于捕捉局部时空区域内的短距离模式是有效的,但是不能对超过接受区域的时空依赖关系进行模型化。

因为TimeSformer只构建在“转换器”模型中使用的自我提醒机制中,所以在捕获整个视频时可以使用空依赖关系。 为了将转换器应用于视频,该模型将输入视频解释为从各帧提取的图像patch的时间- 空空间序列。

这个格式类似于NLP中使用的格式。 在NLP中,Transformer将语句视为从各个单词计算出的特征向量序列。 就像NLP Transformer将各个单词与文中的其他单词进行比较来推测其含义一样,模型通过将各个patch与视频中的其他patch进行明确的比较来获得各个patch的含义。 这也就是所谓的自我注意机制,可以捕获邻接的patch间的短距离依赖性和远程patch间的远程关联。

传统的3D卷积神经网络需要在视频中的所有空之间-时间位置使用大量的滤波器,因此计算成本很高。 TimeSformer将(1)视频分解为一组不重叠的patch,因此计算成本低(2)采用自我注意力,避免所有patch对的详细比较。 研究者将该方案称为分割空间-时间注意力,其思想是依次应用时间注意力和空间注意力。

的注意力,每个patch (例如下图中的蓝色正方形)只与其他帧相同的空之间的位置patch (绿色正方形)进行比较。 如果视频包括t帧,则每个路径只进行t次时间比较。 使用空间注意力时,每个patch只与同一帧内的patch (红色patch )进行比较。

因此,如果n是每帧的patch数,则空间-时间注意力分割的方法需要的不是空间-时间注意力联合的方法,而是每个patch合计( T+N )次的比较(。 n )次的比较。 此外,该研究还发现,与联合空间-时间注意力相比,分割空间-时间注意力不仅更有效,而且更准确。

TimeSformer的可扩展性允许您在非常长的剪辑(例如,102秒的96帧序列)上运行,从而执行与当前3D CNN明显不同的长时间建模。 后者最多只能处理几秒钟的片段.识别长时间的活动是重要的需要.

例如,假设有一个制作法式吐司的视频。 如果一次分析几秒钟的AI模型,有时会识别出打鸡蛋、把牛奶放入碗中等原子运动。 但是,按各个动作进行分类并不足以将复杂的活动进行分类。 TimeSformer可以在更长的时间范围内分析视频,明确原子运动之间的明确依赖关系(将牛奶和已经制作好的鸡蛋混合等)。

TimeSformer的效率允许以高空秒分辨率(例如,高达560x560像素的帧)和长视频(包括高达96帧)训练模型。

上图显示了TimeSformer学习到的自我注意热图的可视化。 第一行是原始帧,第二行根据基于自身注意力的视频分类的重要性对各像素的颜色进行加权(被认为不重要的像素变暗)。 。 TimeSformer学习加入视频的相关领域,以执行复杂的时间空推理。

促进更多领域的发展

为了训练视频理解模型,目前最好的3D CNN只能使用几秒钟的视频剪辑。 使用TimeSformer,可以训练更长的视频剪辑(最多几分钟)。 这可能会大大促进研究,让机器了解录像复杂的长动作。 这对于许多旨在了解人类行为的AI应用程序(如AI助手)来说是重要的一步。

另外,TimeSformer的低推理成本是迈向未来实时视频处理应用的重要一步,如为AR/VR和可穿戴摄像机提供服务的智能助手。 研究人员相信,这种方法的成本削减将推动更多的研究人员致力于解决视频分析问题,从而加快这一领域的研究进展。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com