返回栏目
首页人工智能 • 正文

用手机拍视频最可怕,只能用AI拯救

发布时间:  来源:河洛网

拿着手机拍视频的时候,最大的烦恼是什么?

用手机拍视频最可怕,只能用AI拯救

比利&赫莉普; …

视频晃动似乎成为了一个亟待解决的大问题。

最近的研究可以很好地解决视频抖动的问题。 其效果如下。

从画面上看,右边的视频抖动明显较少,即使是疾走摄影,也看起来不那么闪亮。

在人潮汹涌的公共场所拍摄视频进行比较,右侧视频明显较为稳定。

引言随着视频内容在YouTube、Vimeo、Instagram等网络平台上的迅速增长,视频稳定显得越来越重要。 没有用专业视频稳定器拍摄的手机视频,通常不稳定,收视效果不好,这给视频稳定器算法提出了很大的课题。 现有的视频稳定方法需要主动修剪帧边界,或者在稳定的帧上产生假象。

所以,如何解决视频抖动,产生稳定的视频拍摄效果呢? 来自台湾大学、谷歌、弗吉尼亚理工大学、加州大学默塞德分校等研究机构的研究者提出了无需修剪的全帧视频稳定算法。

论文地址: https://arxiv.org/pdf/2102.06205.pdf

项目地址: https://github.com/Alex 04072000/nervis

具体而言,该研究提出了通过估计紧密的扭曲场来实现全帧视频稳定的算法,可以融合来自相邻帧的扭曲内容,同时合成全帧稳定的帧。 该算法的核心技术是基于学习的混合空间融合,减轻了光流不准确、高速移动物体造成的伪影的影响。 研究人员在NUS和selfie视频数据集上验证了该方法的有效性。 另外,大量实验结果表明,该研究提出的方法优于传统的视频稳定方法。

本研究的主要贡献如下

将神经渲染技术应用于视频稳定,以缓解对流不准确的敏感性问题;

提出了一种混合融合机制,在特征和图像层面上组合来自多个帧的信息,通过消融研究系统地验证各种设计选择

该研究提出的方法与典型的视频稳定技术相比,在两个通用数据集上表现出了较好的性能。

算法实现本研究提出的视频稳定方法一般分为三个阶段。 1 )运动估计; 2 )动作平滑3 )框架的扭曲和渲染。 本研究侧重于第三阶段。 也就是说,渲染高质量的帧而不进行修剪。 算法不依赖于特定的运动估计/平滑技术。

假设从实际摄像机空之间到虚拟摄像机空之间的扭曲场可以用于各帧的视频。 对于给定的输入视频,首先对各帧的图像特征进行编码,使用特定的目标时间戳使相邻帧在虚拟相机空之间失真,然后将这些特征融合渲染稳定的帧。

图3 :融合多个框架的设计选择。

为了合成所有帧的稳定视频,有必要将输入的不稳定视频中多个相邻帧的内容对齐并进行融合。 如图3所示,主要有三个部分。

传统的全景图像拼接(或基于图像的渲染)方法通常在图像级别整合扭曲(稳定)的图像。 在对准比较准确的情况下,图像级的融合效果良好,但是在流估计不可靠的情况下,有可能产生混合伪影;

可以学习将图像编码为抽象的CNN特征,在特征空之间进行融合,并将融合后的特征转换为输出帧的解码器。 该方法对对流的不准确性具有鲁棒性,但通常会生成过度模糊的图像;

该研究提出的算法结合了这两种策略的优点。 首先提取抽象的图像特征(式)6); 然后融合多个帧的失真特征。 对每个源帧,将融合的特征图和各失真的特征合并解码为输出帧和相关的可靠性图。 最后,使用式(8)生成的图像的加权平均值来生成最终输出帧。

扭曲和融合扭曲:扭曲虚拟相机空之间的相邻帧,使其与目标帧对齐。 由于从目标帧到关键帧的扭曲字段和从关键帧到相邻帧的估计光学流已经存在,因此可以通过链接流量来计算从目标帧到相邻帧的扭曲字段。 因此,可以使用反向运动学扭曲相邻的帧I_n,使其与目标帧对齐。

由于超出了遮挡或边界,目标帧的某些像素在相邻的帧中不可见。 因此,在该研究中,相邻各帧的可见性掩码{}∈ ω 指示在源帧中是否启用了一个像素(标记为1 )。 该研究使用[Sundaram等. 2010]的方法识别遮挡像素。

融合空之间:研究者为了处理排列好的框架讨论了几种融合战略。 首先,如图3(a )所示,可以在图像空之间直接混合失真的彩色帧来生成输出稳定帧。 这种图像空空间融合方法经常用于图像拼接、视频外推和新视点的合成。

为了结合图像空间和特征空间的最佳融合,该研究提出了视频稳定化的混合空间融合机制〔图3(c )〕。 与特征空间融合一样,该研究首先从相邻的各帧中提取高维特征,然后利用流扭曲特征。 然后,学习CNN,预测最能融合特征的混合权重。 研究人员将融合的特征图与每个相邻帧的失真特征联系起来,形成图像解码器输入。 图像解码器学习预测对象帧和各邻接帧的信赖图。 最后利用图像空间融合的方法,根据预测权重融合所有预测的目标帧,得到最终的稳定帧。

混合空间融合和特征空间融合的核心区别是图像解码器的输入。 图5(b )的图像解码器只将融合特征作为输入来预测输出帧。 融合的特征图已经包含了来自多个帧的混合信息。 因此,图像解码器可能难以合成清晰的图像内容。 与此相对,图5(c )的图像解码器以融合的特征映射为向导,根据失真的特征重构目标帧。 实证研究表明,这提高了输出帧的清晰度,同时避免了重影和毛刺的伪影。

图5 )不同混合空之间的效果。

实验结果控制变量实验融合功能。 该研究使用图像空间融合、特征空间融合和混合空间融合训练了提出的模型。 关于图像空间融合,还包括多频带融合和图表切割这两种传统的融合方法。 结果如下表1所示。

量化评价在这项研究中,使用了以前提出的几种SOTA视频稳定算法对提出的方法进行了评价,结果如下表4所示。

在视觉比较中,该研究中使用的方法的稳定框架和来自自ie数据集的最新方法如下图10所示。 用这种方法生成的整个帧的稳定视频具有较少的视觉瑕疵。

图10 :与sota法的视觉效果比较。

结果表明,本研究提出的融合方法不受帧边界大幅修剪的影响,渲染稳定帧时的伪影明显少于DIFRINT。

执行时间分析该研究基于CPU的方法[Grundmann et al. 2011; Liu et al. 2013; 已在Yu and Ramamoorthi 2018]和i7-8550 u处理器笔记本电脑上测试了运行时间。 此外,该研究还采用了GPU方法[ choi和kwe on 2020; Wang et al. 2018; 在Yu and Ramamoorthi 2020]和Nvidia Tesla V100 GPU上进行了运行时实验。 测试视频的帧分辨率为854×; 480。 结果如下表5所示。

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com